国产av喷白浆在线播放,国产成人亚洲欧美激情,思思99re66在线精品免费观看

<rp id="cmjn0"></rp>

AI考生抵達(dá)，商湯與上海AI實(shí)驗(yàn)室等發(fā)布“書生·浦語”大模型_每日簡訊

2023-06-08 12:54:18 中國網(wǎng)財(cái)經(jīng)

隨著AI大語言模型越來越多地表現(xiàn)出接近人類智能，面向人類設(shè)計(jì)的高難度、綜合性考試被越來越多地引入到對語言模型的智能水平進(jìn)行評測。OpenAI 在其關(guān)于 GPT-4 的技術(shù)報(bào)告中就主要通過各領(lǐng)域的考試對模型能力進(jìn)行檢驗(yàn)。

【資料圖】

2023年高考今日開考，中文大語言模型是否能夠在高考中趕超ChatGPT呢？

綜合“大考”：“書生·浦語”多項(xiàng)成績領(lǐng)先于 ChatGPT

近日，商湯科技、上海AI實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級參數(shù)大語言模型“書生·浦語”(InternLM)。

“書生·浦語”具有1040億參數(shù)，是在包含1.6萬億token的多語種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。

全面評測結(jié)果顯示，“書生·浦語”不僅在知識掌握、閱讀理解、數(shù)學(xué)推理、多語翻譯等多個測試任務(wù)上表現(xiàn)優(yōu)秀，而且具備很強(qiáng)的綜合能力，因而在綜合性考試中表現(xiàn)突出，在多項(xiàng)中文考試中取得超越ChatGPT的成績，其中就包括中國高考各個科目的數(shù)據(jù)集(GaoKao)。

“書生·浦語”聯(lián)合團(tuán)隊(duì)選取了20余項(xiàng)評測對其進(jìn)行檢驗(yàn)，其中包含全球最具影響力的四個綜合性考試評測集：

由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評測集MMLU；

微軟研究院推出的學(xué)科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等)；

由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集C-Eval；

以及由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的高考題目評測集Gaokao；

實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)對“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4進(jìn)行了全面測試，針對上述四個評測集的成績對比如下(滿分100分)。

“書生·浦語”不僅顯著超越了GLM-130B和LLaMA-65B等學(xué)術(shù)開源模型，還在AGIEval、C-Eval，以及Gaokao等多個綜合性考試中領(lǐng)先于ChatGPT；在以美國考試為主的MMLU上實(shí)現(xiàn)和ChatGPT持平。這些綜合性考試的成績反映出“書生·浦語”扎實(shí)的知識掌握程度和優(yōu)秀的綜合能力。

雖然 “書生·浦語”在考試評測上取得優(yōu)秀成績，但在測評中也可以看到，大語言模型仍然存在不少能力局限性?！皶て终Z” 受限于2K的語境窗口長度(GPT-4的語境窗口長度為32K)，在長文理解、復(fù)雜推理、撰寫代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外，在實(shí)際對話中，大語言模型還普遍存在幻覺、概念混淆等問題。這些局限使得大語言模型在開放場景中的使用還有很長的路要走。

四個綜合性考試評測數(shù)據(jù)集結(jié)果

MMLU是由伯克利加州大學(xué)(UC Berkeley)聯(lián)合哥倫比亞大學(xué)、芝加哥大學(xué)和UIUC共同構(gòu)建的多任務(wù)考試評測集，涵蓋了初等數(shù)學(xué)、物理、化學(xué)、計(jì)算機(jī)科學(xué)、美國歷史、法律、經(jīng)濟(jì)、外交等多個學(xué)科。

細(xì)分科目結(jié)果如下表所示。

(圖中粗體表示結(jié)果最佳，下劃線表示結(jié)果第二)

AGIEval是由微軟研究院在今年新提出的學(xué)科考試評測集，主要目標(biāo)是通過面向的考試來評估語言模型的能力，從而實(shí)現(xiàn)模型智能和人類智能的對比。

這個評測集基于中國和美國各類考試構(gòu)建了19個評測大項(xiàng)，包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是，在這19個大項(xiàng)有9個大項(xiàng)是中國高考，通常也列為一個重要的評測子集 AGIEval (GK)。

下列表格中，帶GK的是中國高考科目。

(圖中粗體表示結(jié)果最佳，下劃線表示結(jié)果第二)

C-Eval是由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集。

它包含了52個科目的近14000道考題，涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計(jì)算機(jī)等學(xué)科考試，以及面向公務(wù)員、注冊會計(jì)師、律師、醫(yī)生的職業(yè)考試。

測試結(jié)果可以通過leaderboard獲得。

Gaokao是由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的基于中國高考題目的綜合性考試評測集，包含了中國高考的各個科目，以及選擇、填空、問答等多種題型。

在GaoKao測評中，“書生·浦語”在超過75%的項(xiàng)目中均領(lǐng)先ChatGPT。

分項(xiàng)評測：閱讀理解、推理能力表現(xiàn)出色

為避免“偏科”，研究人員還通過多個學(xué)術(shù)評測集，對“書生·浦語”等語言模型的分項(xiàng)能力進(jìn)行了評測對比。

結(jié)果顯示，“書生·浦語”不僅在中英文的閱讀理解方面表現(xiàn)突出，并且在數(shù)學(xué)推理、編程能力等評測中也取得較好成績。

知識問答方面，“書生·浦語”在TriviaQA 和 NaturalQuestions 兩項(xiàng)評測上得分為69.8和27.6，均超越LLaMA-65B(得分為68.2和23.8)。

閱讀理解(英語)方面，“書生·浦語”明顯領(lǐng)先于LLaMA-65B和ChatGPT。浦語在初中和高中英語閱讀理解中得分為92.7和88.9，ChatGPT得分為 85.6 和81.2，LLaMA-65B則更低。

中文理解方面，“書生·浦語”成績?nèi)娉街饕膬蓚€中文語言模型ERNIE-260B和GLM-130B。

多語翻譯方面，“書生·浦語”在多語種互譯中的平均得分為33.9，顯著超越LLaMA(平均得分15.1)。

數(shù)學(xué)推理方面，“書生·浦語”在GSM8K和MATH這兩項(xiàng)被廣泛用于評測的數(shù)學(xué)考試中，分別取得62.9和14.9的得分，明顯領(lǐng)先于Google的PaLM-540B(得分為56.5和8.8)與LLaMA-65B(得分為50.9和10.9)。

編程能力方面，“書生·浦語”在HumanEval和MBPP這兩項(xiàng)最具代表性的考評中，分別取得28.1和41.4的得分(其中經(jīng)過在代碼領(lǐng)域的微調(diào)后，在HumanEval上的得分可以提升至45.7)，明顯領(lǐng)先于PaLM-540B(得分為 26.2和36.8)與LLaMA-65B(得分為23.7和37.7)。

此外，研究人員還對“書生·浦語”的安全性進(jìn)行評測，在TruthfulQA(主要評價(jià)回答的事實(shí)準(zhǔn)確性) 以及CrowS-Pairs(主要評價(jià)回答是否含有偏見)上，“書生·浦語”均達(dá)到領(lǐng)先水平。

(以上圖片由商湯科技授權(quán)中國網(wǎng)財(cái)經(jīng)使用)

原標(biāo)題：AI考生今日抵達(dá)，商湯與上海AI實(shí)驗(yàn)室等發(fā)布“書生·浦語”大模型

關(guān)鍵詞：

猜你喜歡

AI考生抵達(dá)，商湯與上海AI實(shí)驗(yàn)室等發(fā)布“書生·浦語”大模型_每日簡訊

隨著AI大語言模型越來越多地表現(xiàn)出接近人類智能，面向人類設(shè)計(jì)的高難度

2023-06-08 12:54:18

今日熱訊：萬達(dá)集團(tuán)又一個壞消息！王健林慌不？

來源：財(cái)通社作者：楊波萬達(dá)集團(tuán)，又出重磅消息。剛剛，萬達(dá)集團(tuán)在大連

2023-06-08 12:15:11

焦點(diǎn)資訊：這家老牌國貨咋了？員工稱從2月開始被欠薪，官方網(wǎng)店下架全部商品，年銷售額曾達(dá)20億

每經(jīng)編輯：盧祥勇,蓋源源“活力28，沙市日化”，曾幾何時，這兩句廣告

2023-06-08 10:18:32

猜你喜歡

AI考生抵達(dá)，商湯與上海AI實(shí)驗(yàn)室等發(fā)布“書生·浦語”大模型_每日簡訊

今日熱訊：萬達(dá)集團(tuán)又一個壞消息！王健林慌不？

焦點(diǎn)資訊：這家老牌國貨咋了？員工稱從2月開始被欠薪，官方網(wǎng)店下架全部商品，年銷售額曾達(dá)20億

最新資訊

推薦

焦點(diǎn)速訊：就業(yè)揚(yáng)帆政策護(hù)航 “高校畢業(yè)生等青年就業(yè)創(chuàng)業(yè)政策宣傳周”活動啟動

【天天新要聞】天邁科技擬定增募資不超1.15億首季及去年前年均虧損

當(dāng)前速看：“鼠頭羅生門”持續(xù)發(fā)酵：網(wǎng)友不買賬校方通報(bào)，之前出過類似事件

每日快播：漲至1小時4.5元？部分城市共享單車已貴過公交地鐵

熱點(diǎn)

行情

午評：三大指數(shù)早間低位震蕩豬肉板塊漲幅居前

堅(jiān)持品質(zhì)交付旭輝集團(tuán)榮獲2023年藍(lán)籌年會“美好品質(zhì)交付企業(yè)”稱號

優(yōu)品車美股漲12.58%

新氧美股跌7.39%|快報(bào)

經(jīng)濟(jì)

“金鐘罩”護(hù)體，“超強(qiáng)大腦”保駕，選安全感爆棚的艾瑞澤8準(zhǔn)沒錯

再傳佳訊！蘇州首家中華詩教示范園落地吳江區(qū)華宋幼兒園！

斗魚挖掘直播綜藝多元價(jià)值，國潮女團(tuán)比賽圓滿收官

軟硬兼施、剛?cè)岵?jì)，艾瑞澤8要做就做你的安全出行保鏢

猜你喜歡

AI考生抵達(dá)，商湯與上海AI實(shí)驗(yàn)室等發(fā)布“書生·浦語”大模型_每日簡訊

今日熱訊：萬達(dá)集團(tuán)又一個壞消息！王健林慌不？

焦點(diǎn)資訊：這家老牌國貨咋了？員工稱從2月開始被欠薪，官方網(wǎng)店下架全部商品，年銷售額曾達(dá)20億

最新資訊

推薦

焦點(diǎn)速訊：就業(yè)揚(yáng)帆 政策護(hù)航 “高校畢業(yè)生等青年就業(yè)創(chuàng)業(yè)政策宣傳周”活動啟動

【天天新要聞】天邁科技擬定增募資不超1.15億 首季及去年前年均虧損

當(dāng)前速看：“鼠頭羅生門”持續(xù)發(fā)酵：網(wǎng)友不買賬校方通報(bào)，之前出過類似事件

每日快播：漲至1小時4.5元？部分城市共享單車已貴過公交地鐵

熱點(diǎn)

行情

午評：三大指數(shù)早間低位震蕩 豬肉板塊漲幅居前

堅(jiān)持品質(zhì)交付 旭輝集團(tuán)榮獲2023年藍(lán)籌年會“美好品質(zhì)交付企業(yè)”稱號

優(yōu)品車美股漲12.58%

新氧美股跌7.39%|快報(bào)

經(jīng)濟(jì)

“金鐘罩”護(hù)體，“超強(qiáng)大腦”保駕，選安全感爆棚的艾瑞澤8準(zhǔn)沒錯

再傳佳訊！蘇州首家中華詩教示范園落地吳江區(qū)華宋幼兒園！

斗魚挖掘直播綜藝多元價(jià)值，國潮女團(tuán)比賽圓滿收官

軟硬兼施、剛?cè)岵?jì)，艾瑞澤8要做就做你的安全出行保鏢

AI考生抵達(dá)，商湯與上海AI實(shí)驗(yàn)室等發(fā)布“書生·浦語”大模型_每日簡訊

今日熱訊：萬達(dá)集團(tuán)又一個壞消息！王健林慌不？

焦點(diǎn)資訊：這家老牌國貨咋了？員工稱從2月開始被欠薪，官方網(wǎng)店下架全部商品，年銷售額曾達(dá)20億

焦點(diǎn)速訊：就業(yè)揚(yáng)帆政策護(hù)航 “高校畢業(yè)生等青年就業(yè)創(chuàng)業(yè)政策宣傳周”活動啟動

【天天新要聞】天邁科技擬定增募資不超1.15億首季及去年前年均虧損

每日快播：漲至1小時4.5元？部分城市共享單車已貴過公交地鐵

午評：三大指數(shù)早間低位震蕩豬肉板塊漲幅居前

堅(jiān)持品質(zhì)交付旭輝集團(tuán)榮獲2023年藍(lán)籌年會“美好品質(zhì)交付企業(yè)”稱號

“金鐘罩”護(hù)體，“超強(qiáng)大腦”保駕，選安全感爆棚的艾瑞澤8準(zhǔn)沒錯

再傳佳訊！蘇州首家中華詩教示范園落地吳江區(qū)華宋幼兒園！

軟硬兼施、剛?cè)岵?jì)，艾瑞澤8要做就做你的安全出行保鏢