趕超ChatGPT “書生·浦語”大語言模型發(fā)布

人民網(wǎng)上海6月7日電 隨著AI大語言模型越來越多地表現(xiàn)出接近人類的智能,面向人類設(shè)計(jì)的高難度、綜合性考試被越來越多地引入對語言模型的智能水平進(jìn)行評測。OpenAI 在其關(guān)于 GPT-4 的技術(shù)報告中就主要通過各領(lǐng)域的考試對模型能力進(jìn)行檢驗(yàn)。2023年高考開考,中文大語言模型是否能夠在高考中趕超ChatGPT呢?
今天,上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)、商湯科技聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級參數(shù)大語言模型“書生·浦語”(InternLM)。
據(jù)介紹,“書生·浦語”具有1040億參數(shù),是在包含1.6萬億token的多語種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。
全面評測結(jié)果顯示,“書生·浦語”不僅在知識掌握、閱讀理解、數(shù)學(xué)推理、多語翻譯等多個測試任務(wù)上表現(xiàn)優(yōu)秀,而且具備很強(qiáng)的綜合能力,因而在綜合性考試中表現(xiàn)突出,在多項(xiàng)中文考試中取得超越ChatGPT的成績,其中就包括中國高考各科目的數(shù)據(jù)集(GaoKao)。
目前,“書生·浦語”相關(guān)技術(shù)報告已在網(wǎng)上公開,報告對模型的技術(shù)特點(diǎn)以及測試結(jié)果進(jìn)行了詳細(xì)闡述。
綜合“大考”:“書生·浦語”多項(xiàng)成績領(lǐng)先于 ChatGPT
“書生·浦語”聯(lián)合團(tuán)隊(duì)選取了20余項(xiàng)評測對其進(jìn)行檢驗(yàn),其中包含全球最具影響力的四個綜合性考試評測集:由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評測集MMLU;微軟研究院推出的學(xué)科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE 和 GMAT等);由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集C-Eval;以及由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的高考題目評測集Gaokao。
實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)對“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 進(jìn)行了全面測試,針對上述四個評測集的成績對比如下(滿分100分)。
可以看到,“書生·浦語”不僅顯著超越了 GLM-130B 和 LLaMA-65B 等學(xué)術(shù)開源模型,還在AGIEval、C-Eval、以及 Gaokao 等多個綜合性考試中領(lǐng)先于 ChatGPT;在以美國考試為主的MMLU上實(shí)現(xiàn)和 ChatGPT 持平。這些綜合性考試的成績反映出“書生·浦語”扎實(shí)的知識掌握程度和優(yōu)秀的綜合能力。
雖然 “書生·浦語”在考試評測上取得優(yōu)秀成績,但在測評中也可以看到,大語言模型仍然存在不少能力局限性。“書生·浦語” 受限于2K的語境窗口長度(GPT-4的語境窗口長度為32K),在長文理解、復(fù)雜推理、撰寫代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外,在實(shí)際對話中,大語言模型還普遍存在幻覺、概念混淆等問題;這些局限使得大語言模型在開放場景中的使用還有很長的路要走。
四個綜合性考試評測數(shù)據(jù)集結(jié)果
MMLU是由伯克利加州大學(xué)(UC Berkeley)聯(lián)合哥倫比亞大學(xué)、芝加哥大學(xué)和 UIUC 公共構(gòu)建的多任務(wù)考試評測集,涵蓋了初等數(shù)學(xué)、物理、化學(xué)、計(jì)算機(jī)科學(xué)、美國歷史、法律、經(jīng)濟(jì)、外交等多個學(xué)科。 細(xì)分科目結(jié)果如下表所示(粗體表示最佳結(jié)果,下劃線表示第二)。
AGIEval是由微軟研究院在今年新提出的學(xué)科考試評測集,主要目標(biāo)是通過面向的考試來評估語言模型的能力,從而實(shí)現(xiàn)模型智能和人類智能的對比。這個評測集基于中國和美國各類考試構(gòu)建了19個評測大項(xiàng),包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是,在這19個大項(xiàng)有9個大項(xiàng)是中國高考,通常也列為一個重要的評測子集 AGIEval (GK)。下列表格中,帶GK的是中國高考科目。
C-Eval是由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集。它包含了52個科目的近14000道考題,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計(jì)算機(jī)等學(xué)科考試,以及面向公務(wù)員、注冊會計(jì)師、律師、醫(yī)生的職業(yè)考試。測試結(jié)果可以通過leaderboard獲得。
(https://cevalbenchmark.com/static/leaderboard.html)
Gaokao是由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的基于中國高考題目的綜合性考試評測集,包含了中國高考的各個科目,以及選擇、填空、問答等多種題型。在GaoKao測評中,“書生·浦語”在超過75%的項(xiàng)目中均領(lǐng)先ChatGPT。
分項(xiàng)評測:閱讀理解、推理能力表現(xiàn)出色
為了避免“偏科”,研究人員還通過多個學(xué)術(shù)評測集,對“書生·浦語”等語言模型的分項(xiàng)能力進(jìn)行了評測對比。結(jié)果顯示,“書生·浦語”不僅在中英文的閱讀理解方面表現(xiàn)突出,并且在數(shù)學(xué)推理、編程能力等評測中也取得了較好的成績。
在知識問答方面,“書生·浦語”在TriviaQA 和 NaturalQuestions 兩項(xiàng)評測上得分為69.8和27.6,均超越 LLaMA-65B(得分為68.2和23.8)。
在閱讀理解(英語)方面,“書生·浦語”明顯領(lǐng)先于 LLaMA-65B 和 ChatGPT。浦語在初中和高中英語閱讀理解中得分為 92.7 和 88.9,? ChatGPT 得分為 85.6 和 81.2,LLaMA-65B則更低。
在中文理解方面,“書生·浦語”的成績?nèi)娉街饕膬蓚€中文語言模型 ERNIE-260B 和 GLM-130B。
在多語翻譯方面,“書生·浦語”在多語種互譯中的平均得分為33.9,顯著超越LLaMA(平均得分15.1)。
在數(shù)學(xué)推理方面,“書生·浦語”在GSM8K 和 MATH 這兩項(xiàng)被廣泛用于評測的數(shù)學(xué)考試中,分別取得 62.9 和 14.9 的得分,明顯領(lǐng)先于 Google 的 PaLM-540B(得分為 56.5 和 8.8)與 LLaMA-65B (得分為 50.9 和 10.9)。
在編程能力方面,“書生·浦語”在HumanEval 和 MBPP 這兩項(xiàng)最具代表性的考評中,分別取得 28.1 和 41.4 的得分(其中經(jīng)過在代碼領(lǐng)域的微調(diào)后,在HumanEval上的得分可以提升至45.7),明顯領(lǐng)先于 PaLM-540B(得分為 26.2 和 36.8)與 LLaMA-65B(得分為 23.7 和 37.7)。
此外,研究人員還對“書生·浦語”的安全性進(jìn)行評測,在 TruthfulQA(主要評價回答的事實(shí)準(zhǔn)確性) 以及 CrowS-Pairs(主要評價回答是否含有偏見)上,“書生·浦語”均達(dá)到領(lǐng)先水平。
分享讓更多人看到
熱門排行
- 1長三角養(yǎng)老服務(wù)質(zhì)量提升項(xiàng)目正式啟動
- 2讓殘疾人圓夢職場!“助殘圓夢”就業(yè)指導(dǎo)…
- 3午間解鎖新體驗(yàn)!在楊浦這個園區(qū)就能體驗(yàn)…
- 4中山公園免費(fèi)向游客送出數(shù)百盆月季花~
- 5第十三屆中國舞蹈“荷花獎”舞劇評獎在長…
- 6助力區(qū)域產(chǎn)業(yè)創(chuàng)新發(fā)展,桃浦這里的“酒店…
- 7游園會、藝術(shù)節(jié)、愛心義賣…長寧校園“六…
- 8共謀虹橋國際開放樞紐發(fā)展,滬蘇浙13個…
- 9進(jìn)入汛期!一場應(yīng)急綜合演練在金山這里舉行
- 10社區(qū)小花園微改造,“里子”“面子”同步…