久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當(dāng)前的位置: 首頁(yè) > 新聞 > 其他

大模型權(quán)威報(bào)告:訊飛星火得分第一 被評(píng)為“最聰明”的國(guó)產(chǎn)大模型

來(lái)源:快科技 編輯:非小米 時(shí)間:2023-08-17 19:00人閱讀

國(guó)內(nèi)“千模大戰(zhàn)”下,誰(shuí)是最聰明的大模型?《麻省理工科技評(píng)論》中國(guó)最新發(fā)布的大模型評(píng)測(cè)報(bào)告給出了答案。

大模型權(quán)威報(bào)告:訊飛星火得分第一 被評(píng)為“最聰明”的國(guó)產(chǎn)大模型

報(bào)告顯示,在8個(gè)一級(jí)大類(lèi)的600道題目的測(cè)試和盲評(píng)中,訊飛星火認(rèn)知大模型V2.0在6個(gè)大類(lèi)中得分率排名第一,在此次評(píng)測(cè)中表現(xiàn)突出,以 81.5 分(百分制計(jì))的成績(jī)?cè)诒敬卧u(píng)測(cè)中登頂,榮獲“最聰明”的國(guó)產(chǎn)大模型稱(chēng)號(hào)。

大模型權(quán)威報(bào)告:訊飛星火得分第一 被評(píng)為“最聰明”的國(guó)產(chǎn)大模型
圖:大模型評(píng)測(cè)綜合得分率

大模型權(quán)威報(bào)告:訊飛星火得分第一 被評(píng)為“最聰明”的國(guó)產(chǎn)大模型
圖:4個(gè)大模型各項(xiàng)能力雷達(dá)圖

《麻省理工科技評(píng)論》中國(guó)從研發(fā)和商業(yè)化能力、外界態(tài)度以及發(fā)展趨勢(shì)等維度全方位檢測(cè)大模型的能力,力圖評(píng)出“最聰明”的國(guó)產(chǎn)大模型。選取了“訊飛星火”、“百度文心一言”、“商湯商量”、“阿里通義千問(wèn)”作為中文大模型平臺(tái)的代表,展開(kāi)系統(tǒng)、科學(xué)的評(píng)測(cè)。

本次評(píng)測(cè)使用的測(cè)試集包含600道題目,覆蓋了語(yǔ)言專(zhuān)項(xiàng)、數(shù)學(xué)專(zhuān)項(xiàng)、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識(shí)、安全性共 8 個(gè)一級(jí)大類(lèi),126 個(gè)二級(jí)分類(lèi),290 個(gè)三級(jí)標(biāo)簽,并針對(duì)問(wèn)題的豐富性和多樣性做了優(yōu)化。

在題目類(lèi)型上,為了兼顧定量、定性的評(píng)價(jià)與測(cè)試,設(shè)置了“單選”、“多選”、“填空”、“簡(jiǎn)答”4個(gè)題型,分別有 145 道、138 道、136 道和 181 道。大模型評(píng)測(cè)體系使用盲評(píng)方式,客觀評(píng)估國(guó)產(chǎn)大模型的聰明程度。

作為“最聰明”的大模型的基礎(chǔ)能力,語(yǔ)言專(zhuān)項(xiàng)評(píng)測(cè)包含對(duì)話理解、多語(yǔ)種、諷刺、古詩(shī)詞理解、文本生成、要點(diǎn)總結(jié)、情感分析、語(yǔ)義判斷等 61 個(gè)二級(jí)分類(lèi),題型則以簡(jiǎn)答為主。結(jié)果顯示,訊飛星火 85.73%的得分率排名第一,明顯高于平均值。

大模型權(quán)威報(bào)告:訊飛星火得分第一 被評(píng)為“最聰明”的國(guó)產(chǎn)大模型
圖:語(yǔ)言專(zhuān)項(xiàng)評(píng)測(cè)得分率

數(shù)學(xué)專(zhuān)項(xiàng)評(píng)測(cè),是“最聰明”大模型必不可少的評(píng)測(cè)維度。本次評(píng)測(cè)包含代數(shù)、幾何、解方程、復(fù)雜數(shù)學(xué)、統(tǒng)計(jì)學(xué)等 9 個(gè)二級(jí)分類(lèi),以選擇題為主。

其中,訊飛星火以 77.75% 的得分率名列第一,遠(yuǎn)高于平均得分率 56%,其他平臺(tái)得分率基本相當(dāng)。報(bào)告稱(chēng),在大模型普遍“數(shù)學(xué)不好”的情況下,訊飛星火這一成績(jī)頗為難得,其在數(shù)學(xué)專(zhuān)項(xiàng)上的領(lǐng)先同樣體現(xiàn)在二級(jí)分類(lèi)的評(píng)分結(jié)果上,在 77.8%的二級(jí)分類(lèi)中得分率第一,遠(yuǎn)超其他平臺(tái),初步判斷其擅長(zhǎng)幾何與情景應(yīng)用。

大模型權(quán)威報(bào)告:訊飛星火得分第一 被評(píng)為“最聰明”的國(guó)產(chǎn)大模型
圖:數(shù)學(xué)專(zhuān)項(xiàng)評(píng)測(cè)得分率

作為體現(xiàn)大模型“聰明程度”不可或缺的“硬核”部分,理科綜合評(píng)測(cè)包含表格問(wèn)答、化學(xué)、生物、物理、醫(yī)學(xué) 5 個(gè)二級(jí)分類(lèi),題型上以單選和簡(jiǎn)答為主。

評(píng)測(cè)結(jié)果中,訊飛星火 78.50% 的得分率排名第一。另外,訊飛星火在理科綜合大類(lèi)下 80% 的二級(jí)分類(lèi)評(píng)測(cè)中得分率為第一,化學(xué)與生物較為突出。 

大模型權(quán)威報(bào)告:訊飛星火得分第一 被評(píng)為“最聰明”的國(guó)產(chǎn)大模型
圖:理科綜合評(píng)測(cè)得分率

邏輯思維也是“最聰明”大模型的重要體現(xiàn),本次邏輯思維評(píng)測(cè)在邏輯推理、思維鏈等方面設(shè)計(jì)了較多的題目,包含類(lèi)比、常識(shí)推理、空間方位、演繹推理、邏輯謬誤檢測(cè)、因果推理等 19 個(gè)二級(jí)分類(lèi),題型上相對(duì)平均,其中填空題最多,多選題最少。

在邏輯思維題目中,訊飛星火 81.25%的得分率名列第一,明顯高于 72.6% 的平均值。此外,訊飛星火在邏輯思維 63.2% 的二級(jí)分類(lèi)問(wèn)題上得分率第一。邏輯思維對(duì)于大模型真正理解物理世界相當(dāng)重要。

大模型權(quán)威報(bào)告:訊飛星火得分第一 被評(píng)為“最聰明”的國(guó)產(chǎn)大模型
圖:邏輯思維評(píng)測(cè)得分率

編程能力是大模型比較高階的能力,本次的編程能力評(píng)測(cè)包含 ASCII、ASCII碼識(shí)別、Python、代碼、代碼修正、計(jì)算機(jī) 6 個(gè)二級(jí)分類(lèi),其中 Python 主要以簡(jiǎn)答形式評(píng)估大模型的代碼生成能力和正確率,其他則以客觀題的形式考察。

結(jié)果顯示,訊飛星火 80% 的得分率明顯高于 71%的平均值,其他平臺(tái)得分率基本相當(dāng)。值得一提的是,在許多人關(guān)心的生成代碼的簡(jiǎn)答題單項(xiàng)上,訊飛星火的得分率高達(dá) 82%,遠(yuǎn)高于其他平臺(tái),表現(xiàn)頗為亮眼。

大模型權(quán)威報(bào)告:訊飛星火得分第一 被評(píng)為“最聰明”的國(guó)產(chǎn)大模型
圖:編程能力評(píng)測(cè)綜合得分率

作為比較難的評(píng)測(cè)維度,綜合知識(shí)對(duì)大模型的“聰明”程度要求也很高,涉及的題目較雜,包含百科問(wèn)答、常識(shí)、科學(xué)知識(shí)、事實(shí)問(wèn)答、工作技巧、謎語(yǔ)等 13 個(gè)二級(jí)分類(lèi),題型以多選為主。

在綜合知識(shí)評(píng)測(cè)上,訊飛星火 80.61% 的得分率排名第一,在 84.6% 的二級(jí)分類(lèi)上得分率第一,初步顯示出在百科問(wèn)答和歷史人文上的“過(guò)人之處”。

大模型權(quán)威報(bào)告:訊飛星火得分第一 被評(píng)為“最聰明”的國(guó)產(chǎn)大模型
圖:綜合知識(shí)評(píng)測(cè)得分率

報(bào)告指出,在本輪大模型評(píng)測(cè)中,訊飛星火以 81.5 分的成績(jī)拔得頭籌,成為“最聰明”的國(guó)產(chǎn)大模型。

訊飛星火在編程能力、理科綜合、邏輯思維、數(shù)學(xué)專(zhuān)項(xiàng)、語(yǔ)言專(zhuān)項(xiàng)和綜合知識(shí)這 6 個(gè)一級(jí)大類(lèi)中得分率排名第一,在此次評(píng)測(cè)中表現(xiàn)十分全面,尤其是在代碼生成、數(shù)學(xué)能力、理科與邏輯等方面優(yōu)勢(shì)明顯,是本次“最聰明的理科生”。

值得一提的是,從題型角度來(lái)看,主觀簡(jiǎn)答題中訊飛星火憑借 83.98% 的得分率位居第一;而在客觀題上,訊飛星火以 75.7% 的得分率排名第一,在主客觀體型中均有良好表現(xiàn)。

此外,就在8月12日,新華社研究院中國(guó)企業(yè)發(fā)展研究中心發(fā)布的《人工智能大模型體驗(yàn)報(bào)告2.0》中,訊飛星火V1.5以總分1013分位列本次國(guó)產(chǎn)主流大模型測(cè)評(píng)榜首位,在四大評(píng)測(cè)維度中的智商指數(shù)和工具提效指數(shù)兩個(gè)維度獲得第一,《報(bào)告》認(rèn)為訊飛星火“在工作提效方面優(yōu)勢(shì)明顯”。

在剛剛過(guò)去的8月15日,訊飛星火認(rèn)知大模型V2.0如期發(fā)布,進(jìn)一步突破代碼能力和多模態(tài)能力。

技術(shù)獲得重大突破的同時(shí),搭載訊飛星火V2.0核心能力的應(yīng)用和產(chǎn)品也越來(lái)越豐富:

既有輔助程序員高效工作的智能編碼助手iFlyCode1.0、能夠進(jìn)行視頻創(chuàng)作的訊飛智作2.0、能夠便捷搭建輕應(yīng)用的教育數(shù)字基座應(yīng)用開(kāi)發(fā)助手,還有幫助教師設(shè)計(jì)教學(xué)活動(dòng)、一鍵生成課件的星火教師助手、面向英語(yǔ)學(xué)習(xí)者口語(yǔ)練習(xí)的星火語(yǔ)伴2.0,訊飛AI學(xué)習(xí)機(jī)也升級(jí)AI 1對(duì)1智能編程助手和AI 1對(duì)1創(chuàng)意繪畫(huà)伙伴。

此外,科大訊飛還和華為聯(lián)合發(fā)布星火一體機(jī),讓每一家企業(yè)都有機(jī)會(huì)構(gòu)建專(zhuān)屬大模型。

本站所有文章、數(shù)據(jù)、圖片均來(lái)自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請(qǐng)來(lái)信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 大模型 星火 科大訊飛

相關(guān)文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
欧美专区一区二区三区| 好吊一区二区三区| 老鸭窝毛片一区二区三区| 欧美大片网址| 免费成人av资源网| 国产亚洲精品久久久| 日韩亚洲欧美成人一区| 在线成人av.com| 小处雏高清一区二区三区| 亚洲色图综合久久| 欧美成人在线免费观看| 久久久亚洲欧洲日产国码αv| 国产精品激情| 日韩午夜精品| 99精品黄色片免费大全| 欧美1区2区| 欧美国产日韩在线| 亚洲国产视频直播| 老司机一区二区三区| 久久夜色精品国产| 激情综合色丁香一区二区| 午夜一级在线看亚洲| 欧美在线一二三四区| 国产精品毛片va一区二区三区| 99国产精品99久久久久久粉嫩| 亚洲精品一区二区三区四区高清 | 亚洲一区二区在线观看视频| 中文在线资源观看网站视频免费不卡| 欧美sm重口味系列视频在线观看| 欧美激情亚洲自拍| 日韩视频免费观看高清完整版| 免费成人高清视频| 91久久久久久久久| 在线亚洲欧美视频| 欧美视频亚洲视频| 亚洲一区亚洲二区| 久久福利影视| 伊人久久亚洲热| 欧美v日韩v国产v| 亚洲乱码国产乱码精品精可以看| 亚洲一二三区视频在线观看| 国产精品久久福利| 香蕉成人伊视频在线观看 | 亚洲一区二区精品视频| 亚洲一级一区| 国产日产高清欧美一区二区三区| 欧美一区二区三区视频免费| 久久综合色播五月| 亚洲日本欧美在线| 欧美午夜在线一二页| 亚洲视频在线观看网站| 欧美在线一区二区| 在线看国产一区| 欧美连裤袜在线视频| 一区二区三区久久久| 久久激情五月激情| 亚洲国产欧美一区二区三区久久 | 国产婷婷精品| 老司机午夜免费精品视频 | 亚洲东热激情| 亚洲伊人观看| 精品51国产黑色丝袜高跟鞋| 欧美裸体一区二区三区| 午夜精品视频在线| 亚洲福利视频在线| 久久精品国产一区二区电影| 亚洲国产精品日韩| 国产精品日韩精品欧美在线| 久久综合色婷婷| 亚洲一区免费观看| 亚洲大片一区二区三区| 欧美亚洲三级| 99re66热这里只有精品3直播| 国产精品一区视频| 欧美精品久久99| 久久国产视频网站| 亚洲伦理一区| 欧美激情网站在线观看| 香蕉久久久久久久av网站| 最近看过的日韩成人| 国产欧美激情| 国产精品v日韩精品| 欧美1级日本1级| 久久激情综合| 亚洲综合成人在线| 日韩午夜在线观看视频| 欧美成人免费视频| 久久久午夜电影| 午夜日韩视频| 一区二区日韩| 亚洲三级色网| 亚洲第一黄色网| 国户精品久久久久久久久久久不卡 | 国产日本欧美视频| 欧美三级电影网| 欧美精品国产| 牛牛国产精品| 久久综合一区| 久久青草欧美一区二区三区| 亚洲欧美日韩另类| 亚洲一区二区三区四区在线观看 | 免费亚洲电影在线观看| 欧美一区二区黄色| 亚洲欧美精品| 亚洲欧美在线视频观看| 亚洲视频欧美在线| 一区二区三区日韩| 一区二区三区四区在线| 亚洲美女精品久久| 亚洲精品久久久久久久久久久久久 | 99热这里只有精品8| 91久久香蕉国产日韩欧美9色| 欧美黄色一区| 亚洲国产老妈| 亚洲人久久久| 99re6这里只有精品| 日韩一区二区精品葵司在线| 亚洲精品久久久久久下一站| 亚洲精美视频| av成人激情| 亚洲尤物在线| 欧美一级一区| 久久理论片午夜琪琪电影网| 久久久国际精品| 卡通动漫国产精品| 欧美成人国产一区二区| 欧美久久视频| 欧美午夜视频一区二区| 国产精品一区二区a| 国产在线播放一区二区三区| 国内伊人久久久久久网站视频| 激情综合五月天| 亚洲九九精品| 亚洲男人的天堂在线aⅴ视频| 性久久久久久久久久久久| 欧美亚洲综合另类| 麻豆精品视频在线| 亚洲精品之草原avav久久| 在线视频欧美精品| 久久精品欧洲| 欧美激情亚洲自拍| 国产精品尤物福利片在线观看| 国产区亚洲区欧美区| 亚洲第一精品福利| 一区二区高清视频在线观看| 欧美制服丝袜第一页| 免费观看久久久4p| 一本色道久久88亚洲综合88| 欧美亚洲综合另类| 欧美激情第9页| 国产精品自拍网站| 亚洲日产国产精品| 久久福利资源站| 亚洲国产老妈| 欧美一区二区三区播放老司机| 欧美mv日韩mv亚洲| 国产欧美一区二区精品秋霞影院| 亚洲国产高清在线| 香蕉成人伊视频在线观看 | 亚洲午夜视频在线| 久久一区亚洲| 国产美女精品一区二区三区| 亚洲日韩欧美视频| 久久久久久穴| 国产精品99久久久久久有的能看| 久久久99免费视频| 国产精品久久久久aaaa樱花| 1769国内精品视频在线播放| 亚洲一区在线观看视频| 欧美本精品男人aⅴ天堂| 亚洲一区二区三区国产| 欧美华人在线视频| 在线精品国精品国产尤物884a| 亚洲欧美成人一区二区三区| 亚洲高清视频在线| 久久久久久亚洲精品不卡4k岛国| 国产精品高清在线| 一区二区免费在线观看| 欧美福利专区| 久久精品99国产精品| 国产精品一区二区久激情瑜伽| 一区二区国产在线观看| 欧美成人午夜视频| 久久久久久久性| 红杏aⅴ成人免费视频| 欧美一级播放| 亚洲小说春色综合另类电影| 欧美日韩免费观看一区三区| 亚洲精品久久久久| 欧美91大片| 久久亚洲午夜电影| 在线精品国产欧美| 欧美不卡高清| 免费观看在线综合色| 黄色国产精品| 久久久久欧美| 久久久综合视频| 在线精品福利| 欧美激情日韩| 欧美国产精品久久|