久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當(dāng)前的位置: 首頁 > 新聞 > 其他

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

來源:量子位   編輯:非小米 時間:2024-04-23 08:06人閱讀

如果試題太簡單,學(xué)霸和學(xué)渣都能考90分,拉不開差距……

隨著Claude 3、Llama 3甚至之后GPT-5等更強(qiáng)模型發(fā)布,業(yè)界急需一款更難、更有區(qū)分度的基準(zhǔn)測試。

大模型競技場背后組織LMSYS推出下一代基準(zhǔn)測試Arena-Hard,引起廣泛關(guān)注。

Llama 3的兩個指令微調(diào)版本實(shí)力到底如何,也有了最新參考。

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

與之前大家分?jǐn)?shù)都相近的MT Bench相比,Arena-Hard區(qū)分度從22.6%提升到87.4%,孰強(qiáng)孰弱一目了然。

Arena-Hard利用競技場實(shí)時人類數(shù)據(jù)構(gòu)建,與人類偏好一致率也高達(dá)89.1%。

除了上面兩個指標(biāo)都達(dá)到SOTA之外,還有一個額外的好處:

實(shí)時更新的測試數(shù)據(jù)包含人類新想出的、AI在訓(xùn)練階段從未見過的提示詞,減輕潛在的數(shù)據(jù)泄露。

并且新模型發(fā)布后,無需再等待一周左右時間讓人類用戶參與投票,只需花費(fèi)25美元快速運(yùn)行測試管線,即可得到結(jié)果。

有網(wǎng)友評價,使用真實(shí)用戶提示詞而不是高中考試來測試,真的很重要。

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

新基準(zhǔn)測試如何運(yùn)作?

簡單來說,通過大模型競技場20萬個用戶查詢中,挑選500個高質(zhì)量提示詞作為測試集。

首先,挑選過程中確保多樣性,也就是測試集應(yīng)涵蓋廣泛的現(xiàn)實(shí)世界話題。

為了確保這一點(diǎn),團(tuán)隊(duì)采用BERTopic中主題建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)轉(zhuǎn)換每個提示,使用 UMAP 降低維度,并使用基于層次結(jié)構(gòu)的模型聚類算法 (HDBSCAN) 來識別聚類,最后使用GPT-4-turbo進(jìn)行匯總。

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

同時確保入選的提示詞具有高質(zhì)量,有七個關(guān)鍵指標(biāo)來衡量:

-具體性:提示詞是否要求特定的輸出?

-領(lǐng)域知識:提示詞是否涵蓋一個或多個特定領(lǐng)域?

-復(fù)雜性:提示詞是否有多層推理、組成部分或變量?

-解決問題:提示詞是否直接讓AI展示主動解決問題的能力?

-創(chuàng)造力:提示詞是否涉及解決問題的一定程度的創(chuàng)造力?

-技術(shù)準(zhǔn)確性:提示詞是否要求響應(yīng)具有技術(shù)準(zhǔn)確性?

-實(shí)際應(yīng)用:提示詞是否與實(shí)際應(yīng)用相關(guān)?

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進(jìn)行從 0 到 7 的注釋,判斷滿足多少個條件。然后根據(jù)提示的平均得分給每個聚類評分。

高質(zhì)量的問題通常與有挑戰(zhàn)性的話題或任務(wù)相關(guān),比如游戲開發(fā)或數(shù)學(xué)證明。

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

新基準(zhǔn)測試準(zhǔn)嗎?

Arena-Hard目前還有一個弱點(diǎn):使用GPT-4做裁判更偏好自己的輸出。官方也給出了相應(yīng)提示。

可以看出,最新兩個版本的GPT-4分?jǐn)?shù)高過Claude 3 Opus一大截,但在人類投票分?jǐn)?shù)中差距并沒有那么明顯。

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

其實(shí)關(guān)于這一點(diǎn),最近已經(jīng)有研究論證,前沿模型都會偏好自己的輸出。

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

研究團(tuán)隊(duì)還發(fā)現(xiàn),AI天生就可以判斷出一段文字是不是自己寫的,經(jīng)過微調(diào)后自我識別的能力還能增強(qiáng),并且自我識別能力與自我偏好線性相關(guān)。

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

那么使用Claude 3來打分會使結(jié)果產(chǎn)生什么變化?LMSYS也做了相關(guān)實(shí)驗(yàn)。

首先,Claude系列的分?jǐn)?shù)確實(shí)會提高。

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

但令人驚訝的是,它更喜歡幾種開放模型如Mixtral和零一萬物Yi,甚至對GPT-3.5的評分都有明顯提高。

總體而言,使用Claude 3打分的區(qū)分度和與人類結(jié)果的一致性都不如GPT-4。

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

所以也有很多網(wǎng)友建議,使用多個大模型來綜合打分。

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

除此之外,團(tuán)隊(duì)還做了更多消融實(shí)驗(yàn)來驗(yàn)證新基準(zhǔn)測試的有效性。

比如在提示詞中加入“讓答案盡可能詳盡”,平均輸出長度更高,分?jǐn)?shù)確實(shí)會提高。

但把提示詞換成“喜歡閑聊”,平均輸出長度也有提高,但分?jǐn)?shù)提升就不明顯。

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

此外在實(shí)驗(yàn)過程中還有很多有意思的發(fā)現(xiàn)。

比如GPT-4來打分非常嚴(yán)格,如果回答中有錯誤會狠狠扣分;而Claude 3即使識別出小錯誤也會寬大處理。

對于代碼問題,Claude 3傾向于提供簡單結(jié)構(gòu)、不依賴外部代碼庫,能幫助人類學(xué)習(xí)編程的答案;而GPT-4-Turbo更傾向最實(shí)用的答案,不管其教育價值如何。

另外即使設(shè)置溫度為0,GPT-4-Turbo也可能產(chǎn)生略有不同的判斷。

從層次結(jié)構(gòu)可視化的前64個聚類中也可以看出,大模型競技場用戶的提問質(zhì)量和多樣性確實(shí)是高。

新測試基準(zhǔn)發(fā)布 最強(qiáng)開源Llama 3尷尬了

這里面也許就有你的貢獻(xiàn)。

Arena-Hard GitHub:

https://github.com/lm-sys/arena-hard

Arena-Hard HuggingFace:

https://huggingface.co/spaces/lmsys/arena-hard-browser

大模型競技場:

https://arena.lmsys.org

參考鏈接:

[1]https://x.com/lmsysorg/status/1782179997622649330

[2]https://lmsys.org/blog/2024-04-19-arena-hard/

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 測試 性能測試

相關(guān)文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
久久久水蜜桃| 亚洲一区二区免费视频| 亚洲欧美日韩综合| 亚洲国产毛片完整版| 国产精品每日更新| 欧美成人免费全部| 欧美一区二区三区在线看| 亚洲精品欧美日韩专区| 老司机免费视频一区二区三区| 亚洲视频一二| 日韩视频中文| 亚洲国产精品久久久久婷婷884 | 日韩午夜在线观看视频| 国产在线乱码一区二区三区| 欧美亚洲成人网| 欧美日韩国产小视频在线观看| 久久天堂成人| 久久国产精品久久久久久| 亚洲图片欧洲图片日韩av| 亚洲日产国产精品| 蜜桃久久av一区| 久久久99精品免费观看不卡| 欧美一区二区在线视频| 亚洲一区欧美二区| 在线亚洲欧美视频| 亚洲乱码国产乱码精品精天堂| 1769国产精品| 影音先锋欧美精品| 精品福利电影| 在线日韩欧美| 亚洲夫妻自拍| 亚洲第一中文字幕在线观看| 狠狠久久亚洲欧美| 一区二区三区中文在线观看| 国产在线观看91精品一区| 国产一区二区激情| 国产亚洲欧美中文| 一色屋精品视频在线观看网站| 国内精品久久久久影院色| 国产一区深夜福利| 黄网站色欧美视频| 亚洲电影一级黄| 亚洲日本中文| 亚洲先锋成人| 欧美影院在线| 久久一区精品| 欧美激情精品久久久久久| 亚洲激情在线观看| 日韩亚洲国产欧美| 亚洲女同精品视频| 久久精品日韩| 欧美成人精品在线观看| 欧美精品啪啪| 国产精品日韩在线播放| 国内精品久久久久久久影视蜜臀| 黄色一区三区| 99re国产精品| 午夜精品一区二区三区四区| 久久久久se| 亚洲黄色一区| 中文一区字幕| 久久视频国产精品免费视频在线| 欧美大片在线影院| 欧美亚州一区二区三区| 国产综合久久久久久鬼色| 亚洲国产精品久久久久秋霞蜜臀| 一区二区三区免费在线观看| 香蕉亚洲视频| 免费成人av资源网| 亚洲美女av网站| 欧美一区二区久久久| 免费在线观看精品| 国产精品美女久久久久aⅴ国产馆 国产精品美女久久久 | 亚洲自拍电影| 另类av导航| 亚洲国产日韩欧美综合久久 | 蜜臀va亚洲va欧美va天堂| 欧美日韩另类视频| 国产亚洲欧美激情| 99成人在线| 久久久久久久网站| 亚洲三级网站| 久久国产加勒比精品无码| 欧美激情一区三区| 国产亚洲一区二区三区| 99re热精品| 免费欧美日韩国产三级电影| 亚洲天堂免费观看| 免费亚洲一区二区| 国产一区二区三区无遮挡| 一本色道婷婷久久欧美| 老司机亚洲精品| 亚洲免费视频在线观看| 欧美国产免费| 在线观看成人网| 欧美一区二区三区精品电影| 亚洲国产精品久久久久秋霞蜜臀 | 99re视频这里只有精品| 久久久久九九九九| 国产精品日韩在线播放| 亚洲精品五月天| 乱人伦精品视频在线观看| 亚洲香蕉伊综合在人在线视看| 免费看的黄色欧美网站| 国产一区在线播放| 亚洲主播在线| 亚洲精品在线观看免费| 免费短视频成人日韩| 国产尤物精品| 欧美一区激情视频在线观看| 日韩午夜激情av| 欧美激情一二区| 亚洲激情黄色| 久久尤物电影视频在线观看| 午夜精品久久久久影视| 国产精品久99| 亚洲视频一区二区| 亚洲九九精品| 欧美精品日日鲁夜夜添| 亚洲欧洲一区二区三区久久| 欧美第一黄网免费网站| 久久久久久久网| 国内自拍视频一区二区三区| 久久精品国产精品亚洲精品| 亚洲在线黄色| 国产精品初高中精品久久| 一区二区三区蜜桃网| 亚洲三级影院| 欧美另类videos死尸| 99国产精品国产精品久久| 亚洲高清在线视频| 欧美激情在线狂野欧美精品| 91久久国产自产拍夜夜嗨| 亚洲国产黄色| 欧美激情1区2区3区| 一级成人国产| 一区二区三区高清| 国产精品免费aⅴ片在线观看| 性娇小13――14欧美| 亚洲欧美国产精品va在线观看| 国产精品一二三四区| 欧美一区二区三区播放老司机| 午夜精品99久久免费| 国产在线乱码一区二区三区| 模特精品在线| 欧美大胆人体视频| 一区二区三区四区五区精品视频| 99国内精品久久| 国产精品久久9| 欧美诱惑福利视频| 久久久精品五月天| 最新中文字幕一区二区三区| 亚洲精品五月天| 国产精品久久一卡二卡| 欧美尤物巨大精品爽| 久久久av水蜜桃| 亚洲蜜桃精久久久久久久| 一级日韩一区在线观看| 国产午夜精品理论片a级大结局| 欧美aⅴ一区二区三区视频| 欧美巨乳在线| 欧美一区午夜精品| 美女视频黄免费的久久| 亚洲视频在线看| 欧美在线影院| 日韩亚洲欧美成人一区| 亚洲午夜精品久久久久久浪潮| 国产综合视频在线观看| 亚洲国产精品久久久久婷婷老年 | 久久国产视频网站| 久热爱精品视频线路一| 亚洲视频精品在线| 午夜在线视频一区二区区别| 亚洲国产一区二区视频| 一区二区三区你懂的| 精品99一区二区| 一本不卡影院| 精品成人久久| 99精品欧美一区二区三区综合在线| 国产日本精品| 亚洲激情偷拍| 好吊视频一区二区三区四区| 亚洲精品欧美极品| 黄色成人在线免费| 一区二区三区日韩| 亚洲激情中文1区| 亚洲欧美日韩在线不卡| 日韩视频中文字幕| 久久精品日产第一区二区| 亚洲一区二区三区四区视频| 久久亚洲图片| 久久精品国产欧美激情| 欧美日韩国产色综合一二三四| 久久免费国产精品| 国产精品国产成人国产三级| 欧美国产精品中文字幕| 国产欧美在线播放| 99热这里只有精品8| 亚洲乱码国产乱码精品精98午夜 | 国产精品久久久久久久午夜片|