久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當前的位置: 首頁 > 新聞 > 其他

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

來源:量子位   編輯:非小米 時間:2024-08-08 16:55人閱讀

國產大模型,多模態能力都開始超越GPT-4-Turbo了??

權威榜單,中文多模態大模型測評基準SuperCLUE-V,新鮮出爐:

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

特別是騰訊的hunyuan-vision、上海AI Lab的InternVL2-40B,分別成為國內閉源和開源界兩大領跑者,甚至超過Claude-3.5-Sonnet和谷歌王牌Gemini-1.5-Pro。

雖然這次都還是被GPT-4o壓過,差距也確確實實縮小了很多。

(這個榜單旨在為中文領域提供一個多模態大模型多維度能力評估參考,GPT-4o等國外模型僅作對比參考,不參與排名哦)

hunyuan-vision也就是騰訊混元大模型的多模態版本了,除了開發者調用API之外,其實在騰訊元寶APP里免費就能體驗到。

一直以來,元寶主打“實用AI搭子”,似乎著重強調的是實用易用性;沒想到背著咱們偷偷拿模型去測評,還捧回來個國內第一,emmm……有點意思。

所以國產多模態大模型進化成什么樣了,光看分數還是不夠直觀,下面就拉出來溜溜。

多模態能力第一?這就上手玩

多模態測試,說實話有點不嘻嘻:還沒有出現“弱智吧”一樣公認效果拔群的“民間benchmark”。

但又嘻嘻:根本不耽誤我們碳基生物用千奇百怪的圖片來為難大模型。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

那就開始吧!

Round 1.1:梗圖表情包理解

時間過得好快!昨兒已經立秋了。

夏天夏天悄悄過去,只留下可以用這張meme圖概括的心情:

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

問元寶,這張圖什么意思?得到的答案是:

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

隨手測試的程序員祖傳題,元寶也輕松應對。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

Round 1.2:照片內容識別

上來就是一道不走尋常路的“超前”題——編輯部好幾個人對著這張圖皺眉。

太黑暗了,不知是何物。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

答案揭曉,這是最近一個分享貼中,“南京本地人應該也受不了”的黑金榴蓮紫薯披薩。

元寶不僅能正確get到圖中“太超前”的含義,同時還根據圖片猜中了食物拿紫薯當原料。

至于沒有猜出榴蓮成分,也不能怪它,人類的黑暗料理不管是對AI還是對人類都真的太超前……

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

再來一道經典題目,數吉娃娃。

可以看到,混元元寶先是分析了題目中“吉娃娃”的外貌特征,然后分別告訴了九張圖中哪些是吉娃娃的照片。

不僅答得全對,還看出了圖中另一個物種是藍莓松餅。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

Round 1.3:視覺錯覺挑戰

多模態大模型的視覺幻覺問題,是這兩年的熱門研究方向。

這些測試題真的很有迷惑性,別說大模型了,連人類也常常踩坑沒商量。

但騰訊元寶,就這么水靈靈地答對了!

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

當初難道一種大模型的“哪一棵樹更亮”,也謹慎地回答:

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

不過更難的錯覺挑戰它就不行了。讀圖片中隱藏信息的傻傻看不出,怎么問都說“沒有啊”:

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

不過講道理,這些題GPT-4V也答不上來,大約目前多模態大模型的階段性能力還沒邁過這道坎。

玩耍一番過后,接下來要動真格的!

測試元寶背后hunyuan-vision在實用場景下,表現如何。

Round 2.1:財報表現摘要讀取

每個季度、半年、年終的財報,打工人看了真的是腦闊痛。

這就把騰訊一季度財報表現摘要截圖扔給元寶,讓它幫忙淺做分析:

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

元寶讀取了圖標中的數據,還在最后還小小總結了一把:

總體來看,該公司在2024年3月31日的財務表現顯著優于2023年3月31日,各項指標均有不同程度的增長,尤其是毛利、經營盈利和期內盈利的增長幅度較大。

Round 2.2:讀取(學術)圖表

先來一道沒那么學術的圖表識別題。

問,一張圖中的數字序列,缺少了哪一個?

元寶很好地讀圖,并正確填補了缺的那個數字:29。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

然后隨機從一篇關于大模型數據的論文中,截圖喂過去。

它也能理解并給出詳細解釋,最后還來幾句總結。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

Round 2.3:行測找規律題

這一回合的最后上大招——萬千人頭疼不已的行測找規律題。

題是下面這一道,prompt輸入:請從所給的四個選項中,選擇最合適的一個填入問號處,使之呈現一定的規律性。

先提前透露正確答案,選C。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

在公布自己的最終答案之前,元寶嘰里呱啦進行了很長的過程分析(講真,看得人很緊張)。

最后堅定地選了C選項,答對。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

一道GPT-4V沒做對的附加題

先做個前情提要,此前研究人員們發現,GPT-4V更擅長解釋西方文化背景的圖像or帶有英文文字的圖像。

比如給AI看《白雪公主》,知道是有7個小矮人。換成《葫蘆娃》,7個就數成了10個,葫蘆山七彩峰也說成了冰山。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

那么純國產大模型,總該表現好點了吧?直接原題譯中,丟過去。

好家伙,不僅數對了數量,還在追問中成功辨別這是《葫蘆兄弟》的截圖。

Nice!

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

騰訊元寶,真·AI實用搭子

看過這么多實測案例,是時候整體介紹一下背后的模型和整個APP了。

騰訊混元大模型,可以說是一位老朋友了。

去年9月首次對外亮相,之后一直保持著快速迭代。目前已擴展至萬億參數規模,由7萬億tokens的預訓練語料訓練而來,能力已覆蓋了文本、多模態理解及生成等。

在國內大模型中,騰訊混元率先完成MoE(Mix of Experts,專家混合)架構升級,也就是從單個稠密模型升級到多個專家組成的稀疏模型。

今年7月,還解鎖了一個單日調用tokens數達千億級的成就。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

騰訊元寶,今年5月底剛剛上線,可能對很多人來說還是新朋友。

值得一提的是,在前一陣“9.11和9.9哪個大”的風波中,騰訊元寶表現不錯,無需額外提示自己就能答對。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

騰訊元寶主打一個“實用AI搭子”,其中一個特色是APP、小程序和網頁都能訪問,聊天記錄多端同步。

比如在微信聊天中接收到的工作文檔,不用轉存到手機目錄,就可以直接到小程序選擇對話直接發給AI了,接下來是總結也好、生成也好都非常方便。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

再拿多模態理解能力來說,無論是文檔截圖、人像風景、收銀小票,還是任意一張隨手拍的照片,元寶都能基于圖中內容給出自己的理解和分析。

背后的一個思考是不光要識別、理解,還要生成滿足用戶需求的內容。

從前面的測試中也可以看出,丟一個表情包給它,回答也會簡短,換成學術圖表,回答就會盡量詳盡、并且主動附加總結段落。

據騰訊介紹,混元大模型系列中的多模態理解模型,在視覺編碼、語言模型、訓練數據三方面做了深度的優化,能處理最高達7k分辨率最大16:1長寬比圖片,也是國內首個基于MoE的多模態大模型。

把Transformer開山之作,經典論文《Attention is all you need》拼成一個長圖,對騰訊元寶來說也完全不是難事,從引言到結論全文覆蓋。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

而且騰訊元寶團隊這次特別透露,接下來會把更多精力放在融合模型多模態能力上。

反正騰訊嘛大家都熟悉,是國內大廠里最重產品,重視打磨用戶體驗的。

比如最近騰訊元寶開始往“深度”發展,先更新了“深度搜索”,又剛剛上線“深度長文閱讀”。

這些功能都是隱藏了技術細節、盡量減少對提示工程的需要,很多功能都是自動識別,一鍵觸發,不需要什么學習成本。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

深度閱讀功能就初步整合了多模態理解能力,上傳一個論文PDF進去,生成的“精度”頁面中不僅有文字總結,還能把相應的圖表從文檔里拽出來。

在很多情況下,都不用來回翻原文對照了。

最強國產多模態剛剛易主!騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

而且這一次,中文多模態大模型測評基準SuperCLUE-V榜單成績,也說明騰訊不只搞好了產品體驗,也非??粗斜澈竽P突A能力。

所以說,在多模態“圖生文”場景下,騰訊又能整出什么實用好活,就非常值得期待了。

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

相關文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
日韩视频免费大全中文字幕| 一本色道久久综合亚洲精品不卡| 久久国产精品一区二区三区四区| 亚洲一级二级| 国产欧美视频一区二区| 久久精品视频在线播放| 久久九九精品99国产精品| 红桃视频成人| 欧美激情片在线观看| 欧美sm视频| 在线午夜精品自拍| 亚洲专区一区| 怡红院精品视频| 亚洲精品少妇30p| 国产精品视频一二三| 久久久久久夜| 欧美黄色一区| 欧美亚洲一区二区在线| 久久久久九九视频| 99精品福利视频| 先锋影音国产一区| 亚洲观看高清完整版在线观看| 亚洲欧洲一区二区在线播放| 欧美日韩综合另类| 久久久久久色| 欧美日韩不卡一区| 久久久久免费观看| 欧美大尺度在线观看| 午夜影院日韩| 欧美18av| 久久精品中文字幕一区二区三区| 欧美成人精品1314www| 亚洲欧美日韩在线高清直播| 久久久噜噜噜久久人人看| 亚洲看片一区| 久久黄金**| 在线亚洲欧美| 狂野欧美激情性xxxx| 欧美一级片一区| 欧美福利专区| 美女福利精品视频| 国产精品视频网站| 亚洲剧情一区二区| 亚洲国产成人在线播放| 亚洲欧美在线磁力| 亚洲午夜激情免费视频| 免费在线欧美视频| 久久久久久夜精品精品免费| 国产精品theporn88| 亚洲欧洲精品一区| 在线观看成人网| 西西裸体人体做爰大胆久久久| 一区二区三区四区国产精品| 欧美成人视屏| 欧美福利在线观看| 尤妮丝一区二区裸体视频| 午夜一区不卡| 午夜视频在线观看一区| 欧美午夜女人视频在线| 亚洲国产日韩在线一区模特| 亚洲福利视频网站| 久久久亚洲午夜电影| 久久午夜av| 狠狠色丁香久久综合频道| 欧美一区二视频在线免费观看| 欧美专区中文字幕| 国产精品色午夜在线观看| 亚洲视频综合在线| 亚洲欧美日韩中文视频| 国产精品蜜臀在线观看| 亚洲午夜免费福利视频| 午夜欧美精品久久久久久久| 国产精品久久久久秋霞鲁丝| 亚洲一区二区三| 久久狠狠久久综合桃花| 国产婷婷成人久久av免费高清 | 欧美一区二区三区精品| 国产精品美女久久久| 亚洲欧美美女| 久久青青草综合| 亚洲第一福利社区| 欧美国产大片| 一区二区免费看| 欧美在线视频观看免费网站| 国产午夜精品久久| 久久综合久久综合久久| 亚洲国产婷婷| 亚洲女爱视频在线| 国产婷婷97碰碰久久人人蜜臀| 久久久精品国产免费观看同学| 欧美成人国产va精品日本一级| 亚洲美女精品成人在线视频| 国产精品草莓在线免费观看| 亚洲欧美欧美一区二区三区| 久久午夜电影网| 日韩一级片网址| 国产精品视频自拍| 久久国内精品自在自线400部| 亚洲第一毛片| 午夜日韩在线观看| 亚洲高清久久| 国产精品婷婷| 欧美成人激情在线| 亚洲一区二区在线免费观看| 欧美91大片| 亚洲欧美日韩视频一区| 亚洲第一级黄色片| 国产精品亚洲一区| 麻豆精品传媒视频| 亚洲香蕉在线观看| 亚洲国产另类久久精品| 欧美在线视频一区| 9人人澡人人爽人人精品| 国产一区二区三区免费不卡| 欧美日韩国产精品一区二区亚洲| 欧美在线视频二区| 99精品热6080yy久久 | 亚洲视屏一区| 亚洲国产精品传媒在线观看 | 欧美在线观看视频一区二区| 亚洲日本国产| 欧美不卡高清| 久久精品国产欧美亚洲人人爽| 一本久道久久久| 亚洲国产高清视频| 国产一级精品aaaaa看| 欧美午夜一区二区| 欧美激情在线狂野欧美精品| 久久久精品欧美丰满| 亚洲自拍高清| 亚洲一二三四久久| 99视频一区二区三区| 91久久国产综合久久91精品网站 | 亚洲精品免费一二三区| 狠狠做深爱婷婷久久综合一区| 国产精品系列在线播放| 欧美私人网站| 欧美小视频在线| 欧美日韩高清在线观看| 欧美精品精品一区| 欧美成人国产一区二区| 免费日韩成人| 母乳一区在线观看| 欧美福利一区二区| 欧美精品videossex性护士| 你懂的亚洲视频| 欧美成人三级在线| 欧美理论在线播放| 欧美日韩成人激情| 欧美午夜a级限制福利片| 欧美三日本三级少妇三2023| 国产精品成人一区二区三区吃奶| 欧美日韩亚洲一区二| 欧美性理论片在线观看片免费| 欧美视频官网| 国产伦精品一区二区三区高清版 | 欧美日韩免费网站| 欧美视频免费看| 欧美午夜精品久久久久免费视| 国产精品久久中文| 国产欧美精品日韩精品| 好吊色欧美一区二区三区视频| 在线播放国产一区中文字幕剧情欧美| 伊人婷婷久久| 亚洲欧洲一区二区三区在线观看 | 国产一区二区三区日韩| 韩日成人av| 亚洲精品欧美日韩| 亚洲一区二区三区高清| 欧美一区二区三区在| 两个人的视频www国产精品| 欧美高清视频在线播放| 99精品欧美一区| 欧美在线免费观看视频| 欧美成人一区二区三区片免费| 欧美日韩一区高清| 狠狠爱成人网| 一区二区三区日韩欧美| 久久精品综合一区| 亚洲精品激情| 午夜精品99久久免费| 欧美成年人视频| 国产精品天美传媒入口| 亚洲激情第一页| 欧美在线播放视频| 亚洲人成啪啪网站| 欧美中文在线观看国产| 欧美精品亚洲| 国产亚洲一级| 亚洲午夜国产成人av电影男同| 久久男女视频| 亚洲一区二区在线播放| 嫩草伊人久久精品少妇av杨幂| 国产精品永久免费观看| 亚洲日韩成人| 久久亚洲精品一区| 亚洲性线免费观看视频成熟| 欧美激情欧美激情在线五月| 国内视频精品| 香蕉久久夜色精品国产使用方法 |