久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當前的位置: 首頁 > 新聞 > 手機

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

來源:量子位   編輯:非小米 時間:2024-08-09 15:30人閱讀

有CPU就能跑大模型,性能甚至超過NPU/GPU!

沒錯,為了優化模型端側部署,微軟亞洲研究院提出了一種新技術——T-MAC。

這項技術主打性價比,不僅能讓端側模型跑得更快,而且資源消耗量更少。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

咋做到的??

在CPU上高效部署低比特大語言模型

一般來說,要想在手機、PC、樹莓派等端側設備上使用大語言模型,我們需要解決存儲和計算問題。

常見的方法是模型量化,即將模型的參數量化到較低的比特數,比如4比特、3比特甚至更低,這樣模型所需的存儲空間和計算資源就會減少。

不過這也意味著,在執行推理時,需要進行混合精度的矩陣乘法運算(mpGEMM),即用低精度的權重和高精度的激活向量進行計算。

然而,現有的系統和硬件并不原生支持這種混合精度的矩陣乘法,因此它們通常需要將低精度的權重轉換回高精度,這個過程叫做反量化(dequantization)。

但這種方法不僅效率低,而且當比特數進一步降低時,并不能帶來性能上的提升。

對此,新技術T-MAC采用基于查找表(LUT)的計算范式,無需反量化,直接支持混合精度矩陣乘。

這樣,T-MAC不僅提高了推理性能,還使得模型更加統一和可擴展,尤其適合在資源受限的端側設備部署。

此外,T-MAC不依賴于專用的硬件加速器NPU或GPU,能夠僅利用CPU部署模型。甚至在某些情況下,它的推理速度可以超過專用加速器。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

T-MAC的關鍵創新在于采用基于查找表(LUT)的計算范式,而非傳統的乘累加(MAC)計算范式。

T-MAC利用查找表直接支持低比特計算,從而消除了其他系統中必須的反量化操作,并且顯著減少了乘法和加法操作的數量。

經過實驗,T-MAC展現出了卓越的性能:

在配備了最新高通Snapdragon X Elite芯片組的Surface AI PC 上,3B BitNet-b1.58模型的生成速率可達每秒48個token,2bit 7B llama模型的生成速率可達每秒30個token,4bit 7B llama模型的生成速率可達每秒20個token。

這甚至超越了NPU的性能!

當部署llama-2-7B-4bit模型時,盡管使用NPU可以生成每秒10.4個token,但CPU在T-MAC的助力下,僅使用兩核便能達到每秒12.6個token,最高甚至可以飆升至每秒22個token。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

這些都遠超人類的平均閱讀速度,相比于原始的llama.cpp框架提升了4~5倍。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行
△BitNet on T-MAC (基于LUT) vs llama.cpp (基于反量化)

即使在較低端的設備如Raspberry Pi 5上,T-MAC針對3B BitNet-b1.58也能達到每秒11個token的生成速率。

同時,T-MAC也具有顯著的功耗優勢:

達到相同的生成速率,T-MAC所需的核心數僅為原始llama.cpp的1/4至1/6,降低能耗的同時也為其它應用留下計算資源。

值得注意的是,T-MAC的計算性能會隨著比特數的降低而線性提高,這一現象在基于反量化去實現的GPU和NPU中是難以觀察到的。

這進一步使得T-MAC能夠在2比特下實現單核每秒10個token,四核每秒28個token,大大超越了NPU的性能。

采用新的計算范式

好了,說完了效果,咱們接著展開T-MAC的技術細節。

矩陣乘不需乘,只需查表 (LUT)

對于低比特參數 (weights),T-MAC將每一個比特單獨進行分組(例如,一組4個比特),這些比特與激活向量相乘,預先計算所有可能的部分和,然后使用LUT進行存儲。

之后,T-MAC采用移位和累加操作來支持從1到4的可擴展位數。

通過這種方法,T-MAC拋棄了CPU上效率不高的FMA(乘加)指令,轉而使用功耗更低、效率也更高的TBL/PSHUF(查表)指令。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行
△混合精度GEMV基于現有反量化的實現范式 vs T-MAC基于查找表的新范式以比特為核心的計算,取代以數據類型為核心的計算

傳統的基于反量化的計算,實際上是以數據類型為核心的計算,這種方式需要對每一種不同的數據類型單獨定制。

每種激活和權重的位寬組合,如W4A16(權重int4激活float16) 和W2A8,都需要特定的權重布局和計算內核。

例如,W3的布局需要將2位和另外1位分開打包,并利用不同的交錯或混洗方法進行內存對齊或快速解碼。

然后,相應的計算內核需要將這種特定布局解包到硬件支持的數據類型進行執行。

而T-MAC通過從比特的視角觀察低比特矩陣乘計算,只需為單獨的一個比特設計最優的數據結構,然后通過堆疊的方式擴展到更高的2/3/4比特。

同時,對于不同精度的激活向量(float16/float32/int8),僅有構建表的過程需要發生變化,在查表的時候不再需要考慮不同的數據結構。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行
△以比特為核心的查表計算混合精度GEMV

同時,傳統基于反量化的方法,從4-比特降低到3/2/1-比特時,盡管內存占用更少,但是計算量并未減小,而且由于反量化的開銷不減反增,性能反而可能會更差。

但T-MAC的計算量隨著比特數降低能夠線性減少,從而在更低比特帶來更好加速,為最新的工作BitNet, EfficientQAT等發布的2-比特模型提供了高效率的部署方案。

比如下圖展示了:

(1)使用不同端側設備CPU的單核,T-MAC在4到1比特的混合精度GEMV算子相較llama.cpp加速3-11倍。

(2)T-MAC的GEMM耗時能隨著比特數減少線性減少,而基于反量化的llama.cpp無法做到(1比特llama.cpp的算子性能由其2比特實現推算得到)。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

高度優化的算子實現

概括而言,基于比特為核心的計算具有許多優勢,但將其實現在CPU上仍具有不小的挑戰:

與激活和權重的連續數據訪問相比,表的訪問是隨機的。

表在快速片上內存中的駐留對于最終的推理性能尤為重要,然而,片上內存是有限的,查找表(LUT)方法相比傳統的mpGEMV增大了片上內存的使用。

這是因為查找表需要保存激活向量與所有可能的位模式相乘的結果,這比激活本身要多得多。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

△T-MAC與llama.cpp在計算數據流上的不同

為此,微軟亞洲研究院的研究員們深入探究了基于查表的計算數據流,為這種計算范式設計了高效的數據結構和計算流程,其中包括:

1、將LUT存入片上內存,以利用CPU上的查表向量指令 (TBL/PSHUF) 提升隨機訪存性能。

2、改變矩陣axis計算順序,以盡可能提升放入片上內存的有限LUT的數據重用率。

3、為查表單獨設計最優矩陣分塊 (Tiling) 方式,結合autotvm搜索最優分塊參數

4、參數weights的布局優化:

 a、weights重排,以盡可能連續訪問并提升緩存命中率

   b、weights交錯,以提升解碼效率

5、對Intel/ARM CPU做針對性優化,包括

   a、寄存器重排以快速建立查找表

   b、通過取平均數指令做快速8-比特累加

研究員們在一個基礎實現上,一步步應用各種優化,最終相對于SOTA低比特算子獲得顯著加速。

例如,在實現各種優化后,T-MAC 4-比特算子最終相對于llama.cpp獲得顯著加速:

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

最后,T-MAC現已開源,相關論文已在arXiv公開,感興趣可以進一步了解。

開源地址(含代碼):https://github.com/microsoft/T-MAC

論文:https://www.arxiv.org/pdf/2407.00088

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

標簽: 智能手機 安卓

相關文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
aⅴ色国产欧美| 欧美aaaaaaaa牛牛影院| 亚洲一二三级电影| 国产精品久久二区| 欧美在线免费一级片| 午夜精品999| 狠狠爱成人网| 欧美国产欧美亚洲国产日韩mv天天看完整| 欧美一区二区三区在线视频| 狠狠做深爱婷婷久久综合一区| 免费短视频成人日韩| 免播放器亚洲| 亚洲无限乱码一二三四麻| 亚洲午夜伦理| 在线免费观看视频一区| 亚洲级视频在线观看免费1级| 免费在线看一区| 亚洲免费在线看| 久久久久国产精品厨房| 一区二区三区四区五区在线 | 很黄很黄激情成人| 欧美激情一区二区| 国产欧美日韩另类一区| 欧美成人精品高清在线播放| 欧美日韩国产精品一区二区亚洲| 午夜视频久久久久久| 久久午夜精品| 香蕉成人伊视频在线观看| 久久免费国产| 亚洲专区国产精品| 久久久久五月天| 亚洲男人av电影| 欧美成在线视频| 久久久久五月天| 欧美日韩系列| 欧美成人按摩| 国产网站欧美日韩免费精品在线观看| 欧美黄色一区二区| 国内成人在线| 一区二区三区免费看| 亚洲激情亚洲| 欧美在线播放高清精品| 亚洲香蕉网站| 欧美激情综合| 欧美刺激午夜性久久久久久久| 国产精品美女www爽爽爽| 亚洲国产一区在线| 一色屋精品亚洲香蕉网站| 亚洲伊人伊色伊影伊综合网| 亚洲欧洲视频在线| 老司机aⅴ在线精品导航| 性久久久久久久| 欧美性片在线观看| 亚洲精品国产精品乱码不99 | 亚洲第一区在线观看| 亚洲尤物在线| 亚洲在线视频观看| 欧美精品国产精品| 亚洲国产欧美不卡在线观看| 影音先锋亚洲一区| 久久久女女女女999久久| 久久久久久久久伊人| 国产伦精品一区二区三区高清版 | 西西裸体人体做爰大胆久久久| av成人老司机| 欧美精品高清视频| 99re6热只有精品免费观看| 亚洲另类春色国产| 欧美国产乱视频| 亚洲片国产一区一级在线观看| 亚洲国产99| 嫩草影视亚洲| 亚洲精品久久久久久下一站| 亚洲精品乱码久久久久久黑人 | 一区在线观看视频| 久久精品国产清高在天天线 | 亚洲精品一区二区三区福利| 欧美成人一品| 亚洲美女性视频| 亚洲在线不卡| 国产色综合天天综合网| 久久精品99久久香蕉国产色戒| 麻豆精品在线视频| 91久久精品久久国产性色也91 | 午夜视频一区| 久久伊伊香蕉| 亚洲美女视频在线观看| 欧美日韩一区二区三区在线 | 在线综合亚洲欧美在线视频| 亚洲永久在线| 激情成人在线视频| 欧美高清视频在线播放| 正在播放日韩| 老牛嫩草一区二区三区日本| 亚洲激情一区| 国产精品毛片大码女人| 欧美专区在线观看| 亚洲精品久久久久久久久久久| 亚洲影视综合| 亚洲高清网站| 国产精品日韩二区| 久久蜜桃香蕉精品一区二区三区| 亚洲精品久久久久久久久久久久久| 亚洲免费一级电影| 在线观看三级视频欧美| 欧美日韩一区二区视频在线| 欧美一区二区性| 日韩视频在线观看| 久久夜色精品国产噜噜av| 日韩视频一区二区三区在线播放免费观看| 国产精品国产三级国产普通话蜜臀 | 欧美成人精品在线观看| 一区二区三区三区在线| 男人的天堂亚洲| 午夜精品久久久久久久男人的天堂 | 国内久久视频| 欧美网站在线观看| 久久综合影视| 午夜精品理论片| 亚洲精品日本| 欧美不卡一卡二卡免费版| 性久久久久久久久| 亚洲视频一区二区在线观看| 尤妮丝一区二区裸体视频| 国产精品久在线观看| 欧美国产亚洲精品久久久8v| 久久精品人人做人人爽| 亚洲一区二区三区在线| 亚洲精品国久久99热| 欧美激情亚洲另类| 美女爽到呻吟久久久久| 久久久精品国产免大香伊 | 国产一区二区欧美| 国产精品国产a级| 欧美视频免费| 欧美日韩国产综合视频在线观看中文| 久久天天躁狠狠躁夜夜爽蜜月| 亚洲欧美另类国产| 亚洲午夜极品| 亚洲在线观看免费| 亚洲砖区区免费| 制服丝袜激情欧洲亚洲| 日韩午夜电影| 亚洲另类在线视频| 99精品免费视频| 99精品久久| 亚洲午夜羞羞片| 亚洲一区区二区| 亚洲欧美电影在线观看| 亚洲欧美国产77777| 亚洲欧美一区在线| 欧美伊人久久| 久久精品欧美| 欧美大片第1页| 欧美精品一区二区高清在线观看| 欧美激情一区二区三区不卡| 欧美久久久久久久| 欧美三区在线视频| 国产精品自拍一区| 激情欧美国产欧美| 亚洲日本中文字幕免费在线不卡| 亚洲人成网站在线播| 一本久久综合| 欧美一区二区三区在线| 久久久久.com| 亚洲国产网站| 中日韩美女免费视频网址在线观看| 亚洲天堂成人在线观看| 香蕉尹人综合在线观看| 久久免费视频在线观看| 欧美—级高清免费播放| 国产精品成人国产乱一区| 国产日韩精品久久| 91久久视频| 午夜亚洲激情| 欧美成人一区二区三区| 亚洲免费观看视频| 欧美一区二区高清在线观看| 噜噜噜噜噜久久久久久91| 欧美日韩一区二区国产| 国产一区三区三区| aa级大片欧美三级| 久久久精品网| 日韩午夜精品视频| 久久精品一区二区国产| 欧美日本在线看| 国产一区二区三区在线观看免费| 亚洲国产裸拍裸体视频在线观看乱了中文 | 欧美日韩第一页| 国产一区二区三区精品欧美日韩一区二区三区 | 久久av一区| 欧美特黄一级大片| 亚洲电影在线观看| 新片速递亚洲合集欧美合集| 欧美大片免费| 久久国产精品99久久久久久老狼| 欧美精品国产精品| 亚洲高清av在线| 久久精品国产亚洲a| 亚洲人体影院|