加州理工學院突破 AI 模型壓縮技術,成功開發 1 位元高效能模型
加州理工學院電腦科學家兼數學家哈西比(Babak Hassibi)領導團隊宣布,成功開發革命性大型語言模型壓縮技術,能不犧牲效能的前提下,大幅縮減模型規模。
團隊創立的新創公司PrismML 3月31日亮相,並開源1位元技術模型開源,供外界免費使用。
目前多數AI模型採用16位元精度編寫,部分使用4位元或更低。PrismML突破性地實現1位元模型,卻能保留完整的推理、程式編寫及知識處理。哈西比比喻為「壓縮數位照片卻不損失畫質」。
哈西比表示:「我們花費數年開發所需的數學理論,才能在不喪失神經網路推理能力的情況下完成壓縮。我們正在創造AI的新典範──能適應各種硬體環境,並在每單位運算和能源下發揮最大智慧。」極致壓縮技術讓AI能在手機、筆電等裝置終端運行,也能讓資料中心以更少資源達成更多任務,避免能源成本飆升。
AI模型運作時,延遲和能耗主要來自記憶體資料讀寫。PrismML將模型權重簡化為僅以+1或-1表示的單一位元,旗艦產品「Bonsai 8B」模型可將處理速度提升最高8倍,能耗降低75%~80%。
以實際數據看,一個2TB模型可瞬間縮減至150GB。Bonsai 8B是擁有80億參數的大型語言模型,記憶體需求僅1GB,遠低於傳統16位元模型的16GB,也同步推出40億及17億參數版,記憶體需求分別僅0.5GB及0.24GB。
▲ 左為 1 位元 Bonsai 8B 以 iPhone 17 Pro 執行,速度約 40tok/sec。標準 16 位元 8B 模型無法安裝於 iPhone。右為 16 位元 1B 模型以同 MATH-500 提示詞 23toks/sec 執行,突顯準確度與速度差距頗大。
PrismML已完成1,625萬美元種子輪融資,投資者包括科斯拉創投(Khosla Ventures)、乾坤資本(Cerberus Capital)及加州理工學院。
知名投資人科斯拉(Vinod Khosla)表示:「AI的未來不取決於誰能建造最大的資料中心,而是誰能在每單位能源和成本下提供最高智慧。這不是小幅改進,而是重大技術突破──數學上的突破,不只是另一個微型模型。」
乾坤資本高級董事總經理薩列克(Amir Salek)曾任Google技術基礎設施與雲端業務矽晶片部門創辦人,他認為新技術有潛力改變AI產業的經濟模式。這些模型專為消費性裝置及工業邊緣設備設計,可望實現過去難以達成的機器人、穿戴裝置及個人運算應用。科斯拉強調:「能用手機跑更強大的模型,這意義重大。對行動裝置而言,能耗是關鍵考量。」
哈西比指出,無論業界最終選擇transformer、擴散模型或其他新概念,PrismML的數學框架均可適用。相關智慧財產權由加州理工學院持有,PrismML為唯一獨家授權商。
(首圖來源:PrismML)