外媒報導,蘋果最新機器學習技術,可將輝達 GPU 產生指令速度提高近三倍,更快為 Apple Intelligence 創建模型。
Appleinsider 報導,創建大型語言模型 (LLM) 的關鍵,就在產生 LLM 效率低下,因機器學習訓練模型本身就是資源密集且緩慢的過程,只能用更多硬體及增加能源成本消除劣勢。
今年初蘋果發表 Recurrent Drafter,是提高推測訓練表現的解碼法。結合搜尋和動態樹 RNN(循環神經網路)草稿模型,預測驗證多路徑草稿標記,與典型自回歸指令生成相比,可將每生成步驟 LLM 指令產生速度提高 3.5 倍。
蘋果機器學習網站文章,解釋除了使用 Apple Silicon 現有任務,並沒有停止,新報告詳細介紹如何應用此研究創建 ReDrafter,與輝達 GPU 一起生產。輝達 GPU 通常用於 LLM 伺服器,但高效能硬體成本高昂,單多 GPU 伺服器硬體成本就超過 25 萬美元,更不用說其他基礎設施或連接成本。
蘋果與輝達合作,將 ReDrafter 整合至輝達 TensorRT-LLM 推理加速框架。ReDrafter 使用其他推測解碼,輝達必須添加額外元素才能正常運作。整合後使用 GPU 的 ML 開發人員,現在可用 TensorRT-LLM 進行生產時使用 ReDrafter 的加速指令生成,而不只用 Apple Silicon 的開發人員。輝達 GPU 基準測試數百億個參數模型後,編碼每秒產生速度提高 2.7 倍。
結果是該過程可用於最大限度的減少用戶的延遲,並減少所需的硬體數量。簡而言之,用戶可以期望從以雲端運算為主的查詢中獲得更快的結果,而公司可以在花費更少的情況下提供更多服務。而顯示卡生產商表示,此次合作使 TensorRT-LLM 更強大、更靈活,也使得LLM 社社群夠創新更複雜的模型,並輕鬆部署它們。”
(首圖來源:Pixabay)