2024年11月15日(優分析產業數據中心)
全球人工智慧(AI)領域正面臨一場策略轉變,過去專注於擴大模型規模的技術路線開始顯露瓶頸,業界領袖及研究者正積極探索更高效的訓練及推理技術,試圖打破現有的技術限制,推動AI技術邁向新的高度。
然而,像OpenAI這樣的AI公司正在嘗試以更貼近人類思維的方式訓練大型語言模型,這不僅可能改變AI的競爭格局,也將對晶片與能源等資源需求產生深遠影響。
模型規模擴張遇瓶頸,AI進入探索新路線時代
AI實驗室Safe Superintelligence(SSI)及OpenAI的共同創辦人Ilya Sutskever近期接受採訪時指出,過去十年間AI界透過擴大數據與運算量的方式,成功推動生成式AI的進步。
Sutskever過去是支持擴大模型規模的重要推手之一,他的理念促成了ChatGPT的誕生。隨著技術進步的邊際效益下降,這種「越大越好」的思維如今已面臨極限,他於今年初離開OpenAI成立SSI,致力於研發替代性的模型訓練方法。
Sutskever表示:「2010年代是擴展規模的時代,現在我們又回到了探索與發現的年代,找到適當的擴展方向比以往任何時候都更為重要。」
訓練大型模型的挑戰:資源消耗與硬體限制
目前,訓練新一代大型語言模型的「訓練運行」正面臨多重挑戰。根據知情人士透露,這些訓練運行涉及數百顆晶片同步運作,耗費數月時間,成本高達數千萬美元;這些運行經常因硬體故障或資源短缺而中斷,且訓練過程中需耗費大量數據與能源。
隨著模型訓練所需的數據量不斷增加,全球可用的高品質數據資源逐漸枯竭。此外,由於訓練需要消耗大量能源,能源短缺也成為模型開發的一大阻力。
推理階段的運算優化
面對現有方法的挑戰,研究人員正將重心轉向「推理階段的運算優化」,亦即在模型應用過程中增加運算能力,提升其解決複雜問題的能力。
例如,模型可在生成答案前模擬多種可能性並逐一評估,最終選擇最佳解決方案。
OpenAI在其最新推出的「o1模型」(原稱Q*或Strawberry)中,採用了這種「測試階段運算」(test-time compute)技術,讓模型能以多步推理的方式解決問題,如同人類進行深思熟慮。
根據OpenAI研究員Noam Brown的說法,此方法在解決複雜問題上的效率,可媲美傳統方法大幅擴展模型規模數十萬倍的效果。
AI競爭格局與硬體需求的潛在影響
AI的快速發展依賴於大量Nvidia晶片的運算能力,但未來若推理階段的重要性提升,將對AI硬體市場帶來深遠影響;而此一技術轉變可能重塑AI產業的競爭態勢。
Nvidia執行長黃仁勳日前於印度的一場會議上表示:「我們現在發現了推理階段的擴展法則,這促使市場對最新晶片Blackwell的需求急速上升。」
與此同時,其他AI公司如Anthropic、xAI和Google DeepMind等也在積極開發類似技術,企圖在新競賽中取得先機。
Sequoia Capital合夥人Sonya Huang表示:「這一轉變將使我們從大規模訓練叢集,轉向分散式、雲端推理伺服器的時代。」
·大規模訓練叢集:指的是訓練AI模型時需要的龐大運算能力,例如使用數百甚至數千台高性能伺服器同時運行,來處理大量數據和模型參數。這種方式非常耗費能源、時間和資金。
·分散式雲端推理伺服器:將運算需求從集中化的大型伺服器(用於訓練)轉移到分散式的雲端運算架構中,主要用於「推理」(即模型解決實際問題的過程,如回應問題或完成任務)。
留言 0