重點摘要:
大型語言訓練模型的發展開始來到一個瓶頸,但目前有越來越多的跡象顯示,這些大型AI公司開始往「推理模型」技術去擴展,過去,這些大型語言模型公司都是用GPU訓練模型,未來有機會帶動ASIC或FPGA等專用晶片需求。
但這不代表原有的GPU不被需要,只是說,未來AI模型技術推進的方向有點轉變。
2024年11月15日(優分析產業數據中心)-
在AI技術的早期,放大模型規模和運算能力一直被視為提升AI能力的最佳途徑,這也是OpenAI創建熱門ChatGPT的核心策略。
然而,隨著技術瓶頸逐漸顯現,這種「大即是好」的理念開始受到挑戰。
挑戰加劇:昂貴的訓練過程與資源短缺
大型語言模型的訓練需耗費巨額資金,訓練一次模型的成本可能高達數千萬美元,且通常需要數百枚晶片的協同運行。訓練過程中不僅容易遭遇硬體故障,對模型的最終性能也難以預測。此外,隨著模型對數據需求的增大,AI公司已經消耗了全球大部分可用數據,並面臨嚴重的電力短缺,這些因素加劇了模型訓練的困難。
為了應對這些挑戰,研究人員正轉向「推理時運算」(test-time compute)技術,這種方法可以讓AI模型在推理階段進行多步計算和評估,從而像人類一樣選擇最佳解答。
OpenAI的最新模型「o1」正是應用此技術的代表,這款模型可以在解決數學或編程等複雜問題時展現更強的計算能力和推理能力。
上個月底,OpenAI就傳出正與博通及台積電合作打造自有的晶片(見此報導)。透過博通,OpenAI已確保台積電在2026年為其生產首款專屬晶片,但該時程可能會依需求而變動。
新技術競賽:AI硬體需求的轉變
隨著各大AI實驗室(如Anthropic、xAI、Google DeepMind)紛紛探索類似的推理技術,這場技術轉變或將改變AI硬體市場格局。
目前,NVIDIA在訓練晶片市場上處於主導地位,但推理晶片的市場競爭可能會更加激烈。矽谷的風險投資者,包括紅杉資本和Andreessen Horowitz等,已開始關注這一轉變,並評估其對投資策略的影響。
據紅杉資本合夥人Sonya Huang表示:「這一轉變可能使我們從巨大的訓練集群轉向分散式的推理雲端伺服器,這將更適合AI模型的日常運行。」
隨著AI應用的廣泛部署,分析師預測推理晶片需求將超越訓練晶片。
留言 0