廣告(請繼續閱讀本文)
自從DeepSeek面世後,帶起不少研發團隊透過更低成本建構AI模型。美國史丹福大學日前宣佈,利用「數十美元」開發相對成熟的AI推理模型。
史丹福大學和華盛頓大學的共同研究團隊近日宣佈研發s1模型,雖然在性能上無法與OpenAI比較,但成本卻較DeepSeek為低,研發有助推動AI應用,令AI越趨普及。團隊表示採用了「知識蒸餾」(knowledge distillation)技術和「預算強制」(budget enforcement)為核心,在數學和編碼能力測試中表現優異。
「知識蒸餾」為DeepSeek最早應用而令人認識,主要是透過其他大規模的AI模型「蒸餾」,就像把釀酒進一步提煉。「預算強制」則精準投入,用「測試時擴展」(Test-Time Scaling),在測試期間增加額外還算資源,有助減少AI訓練次數,以提升輸出品質和減省成本。
清華大學計算機系長聘副教授劉知遠接受媒體時表示,因應DeepSeek的面世,帶動「二次創作」方式構建AI,有助於AI普及,但需要留意由於「二次創作」整體性不能與成熟大模型相比,可能只在部份領域有良好表現。
早前英偉達發表季度業績,有市場關注DeepSeek的出現會否衝擊英偉達,黃仁勳表示,DeepSeek並無影響晶片銷量,更大讚它點燃了全球的熱情,是一項出色的創新項目。
密切留意BossMind動向!立即CLS