請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

DeepSeek戳破GPT神話了?台灣AI晶片新創教你看懂

遠見雜誌

更新於 02月04日01:35 • 發布於 02月03日03:32 • 傅莞淇

台股美股都大跌,ChatGPT真的被Deepseek戳破威力了嗎?中國AI公司「深度求索」在美國總統川普就職當天,發布推理模型DeepSeek-R1,在華爾街與矽谷掀起巨浪。長年耕耘邊緣AI的台灣團隊耐能,從技術與產業趨勢中看見什麼訊號,何以信誓旦旦宣布黃金時代將提前揭幕?

過往兩年,砸下大筆投資的人工智慧實驗室,多乘駕在這樣的論述推動的浪潮上前行:要研發出能力最強大的AI模型,就得投入最高階GPU的軍備競賽,盡可能地搜刮巨量訓練資料。

在這途中,即便耗費大量電力、排放大量二氧化碳,終究也將值得。因為階段性聖杯「通用人工智慧」(AGI)將能救贖這些負面效應,帶來人類社會前所未見的經濟報酬。

同樣以邁向AGI為目標的DeepSeek,在美國出口禁令下,以有限的硬體與較低的成本,開源與市場領先者OpenAI旗下推理模型o1相提並論的本土模型。這顯示,美國主流AI實驗室的進路不是抵達高階模型的唯一途徑,可能也不是最好的途徑。

據知正計畫於美國NASDAQ上市的耐能(Kneron)創辦人暨執行長劉峻誠,向《遠見》表示,「DeepSeek把這個大廠與媒體塑造的神話戳破了。」

即使DeepSeek模型的完整訓練成本顯然不只560萬美元,光是開源o1水平的推理模型,就衝擊了其他閉源模型的商業模式。當企業可以直接使用開源的DeepSeek,又何必要付費購買ChatGPT?

DeepSeek以有限的硬體與較低的成本,開源與市場領先者OpenAI旗下推理模型o1相提並論的本土模型。截圖自deepseek
DeepSeek以有限的硬體與較低的成本,開源與市場領先者OpenAI旗下推理模型o1相提並論的本土模型。截圖自deepseek

DeepSeek以有限的硬體與較低的成本,開源與市場領先者OpenAI旗下推理模型o1相提並論的本土模型。截圖自deepseek

DeepSeek三大影響

劉峻誠歸納,DeepSeek帶來的影響有三大層面。

第一,在DeepSeek的方法論支持下,未來大、中、小企業推出的大語言模型能力差異將變得很小。搶購最高階的晶片,訓練成果與較低階的硬體似乎沒有很大落差。劉峻誠透露,「我們知道的是,已經有一些比較高階的(GPU)被退貨,或是訂單沒有再下。」

第二,技術開源後,各垂直領域中專精型的模型將會百花齊放,「可能幾天就多四、五百個。」劉峻誠認為,台灣在垂直專精製造領域的優勢可能蘊含龐大機會。

第三,這將觸動非GPU的硬體崛起。劉峻誠直言,他希望那會是更節能、更適合進行AI運算的NPU,「我也相信會是NPU。」

為了因應DeepSeek引爆的熱潮,整個春節假期都在辦公室加班的劉峻誠表示自己並不覺得疲累。「因為等了很多年,很高興啊。」他說,「對耐能來講,是一個黃金時代來臨。」

歷史再現,邊緣裝置模型能力大提升

如此宣言的信心何在?耐能成立於2015年,核心技術是專為AI打造的NPU(神經網路處理器)多功能晶片。身為最早定義及量產NPU的公司,耐能手上掌握關鍵專利。結合低功耗與高效能的優勢,讓耐能得以推出多種類的邊緣AI解決方案。

這在2016、2017年盛行影像及語音識別應用時,已讓耐能收獲一波。劉峻誠認為,大語言模型接下來的發展,將會猶如當年的歷史重演。

2012年,神經網路模型「AlexNet」在ImageNet大規模視覺辨識競賽(ILSVR)中,以遠勝其他模型的圖像辨識正確率奪冠。影像識別技術邁向商品化之路。在中國,人臉辨識領域便催生商湯、曠視、依圖與雲從4家獨角獸。

劉峻誠認為,將技術推進市場、並持續提升模型能力,是影像辨識應用的第一階段。在此階段,訓練算力需求較大;這也是在大語言模型發展初期,驅動眾研發團隊追逐輝達高階晶片的原因。

到了2016、2017年,各家影像識別模型的準確度幾乎觸頂。「99%和99.9%已經沒有什麼差異。」劉峻誠認為,這就進入了第二階段。此時倚靠大量資料訓練的模型能力趨近飽和,大宗算力需求轉向執行推論。

第三階段,則是將模型縮小、從雲端轉向邊緣裝置,但依然能繳出與雲端大模型相仿的優秀表現。當時,耐能便是在這個階段大舉推出門鎖、車輛、翻譯機等邊緣AI設備解決方案。

耐能創辦人暨執行長劉峻誠。耐能智慧提供
耐能創辦人暨執行長劉峻誠。耐能智慧提供

耐能創辦人暨執行長劉峻誠。耐能智慧提供

劉峻誠認為,DeepSeek加速了大語言模型在第二與第三階段的進展。他觀察,現在OpenAI、Google、Meta等大型實驗室推出的基礎模型,之間的能力差距已經不大。而DeepSeek的方法縮減了模型訓練、推論的成本,將加速模型朝邊緣部署。

「在你的筆電、你的手機,甚至你的家電裡的模型,達到像雲端模型那麼聰明的程度,這個時代來臨了。」劉峻誠表示,「這是另外一個時代的拐點。」

硬體算力受限,促使DeepSeek將既有訓練技巧推到極致

走過影像識別模型從雲下端的經歷,劉峻誠指出,根據DeepSeek論文,團隊精簡化模型的四大關鍵方法皆存在已久,也是耐能當年精簡影像辨識模型的同一套架構。

「我們在邊緣模型上,也用了這一套方法。只是DeepSeek是加上人工把這些方法做到極致。」劉峻誠表示,即使模型輸出內容可能因自我審查而受限,「但它訓練的方法是非常可靠的。」

這四套方法便是遷移學習(transfer learning)、量化(quantization)、剪枝(pruning)與蒸餾(distillation)。

遷移學習可將任務知識轉移,減少訓練時間與數據的需求。量化則是透過降低數據的精確度,降低算力需求。剪枝是指移除網絡中較不重要的連結,減少整體運算量。簡單來說,都是壓縮模型、降低成本的技巧。

其中較具爭議的,是讓小模型向表現優異的大型模型學習的「蒸餾」做法。DeepSeek被認為有向OpenAI的前輩模型們「學習」,也因此受到美國官員抨擊。

劉峻誠認為,這套模型訓練法確實不如OpenAI那麼從無到有,但科學進展一向都是建構在前人研究的基礎上再作突破。「這在道德上可能有點爭議,」他說,「但以人類文明發展來說,我覺得是正向的。」

劉峻誠指出,賦予邊緣裝置雲端等級模型的能力,有諸多好處。用戶隱私可更受保護,低延遲回應將開啟更多應用可能性,也能真正為企業量身打造私有化的模型。

「當功能與成本達到一個臨界點的時候,就會打開很多應用的想像。」劉峻誠表示,各行各業、各種型態的AI將蓬勃發展。人工智慧發展的腳步,還將加速。

更多精采報導,歡迎加入《遠見》 Line官方帳號!

延伸閱讀:

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0