Newtalk新聞
中國AI新創公司DeepSeek日前推出大型推理模型DeepSeek-R1以及開源模型DeepSeek-V3,標榜低價且性能直逼OpenAI的GPT-4旗鼓相當,引發美國科技界熱議。有部分討論聲浪指向DeepSeek將大大降低AI開發費用,對於這說法,政大應數系副教授蔡炎龍認為根本完全錯誤,因DeepSeek是在大量高性能GPU作為硬體支持的開源模型,如Llama為基礎,才有辦法做出。
蔡炎龍在臉書粉專「呆一布呀Diveai」指出,如果沒有基礎的開源模型,比如說 Llama 等,就沒辦法做出 DeepSeek R1。DeepSeek的成功,沒有pre-trained 模型是做不到的,因此,那些稱「DeepSeek大大降低AI開發費用」的說法完全錯誤。
蔡炎龍提到,DeepSeek 真正重要貢獻之一,在強化學習方面改了 OpenAI 的(Proximal Policy Optimization),推出GRPO(Gradient Policy Optimization)。
對於那些覺得輝達是不是完蛋的說法,蔡炎龍也吐槽,事實上NVIDIA GPU 可能會更難買,他表示,你可能不用也買不起訓練基礎模型的超多高級 GPU,就可以做出一些厲害的模型,DeepSeek 許多模型都開源,基本上方法也是公開的,可以用 DeepSeek 的方法,打造一個更符合自己需求的模型,也就是不要覺得只有有錢的超級大公司才能做 AI。
他提到,DeepSeek 使用的 GPU 數量和等級,對大多數的企業還是天價的。但讓大家有新的希望,那就是說不定買少一點的 GPU,不要訓練到 DeepSeek 的程度,但非常符合自己需求是可能的。看懂這件事的就會去買沒那麼多的 NVIDIA H100,再沒錢的就買消費級的 NVIDIA RTX 5090 等等
最後,蔡炎龍強調,DeepSeek 真正令人振奮的地方是,可以用類似的方法,用自己的電腦跑得動的小模型,打造一個完全符合自身的需求和效能的模型出來。DeepSeek最聰明的地方是,把重點放在「引導 LLM 回應」的部份。如果你可以寫出一個非常好的 prompt 引導,你的語言模型就可以回應得很好。DeepSeek 有許多有趣的地方,也讓大家更知道怎麼用 LLM 方式,這才是真正的重點。
姜壬水 無論如何,人家還是做的出來,我們要多加油,嘴炮沒有用。
1天前
張耀仁 老黃高招!不戳破老共造假!
卻反而淡淡的說,老共需要買更多!
讓老共有台階,免得被封殺!
看看昨天香港股市,這麼破天荒的大事,結果才漲27點,而且沒多久就下跌!
就知道,中國人也清楚這是吹噓造假!
不玩了!
果真!假的真不了!
說穿了,就是華爾街與共產黨,合演一場大放空,一次就賺到爆!
可憐的韭菜們!
1天前
Stefan 書成 最好回頭看看台灣,到底還是停留在末段班的位置!
1天前
PaulTsai543 突顯泰灣人不僅墨守成規還抹殺創新的自卑心態~
1天前
J.范 看完教授的評論,和網路上數理運算的檢測對比,心裡很沉重的,對政府的AI算力與投資,這場未來的競賽中,台灣AI能力真的是後段班了。
1天前
顯示全部