請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

深度求索創辦人罕見專訪(下),梁文鋒:其實我們做了 16 年

科技新報

更新於 1天前 • 發布於 1天前

在上篇專訪中,深度求索創辦人梁文鋒在接受《暗湧》專訪時,分享了他對中國和美國 AI 發展的看法,而在本篇他則分享了許多關於公司人才晉用和組織運作的風格。

一群做「高深莫測」事的年輕人

暗湧:OpenAI 前政策主管、Anthropic 聯合創始人 Jack Clark 認為 DeepSeek 僱用了「一批高深莫測的奇才】,做出 DeepSeek-V2 的是怎樣一群人?

梁文鋒:並沒有什麼高深莫測的奇才,都是一些 Top 高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。

暗湧:很多大模型公司都執著地去海外挖人,很多人覺得這個領域前 50 名的頂尖人才可能都不在中國的公司,你們的人都來自哪裡?

梁文鋒:V2 模型沒有海外回來的人,都是本土的,前 50 名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。

暗湧:這次 MLA 創新是如何發生的?聽說 idea 最早來自一個年輕研究員的個人興趣?

梁文鋒:在總結出 Attention 架構的一些主流變遷法則後,他突發奇想去設計一個替代方案,不過從想法到落地,中間是漫長的過程。我們為此組了一個 team,花了幾個月時間才跑通。

暗湧:這種發散性靈感的誕生和你們完全創新組織的架構很有關係,幻方時代,你們就很少自上而下地指派目標或任務,但 AGI 這種充滿不確定性的前沿探索,是否多了管理動作?

梁文鋒:DeepSeek 也全是自下而上,而且我們一般不前置分工,而是自然分工,每個人有自己獨特的成長經歷,都是自備想法的,不需要 push 他。

探索過程中,他遇到問題,自己就會拉人討論,不過當一個 idea 顯示出潛力,我們也會自上而下地去調配資源。

暗湧:聽說 DeepSeek 對於顯卡和人的調集非常靈活。

梁文鋒:我們每個人對於顯卡和人的調動是不設上限的。如果有想法,每個人隨時可以調用訓練集群的顯卡無需審批,同時因為不存在層級和跨部門,也可以靈活地調用所有人,只要對方也有興趣。

暗湧:一種鬆散的管理方式也取決於你們篩選到了一群強熱愛驅動的人,聽說你們很擅長從細節招人, 可以讓一些非傳統評價指標裡優秀的人被選出來。

梁文鋒:我們選人的標準一直都是愛和好奇心,所以很多人會有一些奇特的經歷,很有趣,很多人對做研究的渴望,遠超對錢的在意。

暗湧: transformer 誕生在 Google 的 AI Lab,ChatGPT 誕生在OpenAI ,你覺得大公司的 AILab 和一個新創公司對於創新產生的價值有什麼不同?

梁文鋒:不管是 Google 實驗室,還是 OpenAI,甚至中國大廠的 AI Lab,都很有價值,最後是OpenAI 做出來,也有歷史的偶然性。

暗湧:創新很大程度上也是一種偶然嗎?我看你們辦公區中間那排會議室左右兩側都設置了可以隨意推開的門。你們同事說,這就是要給偶然留出空隙,transfomer 誕生中就發生過那種偶然經過的人聽到後加入,最後把它變成一個通用框架的故事。

梁文鋒:我覺得創新首先是信念問題。為什麼矽谷那麼有創新精神?首先是敢,Chatgpt 出來時,整個國內對做前沿創新都缺乏信心,從投資人到大廠,都覺得差距太大了,還是做應用吧,但創新首先需要自信,這種信心通常在年輕人身上更明顯。

暗湧:但你們不參與融資,很少對外發聲,社會聲量上肯定不如那些融資活躍的公司,怎麼確保DeepSeek 就是做大模型的首選?

梁文鋒:因為我們在做最難的事,對頂尖人才吸引最大的,肯定是去解決世界上最難的問題,其實頂尖人才在中國是被低估的,因為整個社會層面的硬派創新太少了,使得他們沒有機會被辨識出來,我們在做最難的事,對他們來說就是有吸引力的。

暗湧:前段 OpenAI 的發表並沒有等來 GPT5,很多人覺得這是技術曲線明顯在放緩,也很多人開始質疑 Scaling Law,你們怎麼看?

梁文鋒:我們偏樂觀,整個產業看起來都符合預期,OpenAI也不是神,不可能一直衝在前面。

暗湧:你覺得 AGI 還要多久實現,發布 DeepSeek-V2 前,你們發布過代碼生成和數學的模型,也從dense 模型切換到了 MOE,所以你們的 AGI 路線圖有哪些坐標?

梁文鋒:可能是 2 年、5 年或 10 年,總之會在我們有生之年實現,至於路線圖,即使在我們公司內部,也沒有統一意見,但我們確實押注了三個方向,一是數學和程式碼,二是多模態,三是自然語言本身。

數學和程式碼是 AGI 天然的試驗場,有點像圍棋,是一個封閉、可驗證的系統,有可能透過自我學習就能實現很高的智慧,另一方面,可能多模態、參與人類的真實世界學習,對 AGI 也是必要的,我們對一切可能性都保持開放。

暗湧:你覺得大模型終局是什麼樣態?

梁文鋒:會有專門公司提供基礎模型和基礎服務,會有很長鏈條的專業分工。更多人在之上去滿足整個社會多樣化的需求。

所有的套路都是上一代的產物

暗湧:過去這一年,中國的大模型創業還是有很多變化的,例如去年開頭還很活躍的王慧文中場退出了,後來加入的公司也開始呈現出差異化。

梁文鋒:王慧文自己承擔了所有的損失,讓其他人全身而退,他做了一個對自己最不利,但對大家都好的選擇,所以他做人是很厚道的,這點我很佩服。

暗湧:現在你的精力最多放在哪裡?

梁文鋒:主要的精力在研究下一代的大模型,還有很多未解決的問題。

暗湧:其他幾家大模型新創公司都是堅持既要又要,畢竟科技不會帶來永久領先,抓住時間窗口把技術優勢落到產品也很重要,DeepSeek 敢於專注在模型研究上是因為模型能力還不夠嗎?

梁文鋒:所有的套路都是上一代的產物,未來不一定成立,拿網路的商業邏輯去討論未來 AI 的獲利模式,就像馬化騰創業時,你去討論通用電氣和可口可樂一樣,很可能是一種刻舟求劍。

暗湧:過去幻方就有很強的技術和創新基因,成長也比較順利,這是你偏樂觀的原因嗎?

梁文鋒:幻方某種程度上增強了我們對科技驅動型創新的信心,但也不都是坦途。我們經歷了一個漫長的累積過程。外部看到的是幻方 2015 年後的部分,但其實我們做了 16 年。

暗湧:回到原創式創新的話題。現在經濟開始進入下行,資本也進入冷週期,所以它對原創式創新是否會帶來更多抑制?

梁文鋒:我倒覺得未必。中國產業結構的調整,會更依賴硬派技術的創新。當很多人發現過去賺快錢很可能來自時代運氣,就會更願意俯身去做真正的創新。

暗湧:所以你對這件事也是樂觀的?

梁文鋒:我是八十年代在廣東一個五線城市長大的。我的父親是小學老師,九十年代,廣東賺錢機會很多,當時有不少家長到我家裡來,基本上就是家長覺得讀書沒用。但現在回去看,觀念都變了。因為錢不好賺了,連開計程車的機會可能都沒了。一代人的時間就變了。

以後硬派創新會越來越多。現在可能還不容易被理解,是因為整個社會群體需要被事實教育,當這個社會讓硬派創新的人功成名就,群體性想法就會改變,我們只是還需要一堆事實和一個過程。

(首圖來源:Deepseek

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0