近日矽谷和華爾街出現翻天覆地的變動,只因來自中國深度探索公司公開的 Deepseek-V3 和 Deepseek-R1 兩款開源式 AI 模型,僅用六分之一成本達成了與 ChatGPT 比擬的效能,而該公司創辦人梁文鋒作風低調,但從最近一次接受《暗湧》的專訪中,可看見他對 AI 開發的企圖心。
梁文鋒很少接受媒體專訪,最近一次的《暗湧》訪問已經是 2024 年 7 月 18 日,當時深度求索剛公開 Deepseek-V2 模型,引起科技圈震撼而聲名大噪。
價格戰第一槍是怎麼打響的?
暗湧:DeepSeek V2模型發布後,迅速引發一場血雨腥風的大模型價格戰,有人說你們是業界的一條鯰魚。
梁文鋒:我們不是故意要成為一條鯰魚,只是不小心成了一條鯰魚。
暗湧:這個結果讓你們意外嗎?
梁文鋒:非常意外,沒想到價格讓大家這麼敏感,我們只是按照自己的步調來做事,然後計算成本定價,我們的原則是不貼錢,也不賺取暴利,這個價格也是在成本之上稍微有點利潤。
暗湧:5 天後智譜 AI 就跟進了,之後是字節、阿里、百度、騰訊等大廠。
梁文鋒:智譜 AI 降的是一個入門級產品,和我們同級的模型比仍然收費很貴,位元組是真正第一個跟進的,旗艦模型降到和我們一樣的價格,然後觸發了其它大廠紛紛降價,因為大廠的模型成本比我們高很多,所以我們沒想到有人虧錢做這件事,最後就變成了網路時代燒錢補貼的邏輯。
暗湧:外部看來,降價很像在搶用戶,網路時代的價格戰通常是如此。
梁文鋒:搶用戶並不是我們的主要目的。我們降價一方面是因為我們在探索下一代模型的結構中,成本先降下來了,另一方面也覺得無論 API,還是 AI,都應該是普惠的、人人可以用得起的東西。
暗湧:在這之前,大部分中國公司都會直接 copy 這一代的 Llama 結構去做應用,為什麼你們會從模型結構切入?
梁文鋒:如果目標是做應用,那沿用 Llama 結構,短平快上產品也是合理選擇,但我們目的地是AGI,這意味著我們需要研究新的模型結構,在有限資源下,實現更強的模型能力,這是 scale up 到更大模型所需要做的基礎研究之一。
除了模型結構,我們也做了大量的其他研究,包括怎麼建構數據,如何讓模型更像人類等,這都體現在我們發布的模型裡。另外,Llama的結構,在訓練效率和推理成本上,和國外先進水準估計也已有兩代差距。
暗湧:這種代差主要來自哪裡?
梁文鋒:首先訓練效率有差距,我們估計,國內最好的水準和國外最好的相比,模型結構和訓練動力學上可能有一倍的差距,光這一點我們要消耗兩倍的算力才能達到同樣效果。
另外資料效率上可能也有一倍差距,也就是我們要消耗兩倍的訓練資料和算力,才能達到相同的效果,合起來就要多消耗4倍算力,我們要做的,正是不停地縮小這些差距。
暗湧:大部分中國公司都選擇既要模型又要應用,為什麼 DeepSeek 目前選擇只做研究探索?
梁文鋒:因為我們覺得現在最重要的是參與全球創新的浪潮,過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這並非是一種理所當然,這一波浪潮裡,我們的出發點,就不是趁機賺一筆,而是走到科技的前沿,去推動整個生態發展。
暗湧:網路和行動網路時代留給大部分人的慣性認知是,美國擅長搞技術創新,中國更擅長做應用。
梁文鋒:我們認為隨著經濟發展,中國也要逐步成為貢獻者,而不是一直搭便車,過去三十多年 IT 浪潮裡,我們基本上沒有參與到真正的科技創新裡,我們已經習慣摩爾定律從天而降,躺在家裡 18 個月就會出來更好的硬體和軟體,Scaling Law 也正在被如此對待。
但其實這是西方主導的科技社群世代代孜孜不倦創造出來的,只因為之前我們沒有參與這個過程,以至於忽略了它的存在。
真正的差距不是一年或兩年,而是原創和模仿之差
暗湧:為什麼 DeepSeek V2 會讓矽谷的很多人驚訝?
梁文鋒:在美國每天發生的大量創新裡,這是非常普通的一個,他們之所以驚訝,是因為這是一家中國公司,在以創新貢獻者的身份,加入他們遊戲裡去,畢竟大部分中國公司習慣 follow 而不是創新。
暗湧:但這種選擇放在中國語境裡也過於奢侈,大模型是重投入遊戲,不是所有公司都有資本只去研究創新,而不是先考慮商業化。
梁文鋒:創新的成本肯定不低,過去那種拿來主義的慣性也和過去國情有關,但現在無論中國的經濟體量,或是字節、騰訊這些大廠的利潤,放在全球都不低,我們創新缺的肯定不是資本,而是缺乏信心,以及不知道怎麼組織高密度的人才實現有效創新。
暗湧:為什麼中國公司,包括不缺錢的大廠,這麼容易把快速商業化當第一要義?
梁文鋒:過去三十年,我們都只強調賺錢,對創新是忽略的,創新不完全是商業驅動,還需要好奇心和創造欲,我們只是被過去那種慣性束縛了,但它也是階段性的。
暗湧:但你們究竟是一個商業組織,而非一個公益科研機構,選擇創新又透過開源分享出去,那要在哪裡形成護城河?像是 5 月這次 MLA 架構創新,也會很快被其他家 copy 吧?
梁文鋒:在顛覆性的技術面前,閉源形成的護城河是短暫的,即使 OpenAI 閉源,也無法阻止被別人追趕,所以我們把價值沉澱在團隊上,我們的同事在這個過程中得到成長,累積很多 know-how,形成可以創新的組織和文化,就是我們的護城河。
開源,發論文,其實沒有失去什麼。對技術人員來說,被 follow 是很有成就感的事,其實開源更像文化行為,而非商業行為,給予其實是一種額外的榮譽,一個公司這麼做也會有文化的吸引力。
暗湧:你怎麼看類似朱嘯虎的這種市場信仰派觀點?
梁文鋒:朱嘯虎是自洽的,但他的打法更適合快速賺錢的公司,而你看美國最賺錢的公司,都是厚積薄發的高科技公司。
暗湧:但要做大模型,單純的技術領先也很難形成絕對優勢,你們賭的那個更大的東西是什麼?
梁文鋒:我們看到的是中國 AI 不可能永遠處於跟隨的位置,我們常說中國 AI 和美國有一兩年差距,但真實的 gap 是原創和模仿之差,如果這不改變,中國永遠只能是追隨者,所以有些探索也是逃不掉的。
輝達的領先不只是一個公司的努力,而是整個西方技術社群和產業共同努力的成果,他們能看到下一代的科技趨勢,手上有路線圖,中國 AI 發展同樣需要這樣的生態,很多國產晶片發展不起來,也是因為缺乏配套的技術社區,只有第二手訊息,所以中國必然需要有人站到技術的前沿。
更多的投入不一定會產生更多的創新
暗湧:現在的 DeepSeek 有一種 OpenAI 早期的理想主義氣質,也是開源,後邊你們會選擇閉源嗎?OpenAI 和 Mistral 都有過從開源到閉源的過程。
梁文鋒:我們不會閉源,我們認為先有一個強大的技術生態更重要。
暗湧:你們有融資計畫嗎?看有媒體報道,幻方對 DeepSeek 有獨立分割上市的計劃,矽谷的 AI 創業公司,最終也都難免要和大廠綁定。
梁文鋒:短期內沒有融資計劃,我們面臨的問題從來不是錢,而是高階晶片被禁運。
暗湧:很多人認為,做 AGI 和做量化是完全不同的兩件事,量化可以悶聲去做,但 AGI 可能更需要高舉高打,需要結盟,這樣可以讓你的投入變大。
梁文鋒:更多的投入不一定會產生更多的創新,否則大廠可以把所有的創新包辦了。
暗湧:你們現在不做應用,是因為你們沒有運作的基因嗎?
梁文鋒:我們認為目前階段是技術創新的爆發期,而不是應用的爆發期,長遠來說,我們希望形成一種生態,就是業界直接使用我們的技術和產出,我們只負責基礎模型和前沿的創新,然後其它公司在DeepSeek 的基礎上建立 toB、toC 的業務。
如果能形成完整的產業上下游,我們就沒必要自己做應用。當然如果需要我們做應用也沒障礙,但研究和技術創新永遠是我們第一優先。
暗湧:但選擇 API 的話,為什麼選擇 DeepSeek 而不是大廠?
梁文鋒:未來的世界很可能是專業化分工的,基礎大模型需要持續創新,大廠有它的能力邊界,不一定適合。
暗湧:但技術真的可以拉開差距嗎?你也說過並不存在絕對的技術秘密。
梁文官:技術沒有秘密,但重置需要時間和成本。輝達的顯示卡理論上沒有任何技術秘密,很容易複製,但重新組織團隊以及追趕下一代技術都需要時間,所以實際的護城河還是很寬。
暗湧:你們降價後,字節率先跟進,說明他們還是感受到某種威脅,你怎麼看新創公司與大廠競爭的新解法?
梁文鋒:說實話我們不太 care 這件事,只是順便做了這件事,提供雲端服務不是我們的主要目標,我們的目標還是去實現 AGI。
目前沒有看到什麼新解法,但大廠也沒有明顯佔優,大廠有現成的用戶,但它的現金流業務也是包袱,會讓它成為隨時被顛覆的對象。
暗湧:你怎麼看 DeepSeek 之外的 6 家大模型新創公司的終局?
梁文鋒:可能活下來 2 到 3 家,現在都還在燒錢階段,所以那些自我定位清晰、更能精細化運作的,更有機會活下來,其它公司可能會脫胎換骨,有價值的東西不會煙消雲散,但會換個方式。
暗湧:幻方時代,面對競爭的姿態就被評價為「我行我素」,很少在意橫向比較,關於競爭,你思考的原點是什麼?
梁文鋒:我常常思考的是,一個東西能不能讓社會的運作效率變高,以及你能否在它的產業分工鏈上找到擅長的位置,只要終局是讓社會效率更高,就是成立的,中間很多都是階段性的,過度關注必然眼花撩亂。
(下篇待續)
(首圖來源:中華學術院)