請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

深度求索創辦人罕見專訪(上),梁文鋒:中國不可能永遠處在跟隨位置

科技新報

更新於 2025年01月29日12:12 • 發布於 2025年01月29日10:43

近日矽谷和華爾街出現翻天覆地的變動,只因來自中國深度探索公司公開的 Deepseek-V3 和 Deepseek-R1 兩款開源式 AI 模型,僅用六分之一成本達成了與 ChatGPT 比擬的效能,而該公司創辦人梁文鋒作風低調,但從最近一次接受《暗湧》的專訪中,可看見他對 AI 開發的企圖心。

梁文鋒很少接受媒體專訪,最近一次的《暗湧》訪問已經是 2024 年 7 月 18 日,當時深度求索剛公開 Deepseek-V2 模型,引起科技圈震撼而聲名大噪。

價格戰第一槍是怎麼打響的?

暗湧:DeepSeek V2模型發布後,迅速引發一場血雨腥風的大模型價格戰,有人說你們是業界的一條鯰魚。

梁文鋒:我們不是故意要成為一條鯰魚,只是不小心成了一條鯰魚。

暗湧:這個結果讓你們意外嗎?

梁文鋒:非常意外,沒想到價格讓大家這麼敏感,我們只是按照自己的步調來做事,然後計算成本定價,我們的原則是不貼錢,也不賺取暴利,這個價格也是在成本之上稍微有點利潤。

暗湧:5 天後智譜 AI 就跟進了,之後是字節、阿里、百度、騰訊等大廠。

梁文鋒:智譜 AI 降的是一個入門級產品,和我們同級的模型比仍然收費很貴,位元組是真正第一個跟進的,旗艦模型降到和我們一樣的價格,然後觸發了其它大廠紛紛降價,因為大廠的模型成本比我們高很多,所以我們沒想到有人虧錢做這件事,最後就變成了網路時代燒錢補貼的邏輯。

暗湧:外部看來,降價很像在搶用戶,網路時代的價格戰通常是如此。

梁文鋒:搶用戶並不是我們的主要目的。我們降價一方面是因為我們在探索下一代模型的結構中,成本先降下來了,另一方面也覺得無論 API,還是 AI,都應該是普惠的、人人可以用得起的東西。

暗湧:在這之前,大部分中國公司都會直接 copy 這一代的 Llama 結構去做應用,為什麼你們會從模型結構切入?

梁文鋒:如果目標是做應用,那沿用 Llama 結構,短平快上產品也是合理選擇,但我們目的地是AGI,這意味著我們需要研究新的模型結構,在有限資源下,實現更強的模型能力,這是 scale up 到更大模型所需要做的基礎研究之一。

除了模型結構,我們也做了大量的其他研究,包括怎麼建構數據,如何讓模型更像人類等,這都體現在我們發布的模型裡。另外,Llama的結構,在訓練效率和推理成本上,和國外先進水準估計也已有兩代差距。

暗湧:這種代差主要來自哪裡?

梁文鋒:首先訓練效率有差距,我們估計,國內最好的水準和國外最好的相比,模型結構和訓練動力學上可能有一倍的差距,光這一點我們要消耗兩倍的算力才能達到同樣效果。

另外資料效率上可能也有一倍差距,也就是我們要消耗兩倍的訓練資料和算力,才能達到相同的效果,合起來就要多消耗4倍算力,我們要做的,正是不停地縮小這些差距。

暗湧:大部分中國公司都選擇既要模型又要應用,為什麼 DeepSeek 目前選擇只做研究探索?

梁文鋒:因為我們覺得現在最重要的是參與全球創新的浪潮,過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這並非是一種理所當然,這一波浪潮裡,我們的出發點,就不是趁機賺一筆,而是走到科技的前沿,去推動整個生態發展。

暗湧:網路和行動網路時代留給大部分人的慣性認知是,美國擅長搞技術創新,中國更擅長做應用。

梁文鋒:我們認為隨著經濟發展,中國也要逐步成為貢獻者,而不是一直搭便車,過去三十多年 IT 浪潮裡,我們基本上沒有參與到真正的科技創新裡,我們已經習慣摩爾定律從天而降,躺在家裡 18 個月就會出來更好的硬體和軟體,Scaling Law 也正在被如此對待。

但其實這是西方主導的科技社群世代代孜孜不倦創造出來的,只因為之前我們沒有參與這個過程,以至於忽略了它的存在。

真正的差距不是一年或兩年,而是原創和模仿之差

暗湧:為什麼 DeepSeek V2 會讓矽谷的很多人驚訝?

梁文鋒:在美國每天發生的大量創新裡,這是非常普通的一個,他們之所以驚訝,是因為這是一家中國公司,在以創新貢獻者的身份,加入他們遊戲裡去,畢竟大部分中國公司習慣 follow 而不是創新。

暗湧:但這種選擇放在中國語境裡也過於奢侈,大模型是重投入遊戲,不是所有公司都有資本只去研究創新,而不是先考慮商業化。

梁文鋒:創新的成本肯定不低,過去那種拿來主義的慣性也和過去國情有關,但現在無論中國的經濟體量,或是字節、騰訊這些大廠的利潤,放在全球都不低,我們創新缺的肯定不是資本,而是缺乏信心,以及不知道怎麼組織高密度的人才實現有效創新。

暗湧:為什麼中國公司,包括不缺錢的大廠,這麼容易把快速商業化當第一要義?

梁文鋒:過去三十年,我們都只強調賺錢,對創新是忽略的,創新不完全是商業驅動,還需要好奇心和創造欲,我們只是被過去那種慣性束縛了,但它也是階段性的。

暗湧:但你們究竟是一個商業組織,而非一個公益科研機構,選擇創新又透過開源分享出去,那要在哪裡形成護城河?像是 5 月這次 MLA 架構創新,也會很快被其他家 copy 吧?

梁文鋒:在顛覆性的技術面前,閉源形成的護城河是短暫的,即使 OpenAI 閉源,也無法阻止被別人追趕,所以我們把價值沉澱在團隊上,我們的同事在這個過程中得到成長,累積很多 know-how,形成可以創新的組織和文化,就是我們的護城河。

開源,發論文,其實沒有失去什麼。對技術人員來說,被 follow 是很有成就感的事,其實開源更像文化行為,而非商業行為,給予其實是一種額外的榮譽,一個公司這麼做也會有文化的吸引力。

暗湧:你怎麼看類似朱嘯虎的這種市場信仰派觀點?

梁文鋒:朱嘯虎是自洽的,但他的打法更適合快速賺錢的公司,而你看美國最賺錢的公司,都是厚積薄發的高科技公司。

暗湧:但要做大模型,單純的技術領先也很難形成絕對優勢,你們賭的那個更大的東西是什麼?

梁文鋒:我們看到的是中國 AI 不可能永遠處於跟隨的位置,我們常說中國 AI 和美國有一兩年差距,但真實的 gap 是原創和模仿之差,如果這不改變,中國永遠只能是追隨者,所以有些探索也是逃不掉的。

輝達的領先不只是一個公司的努力,而是整個西方技術社群和產業共同努力的成果,他們能看到下一代的科技趨勢,手上有路線圖,中國 AI 發展同樣需要這樣的生態,很多國產晶片發展不起來,也是因為缺乏配套的技術社區,只有第二手訊息,所以中國必然需要有人站到技術的前沿。

更多的投入不一定會產生更多的創新

暗湧:現在的 DeepSeek 有一種 OpenAI 早期的理想主義氣質,也是開源,後邊你們會選擇閉源嗎?OpenAI 和 Mistral 都有過從開源到閉源的過程。

梁文鋒:我們不會閉源,我們認為先有一個強大的技術生態更重要。

暗湧:你們有融資計畫嗎?看有媒體報道,幻方對 DeepSeek 有獨立分割上市的計劃,矽谷的 AI 創業公司,最終也都難免要和大廠綁定。

梁文鋒:短期內沒有融資計劃,我們面臨的問題從來不是錢,而是高階晶片被禁運。

暗湧:很多人認為,做 AGI 和做量化是完全不同的兩件事,量化可以悶聲去做,但 AGI 可能更需要高舉高打,需要結盟,這樣可以讓你的投入變大。

梁文鋒:更多的投入不一定會產生更多的創新,否則大廠可以把所有的創新包辦了。

暗湧:你們現在不做應用,是因為你們沒有運作的基因嗎?

梁文鋒:我們認為目前階段是技術創新的爆發期,而不是應用的爆發期,長遠來說,我們希望形成一種生態,就是業界直接使用我們的技術和產出,我們只負責基礎模型和前沿的創新,然後其它公司在DeepSeek 的基礎上建立 toB、toC 的業務。

如果能形成完整的產業上下游,我們就沒必要自己做應用。當然如果需要我們做應用也沒障礙,但研究和技術創新永遠是我們第一優先。

暗湧:但選擇 API 的話,為什麼選擇 DeepSeek 而不是大廠?

梁文鋒:未來的世界很可能是專業化分工的,基礎大模型需要持續創新,大廠有它的能力邊界,不一定適合。

暗湧:但技術真的可以拉開差距嗎?你也說過並不存在絕對的技術秘密。

梁文官:技術沒有秘密,但重置需要時間和成本。輝達的顯示卡理論上沒有任何技術秘密,很容易複製,但重新組織團隊以及追趕下一代技術都需要時間,所以實際的護城河還是很寬。

暗湧:你們降價後,字節率先跟進,說明他們還是感受到某種威脅,你怎麼看新創公司與大廠競爭的新解法?

梁文鋒:說實話我們不太 care 這件事,只是順便做了這件事,提供雲端服務不是我們的主要目標,我們的目標還是去實現 AGI。

目前沒有看到什麼新解法,但大廠也沒有明顯佔優,大廠有現成的用戶,但它的現金流業務也是包袱,會讓它成為隨時被顛覆的對象。

暗湧:你怎麼看 DeepSeek 之外的 6 家大模型新創公司的終局?

梁文鋒:可能活下來 2 到 3 家,現在都還在燒錢階段,所以那些自我定位清晰、更能精細化運作的,更有機會活下來,其它公司可能會脫胎換骨,有價值的東西不會煙消雲散,但會換個方式。

暗湧:幻方時代,面對競爭的姿態就被評價為「我行我素」,很少在意橫向比較,關於競爭,你思考的原點是什麼?

梁文鋒:我常常思考的是,一個東西能不能讓社會的運作效率變高,以及你能否在它的產業分工鏈上找到擅長的位置,只要終局是讓社會效率更高,就是成立的,中間很多都是階段性的,過度關注必然眼花撩亂。

(下篇待續)

(首圖來源:中華學術院

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

等不到客人!華信航空高花、中花載客率慘淡 董座:7月前申請停飛

太報
02

證交所出手!10檔個股遭「抓去關」 力積電也入列

EBC 東森新聞
03

台股站上45000點 中經院:留意修正風險

中央通訊社
04

快訊/台啤尬燒酒!5大韓企爭相獻寶 黃仁勳:「將忙到不可思議」

三立新聞網
05

力積電飆高大翻車!兇手是「這群人」 52萬股東遭割韭菜

自由電子報
06

財產狂破3億日圓卻裝窮當小職員!日本隱形富豪死不退休 暗藏驚人洋蔥

三立新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...