請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

0.4 秒就開口回你!Thinking Machines推出「互動模型」,瞄準全球最快即時多模態AI

數位時代

更新於 05月12日09:47 • 發布於 05月12日09:45

重點一:前 OpenAI 技術長 Mira Murati 創辦的 Thinking Machines Lab 5 月 11 日推出研究預覽版「互動模型」,主打多模態、近即時的人機協作,跳脫過去 AI 的「一問一答」框架。
重點二:首款模型 TML-Interaction-Small 為 2,760 億參數 MoE 架構(單次啟用 120 億),FD-bench 互動延遲達 0.4 秒,優於 Gemini 3.1 Flash Live 的 0.57 秒、GPT-realtime 2.0 的 1.18 秒。
重點三:架構採「雙模型」設計,互動模型負責即時對話與感知,背景模型處理推理、工具呼叫等較重的任務,再把結果無縫串回對話,研究預覽僅對少數合作夥伴開放,年底前公開發布。

前 OpenAI 技術長 Mira Murati 創辦的 AI 研究新創 Thinking Machines Lab,5 月 11 日推出首款「互動模型(interaction models)」研究預覽版,主打讓 AI 能像人類一樣即時聽、看、說,跳脫今天主流模型「使用者輸入完才開始處理」的回合制架構。

Thinking Machines 官方部落格指出,這代表一種全新的多模態 AI 系統設計,目標是讓 AI 在語音、影像、文字三個模態上同時運作,沒有切換成本。

公司背景:頂級 OpenAI 出走潮與史上最大種子輪

Thinking Machines Lab 由 Murati 於 2025 年 2 月離開 OpenAI 後創立。共同創辦團隊包括同樣出身 OpenAI 的 John Schulman、Barrett Zoph、Lilian Weng、Andrew Tulloch 與 Luke Metz,幾乎集結了 OpenAI 訓練、後訓練與安全研究的核心人物。

該公司隨後創下科技史上規模最大的種子輪之一:2025 年 7 月,由 Andreessen Horowitz 領投,募得 20 億美元,估值達 120 億美元,輝達 (NVIDIA)、超微 (AMD)、思科 (Cisco)、Jane Street 均參與投資。

據《彭博社》報導,Thinking Machines 目前正在洽談新一輪融資,估值可能來到 500 億美元。Murati 在創立時就明確表示,公司主軸是「打造能與人類自然互動的 AI 系統」,這次推出的互動模型可視為這項定位的第一個產品化成果。

200 毫秒微回合:互動模型的核心設計

互動模型的關鍵設計是「時間對齊的微回合(time-aligned micro-turns)」。Thinking Machines 解釋,傳統模型把使用者輸入與模型輸出視為交替的 token 序列,必須等一邊講完才換另一邊;互動模型則把輸入與輸出都當成連續資料流,每 200 毫秒處理一次小段內容。

換句話說,模型可以邊聽邊講、邊看邊回應,不再有「人為的回合界線」。

這套架構解鎖了幾種過去做不到的互動模式:模型可以在使用者講話時主動插話(例如「你發音念錯了」),也可以邊講邊聽、即時翻譯,甚至能主動回應視覺變化(例如「幫我數伏地挺身次數」)。

Thinking Machines 表示,這些行為過去要靠額外的「語音活動偵測」等模組才能做到,但這類模組通常比模型本身還笨,反而限制了互動品質。

雙模型分工:即時對話 vs 深度推理

實際架構由兩個模型協作。第一個是 TML-Interaction-Small,2,760 億參數的 MoE(混合專家)模型,單次啟用 120 億參數,負責即時對話、感知、立即回應;第二個是非同步背景模型(Background Model),處理需要深度推理的任務,例如複雜計算、網路搜尋、工具呼叫。

互動模型遇到比較重的任務時,會把整段對話脈絡打包交給背景模型,背景模型完成後再把結果回傳,由互動模型在適當時機自然織入對話。

上圖是傳統「一問一答」的輪流對話,AI 只有在你講完才開始回應;下圖則把影音與語音切成一段一段的「微回合」,AI 可以一邊聽一邊看、一邊說,連沉默、打斷、重疊說話都算進情境裡。

效能方面,TML-Interaction-Small 在 FD-bench v1(衡量回合切換延遲的測試)上達到 0.4 秒,明顯快於 Google 的 Gemini-3.1-flash-live(0.57 秒)與 OpenAI 的 GPT-realtime-2.0 minimal 模式(1.18 秒)。

在衡量互動品質的 FD-bench v1.5 上拿到 77.8 分,遠高於 GPT-realtime-2.0 minimal 的 46.8 分與 Gemini-3.1-flash-live minimal 的 54.3 分。

企業端應用:從製造現場到客服

《SiliconANGLE》分析指出,雖然反應更快的聊天機器人對一般使用者最直觀,但這類模型在企業端的潛在影響可能更大。

例如在製造現場,互動模型可以全天監看影像,安全違規發生的當下就提醒人類主管,不必等管理者剛好走過;在客服場景,延遲降低能讓電話對談更貼近真實人類互動。

值得注意的是,Thinking Machines 的模型有內建的時間感知能力,使用者可以說「如果這個化學反應比上一次慢,提醒我」,不必在提示中提供具體時間戳,模型就能自己掌握時間軸。

Thinking Machines 表示,目前 TML-Interaction-Small 與背景模型只開放給少數合作夥伴試用,年底前會更廣泛公開發布。

Thinking Machines 在部落格也坦承幾個侷限:連續音訊與影像會快速累積對話脈絡,超長對話的記憶體管理仍是研究重點;即時串流仰賴穩定網路連線,網路品質下降會明顯影響體驗。

延伸閱讀:AI隨機作答「真正元兇」找到了!OpenAI前技術長團隊揪出「缺乏批次不變性」,這是什麼?

資料來源:Thinking Machines LabSiliconANGLETechCrunchBloomberg

本文初稿為AI編撰,整理.編輯/ 李先泰

「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

郭台銘被擊敗了!國巨董事長陳泰銘首登台灣首富排行 身價破4900億

三立新聞網
02

從洗碗工到副總裁!他獲「7次晉升」不是靠學歷 而是每天問「這3句話」

自由電子報
03

Meta全球裁員約8000人 新加坡員工凌晨4點接獲通知、工程和產品部門受衝擊

anue鉅亨網
04

才剛掛牌就破發!AI ETF慘跌連3天 百萬人被套:買在高點的現實來了

民視新聞網
05

三星工會宣布暫緩罷工 薪資案交會員投票

NOWNEWS今日新聞
06

還會再跌?台股月線失守陷4萬點保衛戰 阮慕驊曝多頭續命關鍵:站不回去都沒用

風傳媒
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...