前 OpenAI CTO 領軍新創 Thinking Machines 發表互動模型，讓 AI 可以邊聽、邊看、邊回應

前 OpenAI 技術長 Mira Murati 創辦的 Thinking Machines Lab 近日發表「互動模型」（interaction models）的研究預覽。這項研究的出發點在於，現有 AI 模型多半仍停留在「回合制」的互動模式，也就是使用者必須完整說完話或打完字，模型才開始處理，然而在模型生成回覆的期間，AI 的感知會完全凍結，無法持續接收新資訊或察覺使用者當下的狀態。

Thinking Machines 認為，這種單線式的互動不僅限縮人類知識、意圖與判斷傳遞給模型的空間，也讓 AI 的工作過程更難被使用者即時理解與修正。因此 Thinking Machines 期待 AI 應該像人與人協作一樣自然，能夠持續接收語音、影像與文字，並能即時思考、回應與行動。

200 毫秒一個 micro-turn，讓 AI 可以更快速產生反應

為了打破上述瓶頸，Thinking Machines 試圖將「互動」變成模型的原生能力，而非僅在文字模型外加上一層語音辨識的包裝。Thinking Machines 的做法是將互動拆解為每 200 毫秒（200ms）一個的「micro-turn」。在這套架構下，模型接收的是連續不斷的串流，並在連續的時間軸上交錯且同時處理輸入與輸出，不再等待完整一輪對話結束。這就代表沉默、重疊說話、插話與視覺線索，都能直接成為模型判斷何時回應、何時等待的上下文。

Thinking Machines 指出，這套架構讓互動模型能做到無縫的對話管理、語音與視覺的插話、同步說話與時間感知，甚至可以在對話中同時進行搜尋、呼叫工具或生成 UI。《The Verge》也舉出相關展示案例，像是模型能在聽故事時辨識提及的動物、即時翻譯語音，或者在看到使用者駝背時主動出聲提醒。

一邊對話一邊思考的「雙模型架構」

為了要讓 AI 能在極短時間內反應，同時又能處理複雜任務，Thinking Machines 採用了「互動模型」與「背景模型」協同運作的雙模型架構。前端的互動模型負責維持與使用者的即時交流，當任務需要更長時間的深度推理時，互動模型不會讓使用者陷入漫長的等待，而是將完整的對話脈絡交給非同步的背景模型處理。

當背景結果產生時，互動模型會將其自然地編織進當下的對話中。這種分工機制讓 AI 有機會一邊聽取使用者回饋、一邊執行複雜任務，讓使用者同時享有極低延遲的回應，以及推理模型在規劃與代理工作流（agentic workflows）上的強大能力，這也創造出了一種更接近「協作」而非單純「提示詞輸入」的體驗。

效能數據亮眼，但距離成熟產品仍有挑戰

在效能表現上，Thinking Machines 公布的基準測試展現雙模型架構的潛力。例如 TML-Interaction-Small 模型在 FD-bench v1 的輪流發言延遲（turn-taking latency）僅需 0.40 秒，優於 GPT-realtime-2.0 minimal 的 1.18 秒與 Gemini-3.1-flash-live minimal 的 0.57 秒。在衡量平均互動品質的 FD-bench v1.5 中，該模型獲得 77.8 分，同樣大幅領先競品。

除了標準化測試，官方還發布自建的 TimeSpeak、CueSpeak、RepCount-A、ProactiveVideoQA 與 Charades 等內部評測。這些測試顯示，這款互動模型不僅能在使用者指定的時間點主動發言，還能展現「視覺主動性」（Visual proactivity），例如即時追蹤並計算影片中的連續動作次數，這都是目前其他企業難以做到的。

不過，《Implicator.ai》提醒，這些亮眼數據皆為公司自行公布，且在影音問答（QIVD）準確率上，TML-Interaction-Small（54.0 分）並未勝過 GPT-realtime-2.0 minimal（57.5 分），顯示其優勢目前主要集中在互動品質與低延遲，而非所有能力皆全面領先。

《Implicator.ai》進一步指出這項技術目前的運算瓶頸：TML-Interaction-Small 是一個擁有 276B 參數、12B 活躍參數的 MoE 系統，Thinking Machines 坦承，目前更大的預訓練模型運算速度仍太慢，還無法在這種即時互動的設定中提供服務。

儘管 OpenAI 與 Google 都已經推出具備即時語音能力的 AI，但 Thinking Machines 這次發表的重點在於對系統底層架構的革新。這也呼應 Thinking Machines 的核心主張：「要讓互動性隨著智慧擴展，它必須成為模型本身的一部分。」這次技術創新特別值得關注的是，AI 介面正試圖擺脫傳統的外部語音包裝，走向真正的原生互動，也讓未來的 AI 更有機會從「使用者下指令、模型回覆」的被動工具，變成「邊聽、邊看、邊協作」的新工作夥伴。

＊本文開放合作夥伴轉載，資料來源：Thinking Machines Lab、《VentureBeat》、《The Verge》、《implicator.ai》，首圖來源：AI 工具生成

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

請更新您的瀏覽器

理財

TechOrange 科技報橘

200 毫秒一個 micro-turn，讓 AI 可以更快速產生反應

一邊對話一邊思考的「雙模型架構」

效能數據亮眼，但距離成熟產品仍有挑戰

更多理財相關文章

川普再提晶片：若我早執政就沒台灣什麼事了！

LED大廠破產清算 8千坪廠房「13億流標」

名人理財術／木頭姐倒貨台積電！狂賣10萬股　變現13億台幣

〈台股盤後〉電子權值股洩氣日K線連3黑跌716點失月線 4萬點急拉防線

AI反轉恐爆大熔斷！半導體狂攬4成漲幅　華爾街揭「2大」危機快逃

獨家／告贏管委會沒用？豪宅爆都更宮鬥　7旬翁「天天爬22樓」慘忍3年

請更新您的瀏覽器啟用Javascript

前 OpenAI CTO 領軍新創 Thinking Machines 發表互動模型，讓 AI 可以邊聽、邊看、邊回應

TechOrange 科技報橘

200 毫秒一個 micro-turn，讓 AI 可以更快速產生反應

一邊對話一邊思考的「雙模型架構」

效能數據亮眼，但距離成熟產品仍有挑戰

更多理財相關文章

川普再提晶片：若我早執政 就沒台灣什麼事了！

LED大廠破產清算 8千坪廠房「13億流標」

名人理財術／木頭姐倒貨台積電！狂賣10萬股 變現13億台幣

〈台股盤後〉電子權值股洩氣 日K線連3黑跌716點失月線 4萬點急拉防線

AI反轉恐爆大熔斷！半導體狂攬4成漲幅 華爾街揭「2大」危機快逃

獨家／告贏管委會沒用？豪宅爆都更宮鬥 7旬翁「天天爬22樓」慘忍3年

請更新您的瀏覽器

川普再提晶片：若我早執政就沒台灣什麼事了！

名人理財術／木頭姐倒貨台積電！狂賣10萬股　變現13億台幣

〈台股盤後〉電子權值股洩氣日K線連3黑跌716點失月線 4萬點急拉防線

AI反轉恐爆大熔斷！半導體狂攬4成漲幅　華爾街揭「2大」危機快逃

獨家／告贏管委會沒用？豪宅爆都更宮鬥　7旬翁「天天爬22樓」慘忍3年