請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

前 OpenAI CTO 領軍新創 Thinking Machines 發表互動模型,讓 AI 可以邊聽、邊看、邊回應

TechOrange 科技報橘

更新於 05月12日16:45 • 發布於 05月12日08:45 • 李昀蔚

前 OpenAI 技術長 Mira Murati 創辦的 Thinking Machines Lab 近日發表「互動模型」(interaction models)的研究預覽。這項研究的出發點在於,現有 AI 模型多半仍停留在「回合制」的互動模式,也就是使用者必須完整說完話或打完字,模型才開始處理,然而在模型生成回覆的期間,AI 的感知會完全凍結,無法持續接收新資訊或察覺使用者當下的狀態。

Thinking Machines 認為,這種單線式的互動不僅限縮人類知識、意圖與判斷傳遞給模型的空間,也讓 AI 的工作過程更難被使用者即時理解與修正。因此 Thinking Machines 期待 AI 應該像人與人協作一樣自然,能夠持續接收語音、影像與文字,並能即時思考、回應與行動。

200 毫秒一個 micro-turn,讓 AI 可以更快速產生反應

為了打破上述瓶頸,Thinking Machines 試圖將「互動」變成模型的原生能力,而非僅在文字模型外加上一層語音辨識的包裝。Thinking Machines 的做法是將互動拆解為每 200 毫秒(200ms)一個的「micro-turn」。在這套架構下,模型接收的是連續不斷的串流,並在連續的時間軸上交錯且同時處理輸入與輸出,不再等待完整一輪對話結束。這就代表沉默、重疊說話、插話與視覺線索,都能直接成為模型判斷何時回應、何時等待的上下文。

Thinking Machines 指出,這套架構讓互動模型能做到無縫的對話管理、語音與視覺的插話、同步說話與時間感知,甚至可以在對話中同時進行搜尋、呼叫工具或生成 UI。《The Verge》也舉出相關展示案例,像是模型能在聽故事時辨識提及的動物、即時翻譯語音,或者在看到使用者駝背時主動出聲提醒。

一邊對話一邊思考的「雙模型架構」

為了要讓 AI 能在極短時間內反應,同時又能處理複雜任務,Thinking Machines 採用了「互動模型」與「背景模型」協同運作的雙模型架構。前端的互動模型負責維持與使用者的即時交流,當任務需要更長時間的深度推理時,互動模型不會讓使用者陷入漫長的等待,而是將完整的對話脈絡交給非同步的背景模型處理。

當背景結果產生時,互動模型會將其自然地編織進當下的對話中。這種分工機制讓 AI 有機會一邊聽取使用者回饋、一邊執行複雜任務,讓使用者同時享有極低延遲的回應,以及推理模型在規劃與代理工作流(agentic workflows)上的強大能力,這也創造出了一種更接近「協作」而非單純「提示詞輸入」的體驗。

效能數據亮眼,但距離成熟產品仍有挑戰

在效能表現上,Thinking Machines 公布的基準測試展現雙模型架構的潛力。例如 TML-Interaction-Small 模型在 FD-bench v1 的輪流發言延遲(turn-taking latency)僅需 0.40 秒,優於 GPT-realtime-2.0 minimal 的 1.18 秒與 Gemini-3.1-flash-live minimal 的 0.57 秒。在衡量平均互動品質的 FD-bench v1.5 中,該模型獲得 77.8 分,同樣大幅領先競品。

除了標準化測試,官方還發布自建的 TimeSpeak、CueSpeak、RepCount-A、ProactiveVideoQA 與 Charades 等內部評測。這些測試顯示,這款互動模型不僅能在使用者指定的時間點主動發言,還能展現「視覺主動性」(Visual proactivity),例如即時追蹤並計算影片中的連續動作次數,這都是目前其他企業難以做到的。

不過,《Implicator.ai》提醒,這些亮眼數據皆為公司自行公布,且在影音問答(QIVD)準確率上,TML-Interaction-Small(54.0 分)並未勝過 GPT-realtime-2.0 minimal(57.5 分),顯示其優勢目前主要集中在互動品質與低延遲,而非所有能力皆全面領先。

《Implicator.ai》進一步指出這項技術目前的運算瓶頸:TML-Interaction-Small 是一個擁有 276B 參數、12B 活躍參數的 MoE 系統,Thinking Machines 坦承,目前更大的預訓練模型運算速度仍太慢,還無法在這種即時互動的設定中提供服務。

儘管 OpenAI 與 Google 都已經推出具備即時語音能力的 AI,但 Thinking Machines 這次發表的重點在於對系統底層架構的革新。這也呼應 Thinking Machines 的核心主張:「要讓互動性隨著智慧擴展,它必須成為模型本身的一部分。」這次技術創新特別值得關注的是,AI 介面正試圖擺脫傳統的外部語音包裝,走向真正的原生互動,也讓未來的 AI 更有機會從「使用者下指令、模型回覆」的被動工具,變成「邊聽、邊看、邊協作」的新工作夥伴。

*本文開放合作夥伴轉載,資料來源:Thinking Machines Lab《VentureBeat》《The Verge》《implicator.ai》,首圖來源:AI 工具生成

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

川普再提晶片:若我早執政 就沒台灣什麼事了!

anue鉅亨網
02

LED大廠破產清算 8千坪廠房「13億流標」

EBC 東森新聞
03

名人理財術/木頭姐倒貨台積電!狂賣10萬股 變現13億台幣

三立新聞網
04

〈台股盤後〉電子權值股洩氣 日K線連3黑跌716點失月線 4萬點急拉防線

anue鉅亨網
05

AI反轉恐爆大熔斷!半導體狂攬4成漲幅 華爾街揭「2大」危機快逃

三立新聞網
06

獨家/告贏管委會沒用?豪宅爆都更宮鬥 7旬翁「天天爬22樓」慘忍3年

三立新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...