OpenAI 發表三款語音模型，推理、翻譯及語音轉錄能力加速應用落地

OpenAI 一口氣推出 3 款全新的即時語音模型，各自針對不同用途具備獨特特性，幫助開發者開啟一系列全新的語音 AI 應用體驗。

OpenAI 推出 3 款不同用途的新語音模型，分別具備推理、翻譯及語音轉錄的能力：

GPT‑Realtime‑2：OpenAI 首款具備 GPT‑5 等級推理能力的即時語音模型，可處理難度較高的語音請求，自然地與 AI 對話。
GPT‑Realtime‑Translate：這是一款全新即時翻譯模型，可將超過 70 種輸入語言的語音翻譯成 13 種輸出語言，同時能夠跟上說話者的節奏。
GPT‑Realtime‑Whisper：這是一款新的串流語音轉文字模型，能在說話者開口的當下，即時轉錄語音內容。

OpenAI 進一步說明具備推理能力的 GPT-Realtime-2，「GPT‑Realtime‑2 是為即時語音互動所打造，這款模型可對請求進行推理、呼叫工具、處理修正或中斷，並以契合當下情境的方式回應，持續推進對話。」

即時語音轉錄模型 GPT‑Realtime‑Whisper 方面，「GPT‑Realtime‑Whisper 是一款全新的串流轉錄模型，專為低延遲的語音轉文字所打造。它能在人們開口說話時即時轉錄語音內容，使產品展現更快、更靈敏、更自然的使用感受，從即時浮現的字幕，到能跟上對話節奏的會議筆記皆能如此。」

這 3 款語音模型包含在 OpenAI 的 Realtime API 當中，收費方式如下：

GPT‑Realtime‑2 為每百萬個音訊輸入 token 收費 32 美元（快取輸入 token 為 0.4 美元），每百萬個音訊輸出 token 收費 64 美元。
GPT‑Realtime‑Translate 為每分鐘 0.034 美元。
GPT‑Realtime‑Whisper 為每分鐘 0.017 美元。

語音可作為人們與產品之間的介面，進而成為一種自然的軟體使用方式。OpenAI 從技術深度與應用廣度展現語音 AI 快速發展，隨著延遲降低、支援語言擴大及推理能力導入，開發者可打造更貼近真實互動的語音產品，加速語音 AI 在客服、會議、教育及跨語言溝通等領域的應用落地。

▲ OpenAI 示範全新語音模型。

（首圖來源：OpenAI）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

更多理財相關文章

森崴能源淨值轉負！證交所：5/15起列分盤交易、6/23終止上市

動作要快！節能家電汰舊補助年底截止額度剩不到3成

日商再關廠！資生堂2027收湖口產線　竹縣府已收大量解僱通報

獨家／股價剩3.47元！吊車大王「入手160張」慘賠445萬：出席股東說明會

頂級豪宅不再天價？「陶朱隱園」揭曉第二戶成交　單價重摔110萬破防

月退5.4萬不夠花！30歲月光族女兒啃老、月挖1.8萬錢坑…他們狠心逼獨立竟變省錢達人：謝爸媽趕我出家門

請更新您的瀏覽器啟用Javascript