請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

OpenAI 發表三款語音模型,推理、翻譯及語音轉錄能力加速應用落地

科技新報

更新於 05月08日12:49 • 發布於 05月08日12:44

OpenAI 一口氣推出 3 款全新的即時語音模型,各自針對不同用途具備獨特特性,幫助開發者開啟一系列全新的語音 AI 應用體驗。

OpenAI 推出 3 款不同用途的新語音模型,分別具備推理、翻譯及語音轉錄的能力:

  • GPT‑Realtime‑2:OpenAI 首款具備 GPT‑5 等級推理能力的即時語音模型,可處理難度較高的語音請求,自然地與 AI 對話。

  • GPT‑Realtime‑Translate:這是一款全新即時翻譯模型,可將超過 70 種輸入語言的語音翻譯成 13 種輸出語言,同時能夠跟上說話者的節奏。

  • GPT‑Realtime‑Whisper:這是一款新的串流語音轉文字模型,能在說話者開口的當下,即時轉錄語音內容。

OpenAI 進一步說明具備推理能力的 GPT-Realtime-2,「GPT‑Realtime‑2 是為即時語音互動所打造,這款模型可對請求進行推理、呼叫工具、處理修正或中斷,並以契合當下情境的方式回應,持續推進對話。」

即時語音轉錄模型 GPT‑Realtime‑Whisper 方面,「GPT‑Realtime‑Whisper 是一款全新的串流轉錄模型,專為低延遲的語音轉文字所打造。它能在人們開口說話時即時轉錄語音內容,使產品展現更快、更靈敏、更自然的使用感受,從即時浮現的字幕,到能跟上對話節奏的會議筆記皆能如此。」

這 3 款語音模型包含在 OpenAI 的 Realtime API 當中,收費方式如下:

  • GPT‑Realtime‑2 為每百萬個音訊輸入 token 收費 32 美元(快取輸入 token 為 0.4 美元),每百萬個音訊輸出 token 收費 64 美元。

  • GPT‑Realtime‑Translate 為每分鐘 0.034 美元。

  • GPT‑Realtime‑Whisper 為每分鐘 0.017 美元。

語音可作為人們與產品之間的介面,進而成為一種自然的軟體使用方式。OpenAI 從技術深度與應用廣度展現語音 AI 快速發展,隨著延遲降低、支援語言擴大及推理能力導入,開發者可打造更貼近真實互動的語音產品,加速語音 AI 在客服、會議、教育及跨語言溝通等領域的應用落地。

▲ OpenAI 示範全新語音模型。

(首圖來源:OpenAI

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

森崴能源淨值轉負!證交所:5/15起列分盤交易、6/23終止上市

anue鉅亨網
02

動作要快!節能家電汰舊補助年底截止 額度剩不到3成

anue鉅亨網
03

日商再關廠!資生堂2027收湖口產線 竹縣府已收大量解僱通報

鏡新聞
04

獨家/股價剩3.47元!吊車大王「入手160張」慘賠445萬:出席股東說明會

三立新聞網
05

頂級豪宅不再天價?「陶朱隱園」揭曉第二戶成交 單價重摔110萬破防

太報
06

月退5.4萬不夠花!30歲月光族女兒啃老、月挖1.8萬錢坑…他們狠心逼獨立竟變省錢達人:謝爸媽趕我出家門

幸福熟齡 X 今周刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...