OpenAI 升級語音文字互轉模型，精準辨識口音和語調、指定說話風格

OpenAI 藉 API 推出全新文字轉語音和語音轉文字模型，這些模型性能相較先前版本有顯著提升。

OpenAI 新推出的文字轉語音模型「gpt-4o‑mini‑tts」不僅能產生細膩、自然的語音，且比上一代更容易「指導」，也就是說開發者可用自然語言指令指定說話風格，例如「用瘋狂科學家的口吻說話」或「以正念（mindfulness）老師的語調說話」。

這項技術可讓開發者同時自訂聲音體驗和語境情感，「在不同情境下，你不希望只聽到單調平穩的語音。若客服系統犯錯，需要表達歉意，就能讓語音帶有相應的情緒⋯⋯我們相信，企業客戶想要掌控的不只是說什麼，而是怎麼說」，OpenAI API 產品經理 Jeff Harris 表示。

還有推出新的語音轉文字模型「gpt-4o-transcribe」和「gpt-4o-mini-transcribe」，將取代 OpenAI 長期使用的 Whisper 模型。

新模型以多樣且高品質的語音資料集訓練而成，在嘈雜環境也能精準辨識各種口音和語調，同時大幅降低「幻覺」帶來的錯誤，過去 Whisper 曾因誤植字詞乃至整段內容錯誤遭用戶詬病。

「這些模型在準確度方面相較 Whisper 有明顯提升，確保模型輸出精準無誤，是打造可靠語音體驗的關鍵——準確度意味著模型只聽見實際講出的字詞，而不會自行填充未曾聽到的內容」，Jeff Harris 表示。

對 OpenAI 而言，新的文字轉語音和語音轉文字模型符合更廣泛的 AI 代理願景，即打造能夠自主代替用戶執行任務的 AI 系統。OpenAI 平台產品負責人 Olivier Godement 表示，儘管 AI 代理的定義尚有爭議，但有一種可行的解釋是：能以語音與用戶互動的 AI 聊天機器人。

「未來幾個月，我們將看到越來越多的 AI 代理問世。我們的核心目標是協助企業客戶和開發者利用這些有用、可用且準確的 AI 代理」，Olivier Godement 表示。

▲ OpenAI 藉 API 推出全新文字轉語音和語音轉文字模型。

（首圖來源：OpenAI Blog）

理財