請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

OpenAI 升級語音文字互轉模型,精準辨識口音和語調、指定說話風格

科技新報

更新於 2025年03月21日12:13 • 發布於 2025年03月21日12:14

OpenAI 藉 API 推出全新文字轉語音和語音轉文字模型,這些模型性能相較先前版本有顯著提升。

OpenAI 新推出的文字轉語音模型「gpt-4o‑mini‑tts」不僅能產生細膩、自然的語音,且比上一代更容易「指導」,也就是說開發者可用自然語言指令指定說話風格,例如「用瘋狂科學家的口吻說話」或「以正念(mindfulness)老師的語調說話」。

這項技術可讓開發者同時自訂聲音體驗和語境情感,「在不同情境下,你不希望只聽到單調平穩的語音。若客服系統犯錯,需要表達歉意,就能讓語音帶有相應的情緒⋯⋯我們相信,企業客戶想要掌控的不只是說什麼,而是怎麼說」,OpenAI API 產品經理 Jeff Harris 表示。

還有推出新的語音轉文字模型「gpt-4o-transcribe」和「gpt-4o-mini-transcribe」,將取代 OpenAI 長期使用的 Whisper 模型。

新模型以多樣且高品質的語音資料集訓練而成,在嘈雜環境也能精準辨識各種口音和語調,同時大幅降低「幻覺」帶來的錯誤,過去 Whisper 曾因誤植字詞乃至整段內容錯誤遭用戶詬病。

「這些模型在準確度方面相較 Whisper 有明顯提升,確保模型輸出精準無誤,是打造可靠語音體驗的關鍵——準確度意味著模型只聽見實際講出的字詞,而不會自行填充未曾聽到的內容」,Jeff Harris 表示。

對 OpenAI 而言,新的文字轉語音和語音轉文字模型符合更廣泛的 AI 代理願景,即打造能夠自主代替用戶執行任務的 AI 系統。OpenAI 平台產品負責人 Olivier Godement 表示,儘管 AI 代理的定義尚有爭議,但有一種可行的解釋是:能以語音與用戶互動的 AI 聊天機器人。

「未來幾個月,我們將看到越來越多的 AI 代理問世。我們的核心目標是協助企業客戶和開發者利用這些有用、可用且準確的 AI 代理」,Olivier Godement 表示。

▲ OpenAI 藉 API 推出全新文字轉語音和語音轉文字模型。

(首圖來源:OpenAI Blog

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

30年回憶消失?新光三越台南中山店傳「10月熄燈」 官方回應了

太報
02

公司看履歷「超過40歲先刷掉?」 過來人搖頭:最好用的一群

ETtoday新聞雲
03

蘋果大打記憶體破壞戰!傳高價買斷行動DRAM 不惜犧牲利潤擴張市占

anue鉅亨網
04

美軍毀伊朗最高橋樑 革命衛隊嗆「要炸中東多國大橋報復」

anue鉅亨網
05

台灣不在豁免名單!川普祭100%專利藥品關稅

自由電子報
06

每月領24萬!退休夫妻因1事成月光族:吃麵都變奢侈 晚年悽慘狀況曝光

三立新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...