請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

OpenAI DevDay 發表四大功能,Realtime API 助開發者建立 AI 語音對話

科技新報

更新於 2024年10月02日17:58 • 發布於 2024年10月02日17:56

OpenAI 繼去年首次舉辦開發者大會,第二屆 OpenAI DevDay 第一場於舊金山揭開序幕,儘管比起去年低調些,仍帶來 4 大功能,試圖說服更多開發者運用 OpenAI 的模型和技術建立 AI 應用程式。

Realtime API

首先,OpenAI 新推出 GPT-4o 的 Realtime API 公開測試版,可選擇使用 OpenAI 提供的 6 種預設語音進行對話,類似於 ChatGPT 進階語音模式(Advanced Voice),但聲音不相同。這使開發者能在應用程式建立低延遲、多模態的體驗,而開發者不能使用第三方聲音,防止碰上聲音版權問題。

過去若要建立 AI 語音助理,開發者必須使用 Whisper 這類語音辨識模型先將語音提問轉錄成文字,把文字傳遞給模型進行推理,推理完成後使用文字轉語音(text to speech)模型輸出音訊,但這種做法容易失去重點、失去對話夾帶的情感和口音,而且回應上明顯較慢。現在 Realtime API 透過直接串流音訊輸入和輸出來改善痛點,達到更自然的語音對話。

Realtime API 使用文字 token 和音訊 token。文字方面的價格為每百萬個輸入 token 收費 5 美元,每百萬個輸出 token 收費 20 美元;至於音訊方面,每百萬個輸入 token 收費 100 美元,每百萬個輸出 token 收費 200 美元。

OpenAI 指出,率先採用 Realtime API 的開發商有營養和健身教練應用程式 Healthify,以及語言學習平台 Speak。前者使用 Realtime API,讓使用者能與 AI 教練 Ria 進行對話,後者以即時角色扮演新功能,提供多種場景的口說練習。

vision fine-tuning

OpenAI 在 GPT-4o 引進視覺微調(vision fine-tuning),開發者可用圖像和文字微調 GPT-4o,提升視覺功能。開發者能夠自訂模型,使其具有更強的圖像理解能力,強化視覺搜尋等功能,改進自駕車或智慧城市物件偵測,以及更準確的醫學圖像分析。

比方說,來自東南亞的叫車和外送平台 Grab 藉由這項功能,教 GPT-4o 正確定位交通標誌並計算車道分隔線,完善 Grab 服務的地圖資料。

Prompt Caching

開發者建立 AI 應用程式時,多次 API 呼叫可能重複使用相同的上下文。為此 OpenAI 新推出提示快取(Prompt Caching)功能,省下重複輸入的成本,開發者可節省多達 50% 費用,且有更快的提示處理時間。

OpenAI 的提示快取類似於競爭對手 Anthropic 幾個月前發表的功能,將自動應用在最新版本的 GPT-4o、GPT-4o mini、o1、o1-mini。

Model Distillation

OpenAI 還提出模型蒸餾(Model Distillation)功能,讓開發者可以使用較大的模型(如 GPT-4o 和 o1)微調成較小的模型(如 GPT-4o mini 等)。與運行較大的模型相比,運行較小的模型通常可滿足成本效益,這項功能可讓開發者提高小型模型的性能。

有興趣的讀者除前往OpenAI 官網閱讀更詳細的技術說明外,據傳 OpenAI 計劃稍晚在自家 YouTube 頻道上傳主題演講影片,這次執行長奧特曼(Sam Altman)並非主題演講主角,而是由 OpenAI 產品團隊負責內容。此外,OpenAI 產品長 Kevin Weil 向參與 OpenAI DevDay 的外媒強調,技術長 Mira Murati 和研究長 Bob McGrew 等離職,沒有影響 OpenAI 研究和產品進展。

▲ 奧特曼透過 X 分享 OpenAI 成績和進展。

(首圖來源:OpenAI

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多科技相關文章

01

高階晶片25%國安關稅上路 白宮暗示還有進一步動作

路透社
02

馬斯克xAI陷全球監管風暴 Grok生成深偽不雅內容

路透社
03

美國電網運作緩慢 Google:擴充資料中心併網係最大挑戰

路透社
04

這裡看Disney+更便宜 中華電信省破2千元

卡優新聞網
05

台積電獲利超預期創新高 預告建設更多美國廠

路透社
06

澳洲禁令上路滿1個月 社媒停用470萬青少年帳號

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...