OpenAI 繼去年首次舉辦開發者大會,第二屆 OpenAI DevDay 第一場於舊金山揭開序幕,儘管比起去年低調些,仍帶來 4 大功能,試圖說服更多開發者運用 OpenAI 的模型和技術建立 AI 應用程式。
Realtime API
首先,OpenAI 新推出 GPT-4o 的 Realtime API 公開測試版,可選擇使用 OpenAI 提供的 6 種預設語音進行對話,類似於 ChatGPT 進階語音模式(Advanced Voice),但聲音不相同。這使開發者能在應用程式建立低延遲、多模態的體驗,而開發者不能使用第三方聲音,防止碰上聲音版權問題。
過去若要建立 AI 語音助理,開發者必須使用 Whisper 這類語音辨識模型先將語音提問轉錄成文字,把文字傳遞給模型進行推理,推理完成後使用文字轉語音(text to speech)模型輸出音訊,但這種做法容易失去重點、失去對話夾帶的情感和口音,而且回應上明顯較慢。現在 Realtime API 透過直接串流音訊輸入和輸出來改善痛點,達到更自然的語音對話。
Realtime API 使用文字 token 和音訊 token。文字方面的價格為每百萬個輸入 token 收費 5 美元,每百萬個輸出 token 收費 20 美元;至於音訊方面,每百萬個輸入 token 收費 100 美元,每百萬個輸出 token 收費 200 美元。
OpenAI 指出,率先採用 Realtime API 的開發商有營養和健身教練應用程式 Healthify,以及語言學習平台 Speak。前者使用 Realtime API,讓使用者能與 AI 教練 Ria 進行對話,後者以即時角色扮演新功能,提供多種場景的口說練習。
vision fine-tuning
OpenAI 在 GPT-4o 引進視覺微調(vision fine-tuning),開發者可用圖像和文字微調 GPT-4o,提升視覺功能。開發者能夠自訂模型,使其具有更強的圖像理解能力,強化視覺搜尋等功能,改進自駕車或智慧城市物件偵測,以及更準確的醫學圖像分析。
比方說,來自東南亞的叫車和外送平台 Grab 藉由這項功能,教 GPT-4o 正確定位交通標誌並計算車道分隔線,完善 Grab 服務的地圖資料。
Prompt Caching
開發者建立 AI 應用程式時,多次 API 呼叫可能重複使用相同的上下文。為此 OpenAI 新推出提示快取(Prompt Caching)功能,省下重複輸入的成本,開發者可節省多達 50% 費用,且有更快的提示處理時間。
OpenAI 的提示快取類似於競爭對手 Anthropic 幾個月前發表的功能,將自動應用在最新版本的 GPT-4o、GPT-4o mini、o1、o1-mini。
Model Distillation
OpenAI 還提出模型蒸餾(Model Distillation)功能,讓開發者可以使用較大的模型(如 GPT-4o 和 o1)微調成較小的模型(如 GPT-4o mini 等)。與運行較大的模型相比,運行較小的模型通常可滿足成本效益,這項功能可讓開發者提高小型模型的性能。
有興趣的讀者除前往OpenAI 官網閱讀更詳細的技術說明外,據傳 OpenAI 計劃稍晚在自家 YouTube 頻道上傳主題演講影片,這次執行長奧特曼(Sam Altman)並非主題演講主角,而是由 OpenAI 產品團隊負責內容。此外,OpenAI 產品長 Kevin Weil 向參與 OpenAI DevDay 的外媒強調,技術長 Mira Murati 和研究長 Bob McGrew 等離職,沒有影響 OpenAI 研究和產品進展。
shipping a few new tools for developers today!
from last devday to this one:
*98% decrease in cost per token from GPT-4 to 4o mini
*50x increase in token volume across our systems
*excellent model intelligence progress
*(and a little bit of drama along the way)
— Sam Altman (@sama) October 1, 2024
▲ 奧特曼透過 X 分享 OpenAI 成績和進展。
OpenAI’s DevDay 2024: 4 major updates that will make AI more accessible and affordable
OpenAI unveils easy voice assistant creation at 2024 developer event
OpenAI’s DevDay brings Realtime API and other treats for AI app developers
(首圖來源:OpenAI)
留言 0