OpenAI 開發者大會新功能整理：實時 API、緩存 Prompt、視覺微調

OpenAI 於 10 月 1 日在美國舊金山舉辦開發者大會（OpenAI DevDay），本次 OpenAI 開發者大會中新增像是實時 API、緩存 Prompt、視覺微調等等創新功能。現在開發者可以在 APP 中使用OpenAI 進階語音模式的低延遲多模態語音體驗，本次開發者大會也分享了許多合作夥伴使用 GPT-4o 的範例，一起來看看本次 2024 OpenAI 開發者大會新增功能有哪些吧！

廣告（請繼續閱讀本文）

10 月 1 日 OpenAI 開發者大會（OpenAI DevDay）中提到了許多新增功能，其中小編覺得本次最吸引人的就是實時 API（Realtime API），OpenAI 推出實時 API 公開測試版，現在所有付費開發者都能在他們的 APP 中建立類似於 ChatGPT 的進階語音模式的低延遲、多模態語音體驗。

OpenAI 目前已經與少數合作夥伴測試實時 API 的效果，像是營養和健身指導 APP Healthify 和語言學習 APP Speak 現在都已經在使用實時 API 來幫助工作。

廣告（請繼續閱讀本文）

實時 API 也可以與其他 APP 的 API 相結合，譬如 OpenAI 展示實時 API 與 Twilio 的 API 相結合的能力。AI 助手通過電話向虛構的糖果店下單訂購 400 顆巧克力草莓，再由 Twilio 的 API 統整像是訂購商品、訂購內容、送貨地點、備餐時間等等的訂單內容，讓 Twilio 具備處理電話溝通任務的能力。

緩存 Prompt（Prompt Caching in the API）

OpenAI 本次還推出緩存 Prompt 功能，讓開發者可以在多個 API 請求間緩存常用的上下文訊息。以此來降低開發者的成本和時間，據 OpenAI 稱緩存 Prompt 功能最多可以幫開發者節省約 50％的費用。

視覺微調 Vision Fine-Tuning

OpenAI 在 GPT-4o 上推出視覺微調（Vision Fine-Tuning）功能，除了文字以外現在也可以使用圖片進行微調。開發者可以自定義模型，使 GPT-4o 擁有更強大的圖片理解能力，讓未來能夠在自動駕駛、影片檢測、醫療圖像分析、視覺搜索等領域有更好的發展。

東南亞地區提供外送食物和搭車的服務的 Grab 使用 GPT-4o 的視覺微調功能將他們司機收集的階級圖片轉化為地圖數據，用這些數據來驅動自家的 GrabMaps。Grab 目前已經教會 GPT-4o 正確定位交通標誌和計算車道分隔線，現在 Grab 能夠將車道數量準確度提高 20％，限速標誌定位準確度提高 13％。

本次 OpenAI 開發者大會的介紹差不多就到這裡，據 OpenAI 透露除了 10 月 1 日的開發者大會以外，10 月 30 日和 11 月 21 日在倫敦和新加坡還會再有兩場發布會，不知道到時候 OpenAI 又會推出哪些新功能。如果對 OpenAI 舊金山開發者大會感興趣的朋友可以前往 OpenAI 官網瞭解更多：

OpenAI 開發者大會新功能整理：實時 API、緩存 Prompt、視覺微調