科技

OpenAI 開發者大會新功能整理:實時 API、緩存 Prompt、視覺微調

電腦王阿達
更新於 10月03日09:09 • 發布於 10月03日09:09 • 達小編

OpenAI 於 10 月 1 日在美國舊金山舉辦開發者大會(OpenAI DevDay),本次 OpenAI 開發者大會中新增像是實時 API、緩存 Prompt、視覺微調等等創新功能。現在開發者可以在 APP 中使用OpenAI 進階語音模式的低延遲多模態語音體驗,本次開發者大會也分享了許多合作夥伴使用 GPT-4o 的範例,一起來看看本次 2024 OpenAI 開發者大會新增功能有哪些吧!

OpenAI 開發者大會新功能整理:實時 API、緩存 Prompt、視覺微調

廣告(請繼續閱讀本文)

10 月 1 日 OpenAI 開發者大會(OpenAI DevDay)中提到了許多新增功能,其中小編覺得本次最吸引人的就是實時 API(Realtime API),OpenAI 推出實時 API 公開測試版,現在所有付費開發者都能在他們的 APP 中建立類似於 ChatGPT 的進階語音模式的低延遲、多模態語音體驗。

OpenAI 目前已經與少數合作夥伴測試實時 API 的效果,像是營養和健身指導 APP Healthify 和語言學習 APP Speak 現在都已經在使用實時 API 來幫助工作。

廣告(請繼續閱讀本文)

實時 API 也可以與其他 APP 的 API 相結合,譬如 OpenAI 展示實時 API 與 Twilio 的 API 相結合的能力。AI 助手通過電話向虛構的糖果店下單訂購 400 顆巧克力草莓,再由 Twilio 的 API 統整像是訂購商品、訂購內容、送貨地點、備餐時間等等的訂單內容,讓 Twilio 具備處理電話溝通任務的能力。

緩存 Prompt(Prompt Caching in the API)

OpenAI 本次還推出緩存 Prompt 功能,讓開發者可以在多個 API 請求間緩存常用的上下文訊息。以此來降低開發者的成本和時間,據 OpenAI 稱緩存 Prompt 功能最多可以幫開發者節省約 50%的費用。

視覺微調 Vision Fine-Tuning

OpenAI 在 GPT-4o 上推出視覺微調(Vision Fine-Tuning)功能,除了文字以外現在也可以使用圖片進行微調。開發者可以自定義模型,使 GPT-4o 擁有更強大的圖片理解能力,讓未來能夠在自動駕駛、影片檢測、醫療圖像分析、視覺搜索等領域有更好的發展。

東南亞地區提供外送食物和搭車的服務的 Grab 使用 GPT-4o 的視覺微調功能將他們司機收集的階級圖片轉化為地圖數據,用這些數據來驅動自家的 GrabMaps。Grab 目前已經教會 GPT-4o 正確定位交通標誌和計算車道分隔線,現在 Grab 能夠將車道數量準確度提高 20%,限速標誌定位準確度提高 13%。

本次 OpenAI 開發者大會的介紹差不多就到這裡,據 OpenAI 透露除了 10 月 1 日的開發者大會以外,10 月 30 日和 11 月 21 日在倫敦和新加坡還會再有兩場發布會,不知道到時候 OpenAI 又會推出哪些新功能。如果對 OpenAI 舊金山開發者大會感興趣的朋友可以前往 OpenAI 官網瞭解更多:

查看原始文章