金融、法律 AI 模型如何評估是否符合產業應用?OpenAI 推「Pioneers 計畫」擬訂專屬評測標準
隨著各行各業加快採用 AI 的步伐,OpenAI 宣布啟動全新「Pioneers(先鋒)計畫」,將與企業合作打造適用特定產業的專屬 AI 模型評估標準。
OpenAI 表示,「我們認為,法律、金融、保險、醫療保健、會計等許多行業都缺乏一套統一的模型標準測試。」
《TechCrunch》觀察,近期 LM Arena 或是 Meta 新 Maverick 模型的評測方式,皆引發爭議,暴露出目前評測方式難以明確知道模型之間有何區別──尤其現行評測多聚焦於博士級數學題等艱深任務測試,不僅與產業應用脫節,也容易被模型針對性優化手法操弄。
OpenAI 認為,打造垂直產業的特定領域評估標準,可以幫助企業在實際的高風險環境中評估模型性能。因此,OpenAI 希望透過先鋒計畫為法律、金融、保險、醫療、會計等領域設計客製化的評估指標。在接下來的幾個月裡,OpenAI 將與多家公司合作建立引導模型研發、改善對 AI 系統信任的明確標準,並在最終公開分享。
針對企業 3 個特定使用案例,提供客製化微調模型
Pioneers 計畫首波將鎖定在具高影響力垂直領域打造新產品的公司,OpenAI 將派出研究團隊與其深入合作,設計符合該產業需求的測試機制與任務設定。
此外,每家公司還將獲得三個客製化模型開發的機會,OpenAI 將協助導入強化式微調(Reinforcement Fine Tuning, RFT)技術,針對特定任務訓練出更具專業性的 AI 模型,並可在企業內部實際部署使用。
OpenAI 過去也曾贊助過其他 AI 基準測試,這次自行開發評測是否能被開發者社群接受,仍有待觀察。
【推薦閱讀】
◆ Google Cloud Next 大會 AI 重量級更新!發表第 7 代 TPU、揭開企業 AI「多代理」時代
*本文開放合作夥伴轉載,資料來源:《TechCrunch》、OpenAI,首圖來源:Unsplash。