金融、法律 AI 模型如何評估是否符合產業應用？OpenAI 推「Pioneers 計畫」擬訂專屬評測標準

隨著各行各業加快採用 AI 的步伐，OpenAI 宣布啟動全新「Pioneers（先鋒）計畫」，將與企業合作打造適用特定產業的專屬 AI 模型評估標準。

OpenAI 表示，「我們認為，法律、金融、保險、醫療保健、會計等許多行業都缺乏一套統一的模型標準測試。」

《TechCrunch》觀察，近期 LM Arena 或是 Meta 新 Maverick 模型的評測方式，皆引發爭議，暴露出目前評測方式難以明確知道模型之間有何區別──尤其現行評測多聚焦於博士級數學題等艱深任務測試，不僅與產業應用脫節，也容易被模型針對性優化手法操弄。

OpenAI 認為，打造垂直產業的特定領域評估標準，可以幫助企業在實際的高風險環境中評估模型性能。因此，OpenAI 希望透過先鋒計畫為法律、金融、保險、醫療、會計等領域設計客製化的評估指標。在接下來的幾個月裡，OpenAI 將與多家公司合作建立引導模型研發、改善對 AI 系統信任的明確標準，並在最終公開分享。

針對企業 3 個特定使用案例，提供客製化微調模型

Pioneers 計畫首波將鎖定在具高影響力垂直領域打造新產品的公司，OpenAI 將派出研究團隊與其深入合作，設計符合該產業需求的測試機制與任務設定。

此外，每家公司還將獲得三個客製化模型開發的機會，OpenAI 將協助導入強化式微調（Reinforcement Fine Tuning, RFT）技術，針對特定任務訓練出更具專業性的 AI 模型，並可在企業內部實際部署使用。

OpenAI 過去也曾贊助過其他 AI 基準測試，這次自行開發評測是否能被開發者社群接受，仍有待觀察。

【推薦閱讀】
◆ Google Cloud Next 大會 AI 重量級更新！發表第 7 代 TPU、揭開企業 AI「多代理」時代
◆ Google Cloud 發表資安 AI 雙代理，5 大安全功能更新一次看
◆ 通用汽車推 3 大 AI 技術優化工廠品質檢測，機器視覺只是其中之一

＊本文開放合作夥伴轉載，資料來源：《TechCrunch》、OpenAI，首圖來源：Unsplash。

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

請更新您的瀏覽器

理財

TechOrange 科技報橘

針對企業 3 個特定使用案例，提供客製化微調模型

更多理財相關文章

吃飯捕獲野生魏哲家！親民合照：常來就會遇到我

不買房、不存錢，只買快樂？年輕世代的消費選擇掀論戰

金龍海嘯遇土方之亂！5建商破產老董崩潰：還有一波倒閉潮

北屯新案下殺3字頭「單坪現砍20萬！」　破盤價搶便宜…專家曝「這些條款」要留心

「目標價破萬」個股出現　信驊被喊10500元

兩兒接班不如預期！「老乾媽」辣椒醬創辦人重返第一線　救回營收衝245億

請更新您的瀏覽器啟用Javascript

金融、法律 AI 模型如何評估是否符合產業應用？OpenAI 推「Pioneers 計畫」擬訂專屬評測標準

TechOrange 科技報橘

針對企業 3 個特定使用案例，提供客製化微調模型

更多理財相關文章

吃飯捕獲野生魏哲家！親民合照：常來就會遇到我

不買房、不存錢，只買快樂？年輕世代的消費選擇掀論戰

金龍海嘯遇土方之亂！5建商破產 老董崩潰：還有一波倒閉潮

北屯新案下殺3字頭「單坪現砍20萬！」 破盤價搶便宜…專家曝「這些條款」要留心

「目標價破萬」個股出現 信驊被喊10500元

兩兒接班不如預期！「老乾媽」辣椒醬創辦人重返第一線 救回營收衝245億

請更新您的瀏覽器

金龍海嘯遇土方之亂！5建商破產老董崩潰：還有一波倒閉潮

北屯新案下殺3字頭「單坪現砍20萬！」　破盤價搶便宜…專家曝「這些條款」要留心

「目標價破萬」個股出現　信驊被喊10500元

兩兒接班不如預期！「老乾媽」辣椒醬創辦人重返第一線　救回營收衝245億