請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

AI無法勝任白領工作?新研究揭:處理法律、金融任務「集體大翻車」

商傳媒

更新於 01月23日09:19 • 發布於 01月23日09:19 • service@sunmedia.tw (商傳媒 SUN MEDIA)
圖/AI示意圖

商傳媒|記者責任編輯/綜合外電報導

儘管微軟執行長納德拉(Satya Nadella)兩年前曾預言「AI將取代知識型工作者」,但時至2026年,辦公室裡的律師、投資銀行家、會計師與顧問們依然安坐崗位。科技媒體《TechCrunch》報導指出,儘管大型語言模型(LLM)持續進化,具備研究分析與任務規劃能力,但AI實際執行白領專業工作時的表現,依然令人失望。

根據訓練數據平台Mercor釋出的最新研究,AI在現實專業場景中的表現仍未及格。該研究推出名為「APEX-Agents」的新測試標準,模擬顧問、律師與投銀分析師的日常任務,結果顯示:無論是OpenAI、Google或Anthropic的先進模型,在這套測試中答對率皆不到25%。

APEX-Agents揭露關鍵弱點:跨領域推理能力嚴重不足

Mercor執行長傅迪(Brendan Foody)表示,AI模型的最大困難在於「跨平台、跨資料源的整合與推理」,不過這卻正是大多數知識型工作的核心。現實工作中資訊分散於Slack、Google Drive、Email、報告與法規文件之間,AI無法在這樣的環境下整合背景資訊並作出專業判斷,成為重大障礙。

研究團隊邀請Mercor平台上的專業人士實際提供真實工作任務,再由同業訂定評分標準。這與OpenAI先前推出的GDPval基準不同,後者主要測試通才知識,而APEX-Agents則深入少數高價值職業的「實作能力」,難度更高,也更貼近職業取代性問題的核心。

舉例而言,法律測驗中一題提問如下:

「在歐盟資料庫中斷前48分鐘,Northstar工程團隊向美國分析商匯出1-2份事件記錄檔,其中包含個資,根據Article 49條款與該公司的政策,這樣的匯出行為是否合規?」

正確答案是「是」,但過程需結合歐盟GDPR條文與Northstar內部政策才能推論,對AI而言難度極高。若模型能正確回答此類問題,才有資格談論取代法律顧問的可能。

在最新版本測試中,表現最佳的為Gemini 3 Flash(24%)與GPT-5.2(23%),其次為Opus 4.5、Gemini 3 Pro與GPT-5,皆僅約18%。換句話說,目前AI充其量只是「偶爾答對的實習生」,離可靠的職場夥伴仍有明顯距離;但傅迪指出,去年模型答對率僅約5%至10%,一年內已躍升至20%以上,若這種成長速度持續,數年內可能翻盤。

AI白領革命為時未晚 技術突破需環境建構與任務管理同步

Mercor的研究提醒AI業界,光是提升模型參數與記憶力仍不足以勝任複雜知識工作,必須同步建構出能模擬現實工作環境的任務管理機制。例如,自動在多平台之間切換、整合文件與訊息脈絡、以及長時段多階段任務追蹤能力,才是關鍵突破點。

正因如此,APEX-Agents被視為未來幾年判斷「白領職務自動化可能性」的關鍵測試標準。目前已於Hugging Face開放,對全球AI研究團隊釋出挑戰。

查看原始文章

更多理財相關文章

01

勞動基金114年大賺1兆1177億元 逾半來自台股

中央通訊社
02

台股反彈狂飆669點「重返3萬2」 台積電漲45元至1810元

台視
03

〈台股開盤〉強漲逾600點收復連三跌過半失土 電子權值股攜PCB、記憶體上攻

anue鉅亨網
04

夢境成真馬上發 超強運彰化男2度刮中100萬

NOWNEWS今日新聞
05

記憶體股現史詩級崩跌 原來是這個原因

經濟日報
06

黃仁勳返美 下一站直奔休士頓!意外曝露最愛1零食 竟是它

三立新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...