請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

AI 很聰明,為什麼還不能幫我們把工作做完?AI的3大核心限制

經理人月刊

更新於 2025年05月21日07:20 • 發布於 2025年05月21日05:00 • 支琬清

根據 AI 研究機構 METR(Model Evaluation & Threat Research)發表的最新研究,AI 可完成的任務時長能力 (task time horizon,指AI 系統可有效完成的任務,所需時間的上限) ,約每 7 個月就翻倍成長。也就是說,AI 正在以驚人的速度進化。

根據 METR 的測試結果,先進的 AI 模型如 Claude 3.7,在特定基準(benchmark)上達成約 50% 成功率時,已能完成長達一小時的任務。

既然AI如此強大,為什麼「真實世界」的工作,似乎沒有變得更輕鬆?許多例行任務仍未自動化:每天許多「人工」email往返,專案進度追蹤依賴實體會議討論,甚至像安排會議、文件分類這類任務,也依然是人類工作者的日常。這讓人產生疑問: 既然 AI 已具備處理一小時長度任務的能力,為何還無法接手這些工作?

AI的限制1:現實任務多為複雜情境且不易拆解

根據 METR 研究結果,這個落差背後可歸因於AI的核心限制:AI 任務能力的表現高度依賴特定領域、成功率若需提升至實務標準會大幅壓縮任務時長、而現實任務本身則高度綁定多重情境且不易拆解,與單純的測試環境大不相同。這些因素彼此交織,使得在多數工作情境中, AI仍難以輕易取代人類的角色。

前述 AI 能力的推估來自特定軟體類任務測試,如 HCAST(Human-Centered AI Systems Testing)主要評估 AI 系統與人類互動時的有效性與適應性;RE-Bench(Reasoning Evaluation Benchmark)則檢驗模型在面對複雜邏輯推理任務時的表現精確度與邏輯一致性;SWAA Suite(Semantic Web Agent Assessment Suite)則用以評估 AI 代理在理解、處理與運用語義資訊上的能力。 這些測試多為封閉、低變動、目標明確的場境,與真實工作中的任務結構存在落差。

且研究指出,若選擇不同任務領域,推估結果會大幅變動。舉例而言,若以象棋為分析基準,1990 年代的 AI 已能操作數小時到數天長度的任務,但這顯然無法外推至職場中大多數工作。

此外,在測試平台OSWorld 的電腦操作任務中,人類平均表現為 73%,而目前頂尖 AI 僅有約 42%。反過來,在長文本理解任務中,AI 能有效處理比人類更大量的資訊。這說明 AI 的任務能力強烈依賴領域與任務類型。

AI的限制2:成功率的要求愈高,可處理的任務時長會跟著縮短

雖然 AI 在基準值任務上能以約 50% 成功率完成一小時任務,但這樣的準確率難以應用於實際工作情境。根據 METR 模型,當成功率需求提高至 80% 時,AI 能處理的任務時長將降至約 15 分鐘;若進一步推估至 99% 的準確率,可處理的時長可能低於一分鐘。

在高風險領域如自動駕駛,常需極高的準確率來避免重大錯誤。儘管研究也指出人類在一小時任務中的成功率僅約 50%,但人類的錯誤往往源於分心、資訊不足或中途放棄等非技術性原因,而 AI 的錯誤更常來自無法掌握上下文、缺乏必要資料或偏好理解。

這種結構性差異,使得 AI 若無法穩定達到高準確率,就難以被信賴用於更長任務或更關鍵的場景中。

AI的限制3:缺乏「上下文理解」,難以全面接管人類工作

AI 難以處理許多短期任務的原因之一,是這些任務實際上通常綁定在更大的工作流程中。例如「寫 email」這件事,看似可以自動化,但實際執行時涉及眾多隱含資訊:收件對象、對話上下文、寫信者意圖、任務進度與組織內共識等。

研究者列舉了下表中的數個實際 email 類型,並指出 AI 難以處理的關鍵原因:

email 類型 AI 無法自動處理的原因 有關潛在工作的邀請 + 聊天內容 AI 無法判斷使用者是否對該職位有興趣;也無法得知使用者的行程安排 針對上次專案對話的後續追蹤 AI 不知道先前對話的具體內容與專案細節 要求對特定作品或工作的回饋 AI 缺乏該領域的專業知識,無法提供具建設性的評論 回覆對 Epoch 研究領域有興趣的人的問題 AI 不清楚實際參與 Epoch 式研究的工作流程與經驗,也不了解內部如何運作

這些例子說明,雖然 AI 可生成語句通順的內容,但若無法掌握背景與偏好,就難以正確完成這些任務。若要解決這些問題,AI 系統可能需要具備對使用者偏好、任務歷史的長期記憶能力,以及存取更多個人化情境資料。

研究也指出,為了真正自動化這類任務,可能需建立更複雜的基礎設施來記錄對話與作業流程,這會涉及隱私、安全與社會規範的重大變動。

為什麼基準值成績不能代表 AI 真正能工作?

AI 能否勝任現實工作,與其在基準測試中的表現不一定對等。原始研究者指出,真實工作往往是綁在一起的混合任務,並非可獨立拆分的短期任務。即使 AI 能處理一秒或一分鐘的任務,若無法解讀整體上下文與任務脈絡,將無法勝任更長時間的工作。

METR 為此設計了一套「資料雜訊(messiness)指標」,用以評估現實任務的複雜度,包括是否存在人機互動、是否為動態環境、是否可自動評分等共 16 項因子。這顯示 benchmark 測試雖能追蹤 AI 能力增長趨勢,但無法完全反映真實工作場景的挑戰性。

工作任務不是一座又一做的孤島,而是交織成網絡的系統,只有真正理解任務之間的依賴關係,才能設計出具備實用價值的 AI 自動化系統。

資料來源:Epoch AI;本文初稿由 AI 協助整理,編輯:支琬清

延伸閱讀

AI 會是怎樣的工作者?研究實測:理解差、不熟工具,還會誤判完成任務
職稱不再重要了!AI 時代下「大校準潮」強襲,這一種人小心被淘汰
加入《經理人》LINE好友,每天學習商管新知

查看原始文章

更多理財相關文章

01

廣達尾牙登場!林百里:未來3年是AI爆發期

NOWNEWS今日新聞
02

中砂、昇陽、新應材...2奈米不是只有台積電會賺!「5檔材料商」搭上成長列車

商周財富網
03

這檔股票買1股就送紀念品!「轉手價炒到2000元」

民視新聞網
04

13家金控2025年獲利成績出爐!3金控最會賺、全年最飆的金控竟是「它們」

商周財富網
05

台積法說/亞利桑那二廠量產等重點一次看

NOWNEWS今日新聞
06

全聯、好市多都不敢輕忽的對手!LOPIA 用「肉舖靈魂」與「日味熟食」,站穩台灣超市市場

經理人月刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...