當 AI「硬回答」反而害企業虧錢?Appier 拆解企業 AI 導入挑戰提 4 大解法
AI 代理時代來臨,當 AI 越來越會回答問題、具備自主執行任務的能力,其回答內容「是否可被信任」,已成為企業導入 AI 關注的焦點。Agentic AI 即服務(AaaS)公司 Appier 的 AI 研究團隊近年聚焦可信任的 Agentic AI 研究,獲得 NeurIPS、ACL、EMNLP 等國際權威學術會議肯定,在今(15 日)公開讓 AI 具備精準提問、進行風險評估、掌握自身能力邊界的「自我覺察能力」研究成果。
Appier 執行長游直翰表示,在 AI 產業鏈中,AI Agent 是最關鍵且熱鬧的一環,因為只有當 Agent 能實際應用並幫企業賺到錢,才有辦法支撐並支付底層龐大的運算成本,因此,如何讓 Agent 在企業中可靠地運作並得到好結果,是目前重要的發展方向。他也強調,未來 AI Agent 將加速串聯人、工具與軟體,形成更複雜的 Agent society,企業能否搶佔 Agentic AI 先機,關鍵就在 AI 是否具備可被信任的決策力。
你的 AI 不考慮風險、硬回答?它在「幫你虧錢」
Appier AI 團隊研究科學家林玠言表示,現有 LLM 的核心盲區在於無法評估自身能力的邊界,而這樣的 AI 風險已有企業在付出代價。舉例來說,Air Canada 的客服機器人曾在與客戶溝通時自行虛構了一套退款機制,導致客戶信以為真並要求退款。儘管該航空公司實際上沒有這項機制並試圖拒絕退款,但法院最終判決航空公司敗訴並必須賠償。
林玠言指出,Appier 針對 6 個主流大型語言模型進行了一項計算「平均期望報酬」的系統性實驗,規則為答對得 1 分,拒絕作答得 0 分,答錯則倒扣 8 分。結果顯示,當 AI 依照本能、不考慮作答風險直接去回答所有問題時,期望報酬全面為負,這證明 AI 為了「硬回答」而盲目瞎猜的結果,是在「幫企業虧損」,甚至比直接拒絕回答(0 分)還要糟糕。
怎麼讓 AI 從「很會瞎掰」變成「值得信任」?
整體而言,Appier 分析企業導入 AI 面臨四大關鍵挑戰,並提出解法。第一,模型在微調後雖能強化特定任務表現,卻可能因此「忘記」原有的邏輯能力,出現持續學習中的災難性失憶;第二,AI 遇到模糊指令時會盲目猜測,但過度追問又可能造成使用者負擔;第三,AI 缺乏風險感知,難以依據情境判斷何時該答、拒答或上報;第四,傳統信心校準只看單次回答對不對,卻無法真正衡量模型「是否具備解題能力」。
為協助企業因應上述挑戰,Appier 提出精準提問、評估風險、掌握自身能力邊界、防止失憶共四項核心解法。
針對精準提問,Appier 發現,如果 AI 只靠主觀判斷,往往難以準確決定何時該提問,但透過導入可驗證的外部回饋,並在回答前由其他 LLM 進行交叉驗證,能讓 AI 問得更準、問得更有必要,讓任務精準度與使用者體驗之間的平衡效益提升超過三成。
針對風險評估,Appier 採用「技能拆解」方法,將解題、信心評估與期望值決策分開處理,讓 AI 能依據風險高低採取更理性的回答策略,將高風險預期虧損降低六至七成(以 AI 期望報酬數值計算)。
至於能力掌握,Appier 則提出全新的能力校準機制,讓 AI 不只評估單次回答是否正確,而是在回答前先預估答對機率,更準確界定能力邊界;其推論成本甚至低於 1 Token。
另一方面,針對模型微調後常見的失憶問題,Appier 提出穩定微調方法,從源頭辨識並迴避高困惑度 token,避免模型在強化新任務表現時遺忘既有的推理或指令遵循能力。Appier 研究顯示,該方法已可將非目標任務的退化率降至接近 0%,且前處理時間只需 8 分鐘,以協助 Agentic AI 在企業場景中更高效地持續學習與穩定落地。
研究成果整合進產品線,攔截約 80% 風險回應
Appier 已將上述研究發現迅速整合進自家產品線。Appier 個人化雲產品副總監林冠樺指出,AI Agent 在企業流程中大致可分為「對外」與「對內」兩種角色,且這兩種場景需要注意的事項與風險考量非常不同。對外部考量的重點,需要避免說錯話與過度打擾;對內部的考量點則是不能只是附和,而是具備主動找出盲點與潛在風險的能力,並給出實質建議。
Appier 指出,旗下 Sales 與 Service Agent 已能掌握自身能力範圍,不亂答不屬於自身專業的問題;當用戶提問資訊不足或條件不明確時,也會先釐清、再回應,並在合適時機自然推薦相關商品,降低錯誤資訊與不當互動帶來的風險。
在企業內部營運場景中,Appier Audience Agent 在行銷人員要求為母親節規劃近五年、且人數超過十萬的合適受眾時,如果系統實際只能存取一年資料,該 Agent 不會為了迎合需求硬湊答案,而是會如實提醒資料限制、主動釐清條件,並提出可行替代方案。根據 Appier,目前這套機制已可協助企業攔截約 80% 的風險回應,且隨數據迭代持續提升中。
林玠言表示,對於 Appier 來說,未來的企業 AI 評估標準,不只在於「它有多聰明」,更在於「它有多誠實」,能不能在不會的時候主動尋求幫助。
*圖片來源:《TechOrange》拍攝,由左至右為 Appier 個人化雲產品副總監林冠樺、Appier 執行長暨共同創辦人游直翰、Appier AI 團隊研究科學家林玠言。