請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

突破人類知識限制,DeepMind預測AI邁向「經驗時代」

遠見雜誌

更新於 2025年05月06日10:47 • 發布於 2025年05月06日10:47 • 傅莞淇

在打造人工智慧的漫長路上,人類的角色是時候改變了?Google DeepMind科學家在新文章中預測,有限的人類資料不再是引導機器產生智慧的最佳素材。相反地,人類是時候讓機器自行探索世界、從經驗中學習。如此,AI也才能創造出值得人類學習的知識。

人類尋求「思考機器」的努力已經走過七十餘載,也許一個新時代正在來臨。人類終將放棄「在機器中重現人類智慧」的夢想,了解到人工智慧無法也不需要複製人類智慧。讓機器從自身經驗中學習,才能突破人類知識限制,解決我們無法解決的重大難題。

這是DeepMind科學家近期在一篇《歡迎來到經驗時代》(Welcome to the Era of Experience)文章中的主要觀點。此為即將出版的著作《Designing an Intelligence》中的一個章節,作者為強化學習(RL)領域的先驅薩頓(Richard Sutton)及重要推廣者希爾弗(David Silver)。

作者將近代的AI發展分為三個時代:「模擬時代」、「人類資料時代」,以及即將到來的「經驗時代」。AlphaGo是模擬時代的產物,GPT-3可視為推進人類資料時代的代表,而DeepMind自家開發的AlphaProof,則被認為是朝向經驗時代轉向的證據之一。

DeepMind科學家預測未來將是「經驗時代」。取自The Era of Experience

DeepMind科學家預測未來將是「經驗時代」。取自The Era of Experience

「經驗時代」有何特徵?又為何可能是必須前進的方向?

高品質人類資料將用盡,模型仍無法掌握基本常識

要理解這樣的典範轉移,可以先從審視現況及其限制開始。

近年,在ChatGPT的突破下,大眾對「人工智慧」有了新一層的體驗與認知。驅動ChatGPT的大語言模型(LLM),主要倚賴大量的人類資料做為訓練素材,加上人類專家的範例及偏好進行微調。這些模型因而能夠生成極近似人類水平的回應,且似乎了解如何迎合使用者的偏好。

然而,僅靠著擴大模型規模達成的能力進展逐漸放緩,高品質的人類資料也逐漸用盡。OpenAI前首席科學家蘇茨克維(Ilya Sutskever)在2024年便指出,以海量資料進行預訓練的做法已來到自然極限,需要新的進路。近期模型發展朝向「推理」能力的轉向,便是例證之一。

事實上,光靠大語言模型無法打造出人工智慧界的階段性聖杯「通用人工智慧」(AGI),已可說是業界共識。即使已搜刮人類在網路上累積的海量數位資料,作為模型的訓練素材,這些聊天機器人依然無法掌握基本常識,也無法分辨自己的輸出是真是假。

前進更先進的人工智慧,需要一場跳躍。對薩頓與希爾弗來說,這代表著以新見解再次擁抱「強化學習」(RL)的根本概念。要從「人類資料時代」挺入「經驗時代」,人工智慧需要從「吸收人類知識」轉向「自己從做中學」。

打造「人工智慧」,人類知識不及算力重要

加拿大籍的電腦科學家薩頓,是強化學習領域的關鍵先驅人物。他為強化學習開發了數個基礎演算法,並因其貢獻共同獲得2024年的圖靈獎(Turing Award)肯定。目前是DeepMind的Alberta Lab負責人。

簡單地說,強化學習的核心概念在於:透過觀察、行動及獲取回饋,模型逐漸習得最大化正面回饋的策略。也就是透過反覆試錯,從較成功與較不成功的經驗中學習,變得愈來愈擅長做出「更對」的決策。

DeepMind已在此領域累積多年經驗。從早期的Atari遊戲到《星海爭霸2》的「AlphaStar」,結合強化學習與深度神經網路,DeepMind打造出諸多稱霸人類遊戲的AI系統。

其中,最知名的莫過於2016年擊敗韓國圍棋棋士李世乭的「AlphaGo」。4月,曾主導「AlphaGo」計畫的希爾弗,在DeepMind播客中解釋,AlphaGo是以人類棋士的知識為基礎出發,但團隊事後發現,協助AlphaGo起步的人類棋譜知識,其實並非必要。

2016年擊敗韓國圍棋棋士李世乭的「AlphaGo」。達志影像

2016年擊敗韓國圍棋棋士李世乭的「AlphaGo」。達志影像

隨後研發的「AlphaZero」,名字中的「Zero」指的就是幾乎「零」人類資料被預先餵入系統。AlphaZero主要是靠著與自己大量對弈來磨練圍棋棋藝,且光靠如此,就從新手成為世界最強圍棋棋士。團隊發現,即使沒有人類棋士的棋譜協助起步,AlphaZero不僅能追上前輩AlphaGo的表現,甚至學習速度更快、表現也更勝一級。

這呼應薩頓在2019年發表的關鍵論文〈苦澀的教訓〉(The Bitter Lesson);這是當代強化學習研究領域最具影響力的貢獻之一。薩頓在論文中指出,持續提升AI能力的關鍵,不在於巧妙地向機器注入人類知識,而是足夠的算力與可有效利用算力的演算法。

人類研究者想將自己擁有的知識教給機器,協助它們形成智慧,這樣的希冀有其合理之處。例如,引導系統以「思維鏈」(CoT)模仿人類拆解、分析問題的過程,符合人腦的思考習慣,也是人類較能理解的運作,提升了系統的可解釋性。

薩頓回顧,這也是為什麼在「深藍」(Deep Blue)於1997年擊敗西洋棋世界冠軍卡斯帕洛夫(Гарри Каспаров)時,一批AI研究者認為深藍只是以「蠻力」計算得勝,而非以「人類下棋的方式」贏得棋局。

「深藍」(Deep Blue)於1997年擊敗西洋棋世界冠軍卡斯帕洛夫。wikimedia commons

「深藍」(Deep Blue)於1997年擊敗西洋棋世界冠軍卡斯帕洛夫。wikimedia commons

希爾弗表示,「我們真的想要相信,人類至今累積的所有知識是重要的。所以我們將之餵進(AI)系統。」但研究結果顯示,人類知識的效用似乎不及讓AI自己學習,甚至限制了AI的進一步發展。

依賴人類資料的AI模型,只能混合既有知識、複製人類能力,而無法繳出超越人類能力的表現。如AlphaGo在第二場對弈時的第37手,常被認為是「具有創造力的」,提出了不同於人類傳統看待圍棋的一步棋。這在「人類資料時代」中是少見的。

直接把人類已經掌握的知識教給AI系統,只會讓人工智慧更不知道發現這些知識的過程是怎麼發生的。它必須自行探索、學習與創造,才能突破人類知識的極限,發現人類還沒發現的事物。

這個教訓的苦澀之處在於以人類為中心的進路敗下陣來,但未來仍然可能是相當甜蜜的。

倚靠自產經驗,AI模型也能「終生學習」

在新書摘文中,薩頓與希爾弗勾勒了AI代理透過行動與反饋,持續改進自我能力的願景。他們指出,結合經典強化學習概念與人類資料培養的通用性,能打造出優於僅靠精選人類資料訓練出的模型。

這樣的新一代AI模型,不會在預訓練結束後就維持不變。透過調用API等方式,AI可以直接探索及觀察世界。每一次與現實世界的互動,都成為一次新的經驗資料挹注。在源源不絕的經驗流中,AI得以在整個生命歷程中,持續從自己產製的資料中學習、改進,就像人類一樣。

其中一大關鍵在於,AI模型的改善不會只由人類反饋引導。過去,以人類為中心的優化過程,是由人類判斷模型輸出的品質;例如使用者從ChatGPT的兩種回答中選出一個「較喜歡的答案」。這使得人類的判斷力成為模型能力的上限。

當AI模型得以直接從環境中取得反饋信號時,就能做出超越人類知識範圍的判斷。例如,當一個健康照護AI助理不僅能聆聽使用者是否「感覺良好」,也能直接觀察使用者的睡眠品質、心跳速度、體溫變化等資訊時,就能提供更完善的照護服務。

藉此,AI系統可以塑造自己的世界模型,預測行為的結果。如此形成的規劃與推理能力,很可能不是以人類語言為基礎的。 一來,人類語言可能不是最適合機器思考的媒介。二來,擺脫人類語言,也較不易受到人類偏見影響。

作者認為,隨著AI代理興起,從「人類資料」朝向「經驗」的典範轉移已在發生中。從算力到演算法,基本技術也已到位。下一步是逐步拓展現實應用。

AGI邁向最後一哩路,對人類社會是福是禍?

這樣的進路,可由Google DeepMind的產品及策略路線圖中見得;包括風險預測及正在推進的通用AI助理計畫「Project Astra」。部署進入消費產品的多模態處理能力,有助AI取得更多元的現實資料。代理日常任務的經驗,將為獨立執行更複雜任務的能力打下基礎,加速前進自主科學研究的突破。

Google DeepMind執行長哈薩比斯(Demis Hassabis)近日接受《時代》(TIME)專訪,表示DeepMind長期以來的目標「通用人工智慧」(AGI),已邁進最後階段,預計能在5 ~10年間達陣。

Google DeepMind執行長哈薩比斯近日接受《時代》專訪。取自TIME

Google DeepMind執行長哈薩比斯近日接受《時代》專訪。取自TIME

這個時間軸比Anthropic、OpenAI等主要競者的預期稍晚。哈薩比斯解釋,這是因為比起人工智慧創造的經濟產值,DeepMind對AGI的定義更偏重於科學研發的能力。自認為科學家的哈薩比斯打造先進人工智慧的主因,是為了發現更多知識,更好地理解世界。他相信,這有助於解決許多人類正面臨的困難挑戰。

「要不是我知道像AI這樣的變革性技術即將到來,我會對現今社會非常憂慮。」他表示。

然而,在前進AGI的路上,也已經萌生諸多問題。大規模的勞動自動化,被認為是人工智慧公司回收投資成本的關鍵途徑。這對人力市場的衝擊尚不明確。奠基於自身經驗而非人類資料的AI系統,能否「對齊」人類價值觀,也是許多研究者擔憂的風險。

哈薩比斯承認,經濟學家能比他做出更好的預測。但倘若AGI能協助人類掌握核融合技術、開發出更高效能的電池,人類將能活在一個資源更充裕的社會中。

「我所想像的是一個不再是零和博弈的世界。」哈薩比斯表示,「但可能會需要建立一個全新的政治哲學。」

更多精采報導,歡迎加入《遠見》 Line官方帳號!

延伸閱讀:

查看原始文章

更多理財相關文章

01

快訊/川普關稅反噬來了?美股開盤4大指數全跌

三立新聞網
02

電信三雄1/21下午四點進行災防告警測試 若收到警報無須驚慌

太報
03

〈美股早盤〉格陵蘭爭議衝擊市場!股債匯齊挫 道指跌逾600點

anue鉅亨網
04

快訊/南亞科驚爆500億資本支出創天量 官方突發重訊:尚待董事會核定

三立新聞網
05

2025 年全球車主最愛車色排行出爐!鮮豔色市佔提升

自由電子報
06

電信三雄21日下午4時 全台災防告警訊息測試

中央通訊社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...