請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

不只是下棋! 遊戲 AI 如何解決現實世界的難題?

信傳媒

更新於 2025年01月24日05:26 • 發布於 2025年02月02日03:01 • 研之有物
(圖片來源/Google DeepMind,研之有物授權轉載,下同)

深度強化式學習與遊戲 AI

還記得打敗了人類棋士的 AlphaGo 嗎?為什麼我們要一直教電腦下西洋棋、圍棋,並訓練它們熟悉各式各樣的遊戲?難道是為了追求傳說中的「神之一手」嗎?原來,科學家們努力培養「AI 棋靈王」並不只是為了追求棋藝,更是為了實現更遠大的目標──解決生活中的真實難題。究竟,我們要如何透過遊戲來訓練 AI?這些訓練結果,未來真的能夠運用在現實當中嗎?就讓中央研究院「研之有物」來採訪院內資訊科學研究所的吳廸融助研究員,看看他和團隊平常到底都在跟 AI「玩」什麼花樣。

電腦對上人腦,AI 到底強在哪裡?

2016 年 3 月,電腦圍棋軟體 AlphaGo 與韓國職業九段棋士李世乭展開一系列對弈,五場比賽裡僅僅輸了其中一場,最終以四勝一敗之姿贏下了比賽,不僅宣告著人工智慧終於征服了最艱難的棋類遊戲,也似乎為人類與人工智慧的對決,暫時劃下了一個句點。

不只一般民眾對那次對決印象深刻,當時,吳廸融博士正好在研究室探索圍棋 AI 的相關研究,也為這個突破感到十分振奮。他笑說,自己從小便因動漫《棋靈王》的影響而學習圍棋,直到研究所後,找到一位做棋類 AI 的老師,才得以結合自己興趣,開始研究圍棋 AI。怎知研究到一半,超強的 AlphaGo 就這樣橫空出世,將 AI 帶入了一個全新的紀元。回想當時的感受,吳廸融除了興奮之外,也坦言 Google 所投入的相關計算資源,實在不是一般學校單位可以媲美的。

那麼,為什麼 AlphaGo 能取得如此重大的突破呢?吳廸融博士解釋,其中的關鍵,便在於 AlphaGo 將「深度學習」結合到了原本的圍棋 AI 之中。所謂「深度學習」聽起來雖難,但相關應用在我們的生活中可謂無處不在,在影像類的發展尤為成熟。

比如說,假設今天突然想找一張可愛小狗的照片,我們只需在手機相簿裡搜尋「狗」,手機便能幫我們找出所有含有狗的照片。這簡單的操作背後,其實正是靠著深度學習的幫助,讓電腦判斷單張照片中是狗、是貓、是景色的機率分別是多少,藉由內部的神經網路抓取事物特徵(註1),找出最符合搜尋需求的結果。

而 AlphaGo 在做的事情,便是延伸這樣的概念,只不過是將影像轉換為棋盤類遊戲,我們輸入的資訊不再是貓貓狗狗的照片,而是棋盤的盤面。接著,再讓電腦透過「策略網路」:判斷職業棋手會在該盤面的哪個位置出手;以及「價值網路」:下在該位置的勝率為何,去做出相關決策。

不過,如果只能做到這樣還不夠。吳廸融博士提到,AlphaGo 的第二個特點在於,可以判斷職業棋手下在各個位置的機率,如果機率太低的選擇,就不用特別考慮,如此一來,便不用逐步「窮舉」出所有結果,而能較為深入的分析後續盤面的變化,讓整體判斷更加精準又收斂。

而也是因為 AI 具有這個特性,所以當年 AlphaGo 與李世乭對弈的第四局,李世乭在第 78 手突如其來下出機率較低的選擇,殺得 AI 措手不及,不僅贏得了該次棋局,更被大家稱為「神之一手」。這場敗局,讓 Google 的團隊決心繼續升級,推出了「AlphaGo Zero」的新技術。

AlphaGo 與李世乭對弈的第四局,執白子的李世乭下出關鍵的第 78 手。 資料來源|Google DeepMind
AlphaGo 與李世乭對弈第四局的前 99 手棋局紀錄。 圖|研之有物(資料來源|Wikipedia)

打敗人類棋手後,AI 還在繼續變強?

「AlphaGo Zero」與「AlphaGo」最大的不同點,在於學習對象的不同。過去,AlphaGo 是在向人類最頂尖的棋士學習,而如今,它本身已經足夠厲害,AlphaGo Zero 便直接跳過了跟人類學習的步驟,而是嘗試自我對弈(Self Play),想像一下:當黑棋是很強的 AlphaGo、白棋也是很強的 AlphaGo,兩邊互相對抗、學習,那訓練出來的 AlphaGo Zero 可就不只是 2 倍的加乘強度,更有可能是 20 倍、100 倍 的強度以上。

吳廸融博士補充道,在自我對弈方面,AI 如果從頭自學,反而會比跟人類學還要更精準。Google 的研究團隊曾經想直接用打敗李世乭的 AlphaGo 版本往下進行自我對弈訓練,結果發現,一開始就跟人類下棋的 AI,也容易學習到人類的一些認知誤區,反而是讓 AI 從頭自學時,可以跳脫人類框架,得到更好的解答。

換言之,在棋類 AI 訓練上,人類範本已經沒什麼用武之地了。後來開發出的「Alpha Zero」的邏輯與「AlphaGo Zero」類似,除了圍棋之外,還將學習範圍拓展到了西洋棋和將棋。

AlphaGO 的成功,在於使用了深度學習與強化學習,讓 AI 可以不斷從回饋獎勵中學習。並且在策略上採用更有效率的蒙地卡羅樹搜索法,改善 AI 的判斷能力。 圖|研之有物(資料來源|吳廸融)

但這還不是終點。DeepMind 後來更開發出了「MuZero」,可以在不給遊戲規則情況下,讓 AI 自己學會圍棋、西洋棋、將棋,還有多款 Atari 主機遊戲的規則。吳廸融博士強調,從 MuZero 就可以看到發展遊戲 AI 的優勢,因為它的訓練不需要跟環境互動,而是另外訓練了一個深度學習的神經網路,用來模擬現實環境,因此,在應用於解決實際問題時,也可以減少許多不必要的耗損。像是我們想要訓練無人機時,與其打造多架無人機去測試、碰撞,倒不如將整個駕駛過程變成演算法,在模擬器中學習、互動與精進。

MuZero 的訓練,已經不需要跟真實環境互動,而是另外訓練了一個深度學習的神經網路,用來模擬現實環境。因此,在應用於解決實際問題時,也可以減少許多不必要的耗損。 圖|Google DeepMind

追求神之一手?棋類 AI 真正想解決的是現實問題

感受到了嗎?同樣是訓練,實體訓練時我們可能會受限於時間、空間、天氣等等環境因素,但這些在遊戲世界中都能被一一解決,甚至可以達到接近無損耗的「0 成本」境界。而這項優勢,也正是吳廸融與團隊之所以持續鑽研圍棋 AI 的原因。吳廸融解釋,他們研究 AI 演算法平台「CGI 圍棋智慧」,並非是想要將圍棋 AI 做到最強,也不是為了追求傳說中的「神之一手」。

我們是希望,可以藉由圍棋 AI 這個遊戲環境來探索 AI 的各種可能性。

其實,目前在做遊戲或棋類 AI 的團隊都有著相似的目標,並不完全是為了將遊戲本身玩到頂尖,而是希望可以開發出通用的演算法,可以應用到其他地方,為人類解釋現實中的問題。事實上,有些應用早已出現在我們的生活當中。吳廸融舉例,我們平常愛看的 YouTube,在影片壓縮時就有採用 MuZero 的技術。透過 MuZero 的計算和判斷,不僅可以降低 YouTube 的營運成本,也有機會大幅節省網路流量。

全面升級吧!不斷精進的「CGI 圍棋智慧」

想要解決人類真實的問題,那麼,就得打破一些圍棋 AI 本身的限制。比如說,其中一大限制就在於,會自帶一套「貼目邏輯」,以 AlphaGo 來說,就是固定貼 7.5 目。

這是什麼意思呢?圍棋的規則為黑棋先下,而先下者會有優勢,所以在最後計算時,黑棋就得「貼目」:扣掉一些目數或子數,以求公平。只是,貼目的規則隨著不同國家也有所不同,中國通常會貼 7.5 目,而日韓多貼 6.5 目。但如果一開始就設定好 AI 的貼目規則,那後期想要改變就會非常困難。

為了解決這項難題,吳廸融與研究團隊為「CGI 圍棋智慧」開發出「多標籤價值網路」,可以將各種貼目情形「例如貼 -12.5、1.5、……、27.5」下的勝率通通算出來,這樣的「多任務學習」,除了打破了既有限制,更能協助提升 AI 本身的棋力,如今,多標籤價值網路已經成為圍棋 AI 的常用設定。

吳廸融團隊持續探索遊戲與圍棋AI,希望找到更多人工智慧的可能性。 圖|研之有物

圍棋 AI 自我訓練的另一項限制,在於很容易陷入自身的盲點,想不出更好的下法。那該怎麼解決呢?團隊提出了「超參數自動優化方法」,同時用不同的超參數訓練多個 AlphaGo AI、增加亂度,再隨機挑出幾個互博,留下最強的,再進行下一輪對抗。咦?增加多樣性來提升存活機會,聽起來是不是有點像「物競天擇、適者生存」的味道呢?

圍棋 AI 的另一個挑戰處在於本身的規則較為複雜,重點在於「圍地」,而不只是要在盤面上擁有更多棋子,因此很難在中間輕易確認輸贏。那該如何做呢?可以運用數學統計上的「蒙地卡羅方法」(Monte Carlo method)來解答,先把需要統計的目標劃出來,然後讓電腦隨機且大量地射出飛鏢,最後透過真正中靶的部分,去估算相關數值。

而在「CGI 圍棋智慧」上,研究團隊進一步使用「蒙地卡羅樹搜尋」演算法(Monte Carlo tree search),可以得出來各種盤面的勝率,並藉此去設定不同強度的圍棋 AI。比起「百戰百勝」的超強存在,能夠隨棋士程度調整、可以和棋士互有勝負的圍棋 AI 反而能成為絕佳的圍棋助教。更有趣的是,我們也可以反過來,透過讓棋士跟 AI 對弈,來推測棋士本身的棋力(Elo rating)。

如何讓圍棋 AI 成為適合練習的對手?調整難度的功能非常重要。吳廸融團隊成功發展出四個 CGI 版本,可以讓不同棋力的選手練習。 圖|研之有物(資料來源|吳廸融)

好還要更好!努力尋找最佳解!

打破了這種種限制,追求之路卻仍未結束。以 AlphaGo 來說,思考策略時主要偏向啟發法(Heuristic)而非精準解答,雖然在對弈時多有勝算,但如果在現實生活中,我們可不希望 AI 會忽然出現錯誤,假如我們在製造晶片時,萬一放錯位置,可能就是千萬以上的損失,正因如此,找出完美解就變得非常重要。

現在,吳廸融與團隊便在尋找「7×7」棋盤範圍內的完美解答(Solving a game),困難度更甚於精通遊戲(Mastering a game)。目前,團隊已經開發出新型在線學習方法,可以挑出 AlphaGo 較為弱勢的部分,直接進行「動態增強」,大幅減少訓練時間,而這些被挑出來的誤區,也可以讓我們更理解 AI,在可解釋性上面獲得新的突破。

至於這個超強系統能在何時真正協助 AI 在各種優秀解答中找出最佳解?還有待團隊繼續鑽研。

內容強大還不夠!能夠解釋更重要

除了以「超參數自動優化方法」來改進 AI 演算法、以在線學習來增加 AI 的可解釋性,吳廸融分享到,團隊的另一大重點在於,將 AI 作為助人學習的工具。怎麼讓 AI 幫助學習呢?可以透過程度控制來輔助人類,也可以串聯 ChatGPT 等語言模型,來解釋、幫助人類理解 AI 下棋策略背後的邏輯。

未來,AI 的應用範圍可能非常廣泛,但如果只是知其然而不知其所以然,容易造成隱患,比如像是軍事國防上,如果一味信任 AI 的防守策略,卻不去理解策略背後的原因,可能就不會發現 AI 的盲點,因而造成後續的損失。吳廸融認為,AI 發展至今已經十分強大,而在下一個階段,真正理解 AI、讀懂機器邏輯將是關鍵,也因此,AI 的「可解釋性」相關研究十分重要。

怎麼從 AI 的腦袋變出我們人類聽得懂的話,這其實是個非常非常大的挑戰。

接下來,吳廸融期待團隊能在演算法上持續精進,也希望研究成果可以用於更多現實場景,比如工業排程、道路規劃等等。最後,也期待能透過與棋士的合作及其他方法,將 AI 擁有的知識透過人類能懂的方式,解釋出來。

您進行研究之後,會跟 AI 下棋嗎?棋力有大幅進步嗎?

一開始的時候會下,但後來下不贏就不下了(笑)。

研究團隊成員都需要會下棋?

早期研究棋類 AI 通常需要有相關知識,才可以判斷結果並理解研究,但現在的 AI 通用性愈來愈高,所以不一定要會圍棋也可以做。只是對於做研究的學生來說,通常還是會喜歡看得懂的東西,如果完全沒有接觸過,他可能看不懂 AI 在進步的感覺,就沒有辦法體會到那個感動的部分。

遊戲 AI(例如 MuZero)出來之後,原本的棋類 AI(例如 Alpha Zero)會被完全取代嗎?

首先,AlphaZero 與 MuZero 出來後,的確許多傳統的棋類 AI 方法都漸漸被取代,畢竟 AlphaZero 與 MuZero 可以自動探索出超越人類知識的學習方法,實在太方便了!

然而,MuZero 並不會完全取代 AlphaZero,因為 MuZero 需要依賴 AI 自行學會環境規則,所以在一些複雜的環境下,會需要比 AlphaZero 花費更多的學習時間。

目前有研究說,如果大型語言模型或圖片生成 AI 只靠自我學習會崩潰。為什麼圍棋 AI 不會有這種情況呢?

圍棋因為有絕對的勝負,只要把一盤棋完整下完,根據規則一定可以得到一方獲勝以及一方失敗,所以 AI 可以不斷利用自我對弈來學習比較好的走法。

但對於大型語言模型或是圖片生成的 AI,這類的東西並沒有一個絕對的標準,像是一篇文章或圖片的好壞很難清楚定義出來,不同的人可能也會有不同的觀點或想法。

因此我們很難用類似圍棋的方式去制定出一個標準(如圍棋的勝負),這也造成了在大型語言模型條件下,如果要讓 AI 不斷的自我學習,它會比較難有一個明確的目標去學習,最終可能會學習出我們無法預期的結果。

註1:神經網路是模仿大腦神經連結的複雜數學函數,為深度學習演算法的運作核心。

延伸閱讀

吳廸融個人頁面

Wu, T.-R., Guei, H., Wei, T.-H., Shih, C.-C., Chin, J.-T., & Wu, I.-C (2023). Game Solving with Online Fine-Tuning. The Thirty-seventh Conference on Neural Information Processing Systems (NeurIPS).

Liu, A.-J., Wu, T.-R., Wu, I.-C., Guei, H., & Wei, T.-H. (2020). Strength Adjustment and Assessment for MCTS-Based Programs [Research Frontier].IEEE Computational Intelligence Magazine, 15(3), 60-73.

Schrittwieser, J., Antonoglou, I., Hubert, T., Simonyan, K., Sifre, L., Schmitt, S., . . . Silver, D. (2020). Mastering Atari, Go, chess and shogi by planning with a learned model. Nature, 588(7839), 604-609.

Wu, T.-R., Wu, I.-C., Chen, G.-W., Wei, T.-H., Wu, H.-C., Lai, T.-Y., & Lan, L.-C. (2018). Multilabeled Value Networks for Computer Go. IEEE Transactions on Games, 10(4), 378-389.

Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., . . . Hassabis, D. (2018). A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 362(6419), 1140-1144.

Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., . . . Hassabis, D. (2017). Mastering the game of Go without human knowledge. Nature, 550(7676), 354-359.

Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., van den Driessche, G., . . . Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.

傅莞淇(2024)。〈被 Al 擊敗後來怎麼了?前棋王李世乭沉澱 8 年吐真實心聲〉,《遠見》。

陳建鈞(2020)。〈從電玩到圍棋,不懂規則也都能精通!DeepMind 公佈最新 AI 技術〉,《數位時代》。

本文轉載自《研之有物》。原文請<點此>

延伸閱讀

查看原始文章

生活話題:新制懶人包

多項攸關民生經濟、勞工權益...等新制上路

生活圖解懶人包

圖解風扇
常見四電扇大PK DC馬達/AC馬達 省多少?

LINE TODAY

圖解旅遊
旅日購物退稅優化 免稅密封袋將成歷史

LINE TODAY

圖解小知識
2分鐘裝好棉被套 四字訣 翻/捲/翻/整

LINE TODAY

圖解卡牌
卡牌收藏產值近4千億元 皮卡丘1張賣1.6億元

LINE TODAY
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...