不只是下棋！　遊戲 AI 如何解決現實世界的難題？

（圖片來源／Google DeepMind，研之有物授權轉載，下同）

深度強化式學習與遊戲 AI

還記得打敗了人類棋士的 AlphaGo 嗎？為什麼我們要一直教電腦下西洋棋、圍棋，並訓練它們熟悉各式各樣的遊戲？難道是為了追求傳說中的「神之一手」嗎？原來，科學家們努力培養「AI 棋靈王」並不只是為了追求棋藝，更是為了實現更遠大的目標──解決生活中的真實難題。究竟，我們要如何透過遊戲來訓練 AI？這些訓練結果，未來真的能夠運用在現實當中嗎？就讓中央研究院「研之有物」來採訪院內資訊科學研究所的吳廸融助研究員，看看他和團隊平常到底都在跟 AI「玩」什麼花樣。

電腦對上人腦，AI 到底強在哪裡？

2016 年 3 月，電腦圍棋軟體 AlphaGo 與韓國職業九段棋士李世乭展開一系列對弈，五場比賽裡僅僅輸了其中一場，最終以四勝一敗之姿贏下了比賽，不僅宣告著人工智慧終於征服了最艱難的棋類遊戲，也似乎為人類與人工智慧的對決，暫時劃下了一個句點。

不只一般民眾對那次對決印象深刻，當時，吳廸融博士正好在研究室探索圍棋 AI 的相關研究，也為這個突破感到十分振奮。他笑說，自己從小便因動漫《棋靈王》的影響而學習圍棋，直到研究所後，找到一位做棋類 AI 的老師，才得以結合自己興趣，開始研究圍棋 AI。怎知研究到一半，超強的 AlphaGo 就這樣橫空出世，將 AI 帶入了一個全新的紀元。回想當時的感受，吳廸融除了興奮之外，也坦言 Google 所投入的相關計算資源，實在不是一般學校單位可以媲美的。

那麼，為什麼 AlphaGo 能取得如此重大的突破呢？吳廸融博士解釋，其中的關鍵，便在於 AlphaGo 將「深度學習」結合到了原本的圍棋 AI 之中。所謂「深度學習」聽起來雖難，但相關應用在我們的生活中可謂無處不在，在影像類的發展尤為成熟。

比如說，假設今天突然想找一張可愛小狗的照片，我們只需在手機相簿裡搜尋「狗」，手機便能幫我們找出所有含有狗的照片。這簡單的操作背後，其實正是靠著深度學習的幫助，讓電腦判斷單張照片中是狗、是貓、是景色的機率分別是多少，藉由內部的神經網路抓取事物特徵（註1），找出最符合搜尋需求的結果。

而 AlphaGo 在做的事情，便是延伸這樣的概念，只不過是將影像轉換為棋盤類遊戲，我們輸入的資訊不再是貓貓狗狗的照片，而是棋盤的盤面。接著，再讓電腦透過「策略網路」：判斷職業棋手會在該盤面的哪個位置出手；以及「價值網路」：下在該位置的勝率為何，去做出相關決策。

不過，如果只能做到這樣還不夠。吳廸融博士提到，AlphaGo 的第二個特點在於，可以判斷職業棋手下在各個位置的機率，如果機率太低的選擇，就不用特別考慮，如此一來，便不用逐步「窮舉」出所有結果，而能較為深入的分析後續盤面的變化，讓整體判斷更加精準又收斂。

而也是因為 AI 具有這個特性，所以當年 AlphaGo 與李世乭對弈的第四局，李世乭在第 78 手突如其來下出機率較低的選擇，殺得 AI 措手不及，不僅贏得了該次棋局，更被大家稱為「神之一手」。這場敗局，讓 Google 的團隊決心繼續升級，推出了「AlphaGo Zero」的新技術。

AlphaGo 與李世乭對弈的第四局，執白子的李世乭下出關鍵的第 78 手。資料來源｜Google DeepMind

AlphaGo 與李世乭對弈第四局的前 99 手棋局紀錄。圖｜研之有物（資料來源｜Wikipedia）

打敗人類棋手後，AI 還在繼續變強？

「AlphaGo Zero」與「AlphaGo」最大的不同點，在於學習對象的不同。過去，AlphaGo 是在向人類最頂尖的棋士學習，而如今，它本身已經足夠厲害，AlphaGo Zero 便直接跳過了跟人類學習的步驟，而是嘗試自我對弈（Self Play），想像一下：當黑棋是很強的 AlphaGo、白棋也是很強的 AlphaGo，兩邊互相對抗、學習，那訓練出來的 AlphaGo Zero 可就不只是 2 倍的加乘強度，更有可能是 20 倍、100 倍的強度以上。

吳廸融博士補充道，在自我對弈方面，AI 如果從頭自學，反而會比跟人類學還要更精準。Google 的研究團隊曾經想直接用打敗李世乭的 AlphaGo 版本往下進行自我對弈訓練，結果發現，一開始就跟人類下棋的 AI，也容易學習到人類的一些認知誤區，反而是讓 AI 從頭自學時，可以跳脫人類框架，得到更好的解答。

換言之，在棋類 AI 訓練上，人類範本已經沒什麼用武之地了。後來開發出的「Alpha Zero」的邏輯與「AlphaGo Zero」類似，除了圍棋之外，還將學習範圍拓展到了西洋棋和將棋。

AlphaGO 的成功，在於使用了深度學習與強化學習，讓 AI 可以不斷從回饋獎勵中學習。並且在策略上採用更有效率的蒙地卡羅樹搜索法，改善 AI 的判斷能力。圖｜研之有物（資料來源｜吳廸融）

但這還不是終點。DeepMind 後來更開發出了「MuZero」，可以在不給遊戲規則情況下，讓 AI 自己學會圍棋、西洋棋、將棋，還有多款 Atari 主機遊戲的規則。吳廸融博士強調，從 MuZero 就可以看到發展遊戲 AI 的優勢，因為它的訓練不需要跟環境互動，而是另外訓練了一個深度學習的神經網路，用來模擬現實環境，因此，在應用於解決實際問題時，也可以減少許多不必要的耗損。像是我們想要訓練無人機時，與其打造多架無人機去測試、碰撞，倒不如將整個駕駛過程變成演算法，在模擬器中學習、互動與精進。

MuZero 的訓練，已經不需要跟真實環境互動，而是另外訓練了一個深度學習的神經網路，用來模擬現實環境。因此，在應用於解決實際問題時，也可以減少許多不必要的耗損。圖｜Google DeepMind

追求神之一手？棋類 AI 真正想解決的是現實問題

感受到了嗎？同樣是訓練，實體訓練時我們可能會受限於時間、空間、天氣等等環境因素，但這些在遊戲世界中都能被一一解決，甚至可以達到接近無損耗的「0 成本」境界。而這項優勢，也正是吳廸融與團隊之所以持續鑽研圍棋 AI 的原因。吳廸融解釋，他們研究 AI 演算法平台「CGI 圍棋智慧」，並非是想要將圍棋 AI 做到最強，也不是為了追求傳說中的「神之一手」。

我們是希望，可以藉由圍棋 AI 這個遊戲環境來探索 AI 的各種可能性。

其實，目前在做遊戲或棋類 AI 的團隊都有著相似的目標，並不完全是為了將遊戲本身玩到頂尖，而是希望可以開發出通用的演算法，可以應用到其他地方，為人類解釋現實中的問題。事實上，有些應用早已出現在我們的生活當中。吳廸融舉例，我們平常愛看的 YouTube，在影片壓縮時就有採用 MuZero 的技術。透過 MuZero 的計算和判斷，不僅可以降低 YouTube 的營運成本，也有機會大幅節省網路流量。

全面升級吧！不斷精進的「CGI 圍棋智慧」

想要解決人類真實的問題，那麼，就得打破一些圍棋 AI 本身的限制。比如說，其中一大限制就在於，會自帶一套「貼目邏輯」，以 AlphaGo 來說，就是固定貼 7.5 目。

這是什麼意思呢？圍棋的規則為黑棋先下，而先下者會有優勢，所以在最後計算時，黑棋就得「貼目」：扣掉一些目數或子數，以求公平。只是，貼目的規則隨著不同國家也有所不同，中國通常會貼 7.5 目，而日韓多貼 6.5 目。但如果一開始就設定好 AI 的貼目規則，那後期想要改變就會非常困難。

為了解決這項難題，吳廸融與研究團隊為「CGI 圍棋智慧」開發出「多標籤價值網路」，可以將各種貼目情形「例如貼 -12.5、1.5、……、27.5」下的勝率通通算出來，這樣的「多任務學習」，除了打破了既有限制，更能協助提升 AI 本身的棋力，如今，多標籤價值網路已經成為圍棋 AI 的常用設定。

吳廸融團隊持續探索遊戲與圍棋AI，希望找到更多人工智慧的可能性。圖｜研之有物

圍棋 AI 自我訓練的另一項限制，在於很容易陷入自身的盲點，想不出更好的下法。那該怎麼解決呢？團隊提出了「超參數自動優化方法」，同時用不同的超參數訓練多個 AlphaGo AI、增加亂度，再隨機挑出幾個互博，留下最強的，再進行下一輪對抗。咦？增加多樣性來提升存活機會，聽起來是不是有點像「物競天擇、適者生存」的味道呢？

圍棋 AI 的另一個挑戰處在於本身的規則較為複雜，重點在於「圍地」，而不只是要在盤面上擁有更多棋子，因此很難在中間輕易確認輸贏。那該如何做呢？可以運用數學統計上的「蒙地卡羅方法」（Monte Carlo method）來解答，先把需要統計的目標劃出來，然後讓電腦隨機且大量地射出飛鏢，最後透過真正中靶的部分，去估算相關數值。

而在「CGI 圍棋智慧」上，研究團隊進一步使用「蒙地卡羅樹搜尋」演算法（Monte Carlo tree search），可以得出來各種盤面的勝率，並藉此去設定不同強度的圍棋 AI。比起「百戰百勝」的超強存在，能夠隨棋士程度調整、可以和棋士互有勝負的圍棋 AI 反而能成為絕佳的圍棋助教。更有趣的是，我們也可以反過來，透過讓棋士跟 AI 對弈，來推測棋士本身的棋力（Elo rating）。

如何讓圍棋 AI 成為適合練習的對手？調整難度的功能非常重要。吳廸融團隊成功發展出四個 CGI 版本，可以讓不同棋力的選手練習。圖｜研之有物（資料來源｜吳廸融）

好還要更好！努力尋找最佳解！

打破了這種種限制，追求之路卻仍未結束。以 AlphaGo 來說，思考策略時主要偏向啟發法（Heuristic）而非精準解答，雖然在對弈時多有勝算，但如果在現實生活中，我們可不希望 AI 會忽然出現錯誤，假如我們在製造晶片時，萬一放錯位置，可能就是千萬以上的損失，正因如此，找出完美解就變得非常重要。

現在，吳廸融與團隊便在尋找「7×7」棋盤範圍內的完美解答（Solving a game），困難度更甚於精通遊戲（Mastering a game）。目前，團隊已經開發出新型在線學習方法，可以挑出 AlphaGo 較為弱勢的部分，直接進行「動態增強」，大幅減少訓練時間，而這些被挑出來的誤區，也可以讓我們更理解 AI，在可解釋性上面獲得新的突破。

至於這個超強系統能在何時真正協助 AI 在各種優秀解答中找出最佳解？還有待團隊繼續鑽研。

內容強大還不夠！能夠解釋更重要

除了以「超參數自動優化方法」來改進 AI 演算法、以在線學習來增加 AI 的可解釋性，吳廸融分享到，團隊的另一大重點在於，將 AI 作為助人學習的工具。怎麼讓 AI 幫助學習呢？可以透過程度控制來輔助人類，也可以串聯 ChatGPT 等語言模型，來解釋、幫助人類理解 AI 下棋策略背後的邏輯。

未來，AI 的應用範圍可能非常廣泛，但如果只是知其然而不知其所以然，容易造成隱患，比如像是軍事國防上，如果一味信任 AI 的防守策略，卻不去理解策略背後的原因，可能就不會發現 AI 的盲點，因而造成後續的損失。吳廸融認為，AI 發展至今已經十分強大，而在下一個階段，真正理解 AI、讀懂機器邏輯將是關鍵，也因此，AI 的「可解釋性」相關研究十分重要。

怎麼從 AI 的腦袋變出我們人類聽得懂的話，這其實是個非常非常大的挑戰。

接下來，吳廸融期待團隊能在演算法上持續精進，也希望研究成果可以用於更多現實場景，比如工業排程、道路規劃等等。最後，也期待能透過與棋士的合作及其他方法，將 AI 擁有的知識透過人類能懂的方式，解釋出來。

問

您進行研究之後，會跟 AI 下棋嗎？棋力有大幅進步嗎？

答

一開始的時候會下，但後來下不贏就不下了（笑）。

問

研究團隊成員都需要會下棋？

答

早期研究棋類 AI 通常需要有相關知識，才可以判斷結果並理解研究，但現在的 AI 通用性愈來愈高，所以不一定要會圍棋也可以做。只是對於做研究的學生來說，通常還是會喜歡看得懂的東西，如果完全沒有接觸過，他可能看不懂 AI 在進步的感覺，就沒有辦法體會到那個感動的部分。

問

遊戲 AI（例如 MuZero）出來之後，原本的棋類 AI（例如 Alpha Zero）會被完全取代嗎？

答

首先，AlphaZero 與 MuZero 出來後，的確許多傳統的棋類 AI 方法都漸漸被取代，畢竟 AlphaZero 與 MuZero 可以自動探索出超越人類知識的學習方法，實在太方便了！

然而，MuZero 並不會完全取代 AlphaZero，因為 MuZero 需要依賴 AI 自行學會環境規則，所以在一些複雜的環境下，會需要比 AlphaZero 花費更多的學習時間。

問

目前有研究說，如果大型語言模型或圖片生成 AI 只靠自我學習會崩潰。為什麼圍棋 AI 不會有這種情況呢？

答

圍棋因為有絕對的勝負，只要把一盤棋完整下完，根據規則一定可以得到一方獲勝以及一方失敗，所以 AI 可以不斷利用自我對弈來學習比較好的走法。

但對於大型語言模型或是圖片生成的 AI，這類的東西並沒有一個絕對的標準，像是一篇文章或圖片的好壞很難清楚定義出來，不同的人可能也會有不同的觀點或想法。

因此我們很難用類似圍棋的方式去制定出一個標準（如圍棋的勝負），這也造成了在大型語言模型條件下，如果要讓 AI 不斷的自我學習，它會比較難有一個明確的目標去學習，最終可能會學習出我們無法預期的結果。

註1：神經網路是模仿大腦神經連結的複雜數學函數，為深度學習演算法的運作核心。

延伸閱讀
吳廸融個人頁面
Wu, T.-R., Guei, H., Wei, T.-H., Shih, C.-C., Chin, J.-T., & Wu, I.-C (2023). Game Solving with Online Fine-Tuning. The Thirty-seventh Conference on Neural Information Processing Systems (NeurIPS).
Liu, A.-J., Wu, T.-R., Wu, I.-C., Guei, H., & Wei, T.-H. (2020). Strength Adjustment and Assessment for MCTS-Based Programs [Research Frontier].IEEE Computational Intelligence Magazine, 15(3), 60-73.
Schrittwieser, J., Antonoglou, I., Hubert, T., Simonyan, K., Sifre, L., Schmitt, S., . . . Silver, D. (2020). Mastering Atari, Go, chess and shogi by planning with a learned model. Nature, 588(7839), 604-609.
Wu, T.-R., Wu, I.-C., Chen, G.-W., Wei, T.-H., Wu, H.-C., Lai, T.-Y., & Lan, L.-C. (2018). Multilabeled Value Networks for Computer Go. IEEE Transactions on Games, 10(4), 378-389.
Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., . . . Hassabis, D. (2018). A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 362(6419), 1140-1144.
Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., . . . Hassabis, D. (2017). Mastering the game of Go without human knowledge. Nature, 550(7676), 354-359.
Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., van den Driessche, G., . . . Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
傅莞淇（2024）。〈被 Al 擊敗後來怎麼了？前棋王李世乭沉澱 8 年吐真實心聲〉，《遠見》。
陳建鈞（2020）。〈從電玩到圍棋，不懂規則也都能精通！DeepMind 公佈最新 AI 技術〉，《數位時代》。

本文轉載自《研之有物》。原文請<點此>

請更新您的瀏覽器

生活

信傳媒

延伸閱讀

生活圖解懶人包

圖解健康
蚊子最愛這4味集越多越容易被叮

圖解生活
穿上班/穿運動/也要懂照顧運動鞋清潔指南

圖解生活
雨天輕鬆晾乾衣物掌握2關鍵

圖解報稅
房租18萬元可提列扣稅逾期繳稅最重罰3倍

更多生活相關文章

大冠鷲育雛直播再傳憾事！幼鳥今突暴斃 2親鳥不捨舉動惹網爆淚

全台溼答答　下波開啟「連10天降雨模式」

曬護照來台旅遊！日本網紅被示警「台灣晚上很危險」　神反轉網全笑翻

激戰正妹女友「無感出不來」他崩潰：不如自己來

ROXY傳撤出台灣！全台門市出清下殺3折　官網已終止服務

冷氣「1致命裝法」電費狂飆還不涼！台電認證：會後悔

請更新您的瀏覽器啟用Javascript

不只是下棋！ 遊戲 AI 如何解決現實世界的難題？

信傳媒

延伸閱讀

生活圖解懶人包

圖解生活穿上班/穿運動/也要懂照顧 運動鞋清潔指南

圖解生活雨天輕鬆晾乾衣物 掌握2關鍵

圖解報稅房租18萬元可提列扣稅 逾期繳稅最重罰3倍