請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

人工智慧界的「阿光」,AlphaGo 身邊的代言人:黃士傑宣佈功成身退,離開AlphaGo 計畫

T客邦

更新於 2017年12月13日10:33 • 發布於 2017年12月13日09:01 • janus

從當年AlphaGo擊敗歐洲圍棋冠軍樊麾開始,就一直擔任AlphaGo的棋手的黃士傑博士,被人稱為人工智慧界的「阿光」、AlphaGo的最佳伙伴。不過,隨著AlphaGo已經天下無敵,不再與人類對戰之後,黃士傑博士也於昨天宣佈功成身退。

作為AlphaGo的最佳伙伴,黃士傑博士不只是一個人類傀儡而已,同時也是負責打造AlphaGo大腦的團隊核心人物之一。而多年來他與AlphaGo形影不離的畫面,看來已經告一段落了。他在臉書上宣佈,他在AlphaGo的研究已經劃下了句點。未來工作轉移到DeepMind的其它專案上。

 

而隨著黃士傑離開AlphaGo的研究,讓我們回顧一下過去黃士傑與AlphaGo這對一人一機的好伙伴,所創下的輝煌事蹟,以及AlphaGo的進化歷程。

 

黃士傑,一位熱愛圍棋的資工人

黃士傑是土生土長的台灣人,業餘圍棋六段,台灣師範大學資訊工程系碩士、台灣師範大學資訊工程系博士。他在91年的碩士論文為「電腦圍棋打劫的策略」,99年(西元2010年)的博士論文為「應用於電腦圍棋之蒙地卡羅樹搜尋法的新啟發式演算法」。

他在之前AlphaGo首戰擊敗南韓棋王李世乭之後接受採訪時表示:「deepmind應該是在14年底之前、在AlphaGo團隊出現之前就創建了。我本人喜歡下圍棋,棋力是臺灣業餘六段,去年在德國的比賽我甚至贏過一位日本職業棋手。但AlphaGo肯定是比我強太多了。職業水準的圍棋軟體,應該最慢在1-2年之內就會在市面上普及。」

根據他在論文中表示,雖然電腦圍棋的研究開始於1970年,但是圍棋程式從未被人們認為是強大的。一直到2006年,當「蒙地卡羅樹搜尋」與「樹狀結構信賴上界法」出現之後,才帶來了圍棋程式的革命。

蒙地卡羅是一種大數法則的方法,使用隨機取樣,而不用把所有的可能都估算到。但是當取樣的次數越多,其所得出的平均值將趨近於理論值。這個方式應用在圍棋時,會隨機下子直到盤末,由此依據各點模擬的結果,來對於盤面進行優劣的評估,從中選出最好的下子方式。

這個方法多少帶有點運氣,但是當取樣數量越多的時候,誤差會相對變低。2006 年,法國科學家以蒙地卡羅方式發展出的 Crazy Stone 在 第十一屆電腦奧林匹克 9*9 比賽中獲得了冠軍。

而「應用於電腦圍棋之蒙地卡羅樹搜尋法的新啟發式演算法」這篇博士論文的指導教授之一,正是Crazy Stone 的那位法國開發者Rémi Coulom博士。而拿到了博士學位的黃士傑,之後也曾獲2012年臺灣電腦對局學會博士論文獎與2010 年19 路電腦圍棋金牌。

最後,值得一提的是,在這份2010年他才發表的博士論文摘要中,有這樣一段話:

「雖然電腦圍棋的研究開始於1970年,但是圍棋程式從未被人們認為是強大的。一直到2006年,當「蒙地卡羅樹搜尋」與「樹狀結構信賴上界法」出現之後,才帶來了圍棋程式的革命。人們才開始相信,圍棋程式在10年或者20年之後,將能夠擊敗頂尖的人類棋手」

現在,這份論文才發表不過6年的時間,他就親手把自己的預言給打破。

而在2016年3月,他在AlphaGo最終以4:1的佳績戰勝南韓棋王李世乭之後,也回到台灣,在台灣的Google總部舉辦了一次講座,在講座上說明了AlphaGo的人工智慧系統。

 

圍棋歷史悠久且難度高,一度成為人工智慧夢靨

圍棋已有3000年的歷史,匯集了中國源遠流長的文化大成於一身,古稱琴棋書畫的「棋」就是指圍棋,全世界下圍棋的人數總共有4000萬人。圍棋的難度在於它的複雜度很高,雖然規則簡單,但卻有10的170次方可能的盤面,變化總數比全宇宙的原子數還多,若真的要探究第一步最好的棋應該下在哪個位置,需要考慮到的變化基本上就是天文數字,所以圍棋被視為人工智慧的大挑戰。下圍棋需要棋手的直覺和計算能力,所以用電腦下圍棋非常困難,甚至可視為人工智慧的夢靨,自從1997年IBM的深藍打敗世界西洋棋王後,圍棋成為僅存尚無法突破的遊戲,而這次的勝利就是一個很大的突破。

黃士傑曾舉例說明西洋棋棋盤上有80個點,下第一步後還有79個點,而圍棋則有361個點,第二步棋就必須思考360個點,若一盤棋平均有150步,總盤面大概就是10的360次方,即使用電腦去暴力窮舉也可能幾億年都窮舉不完,因此困難處在於電腦找不到最佳解,最後考慮到圍棋除了計算以外的直覺特性,並利用這個特性來解決圍棋的難題。

▲黃士傑博士解析AlphaGo。

AlphaGo的厲害之處在於它與深度學習結合

AlphaGo能夠打敗職業九段的關鍵在於它有兩個主要的網路:策略網路和值網路,舉例來說,360個棋步中,策略網路會找出前20個最好的棋步,剩下的340步就可以不必考慮,而AlphaGo從人類的2、30萬個棋譜當中去學習最好的20個棋步,因此AlphaGo是吸取前人所有的成果,並非排除人類的研究成果。

值網路則是做為判斷盤面之用,在搜索到某個點的時候來判斷優勢方為何。總結來說,策略網路只需要思考20步,因此可以減少搜索的廣度;而值網路透過搜尋前面幾步來得知優勢或劣勢,故大幅減少搜索的深度,這就是AlphaGo成功的祕訣,AlphaGo也會藉由每天與AlphaGo的對弈來做強化式學習,以提升自身能力。

▲黃士傑博士解說策略網路及值網路。

 

 

從AlphaGo到AlphaGo Zero

去的 AlphaGo 展現的是能夠掌握龐大的數據量,並在這個基礎上結合自我學習能力去做深度學習,但這透露出一個缺點是,AlphaGo 有可能在未來,永遠走不出超越人類既有認知的新棋步,然後繼續帶有「模仿人類的圍棋」下法繼續成長,如此 AlphaGo 的棋藝發展依舊侷限於人類的認知範圍裡。

而新的 AlphaGo Zero 展現的就是全新的「自我學習演算法」,因為它從沒看過人類棋譜,因此它單純的是透過與自我的對奕,來提升圍棋能力,它學的只是圍棋規則和關鍵概念,因此它拋棄(或者從來沒有過)一切與「人」有關的圍棋知識,然後透過超深度的自我對奕來達到迅速成長,在 40 天的自我訓練時間內,AlphaGo Zero 日以繼夜的與自己進行了 2900 萬次的對奕。

▲ AlphaGo Zero 自我學習能力驚人,超越前幾代 AlphaGo。

 AlphaGo Zero 不再模仿、參考人類的圍棋玩法,因為不給它任何一張棋譜,因此它就完全沒有被任何思想、下法所框架住。它只能自己跟自己玩,結合全新的自我學習演算法,做到分分鐘成長和突破。

AlphaGo 團隊負責人 Dave Silver 表示:「人們一般認為人工智慧的學習,就是關於大數據和海量計算,但是 DeepMind 通過 AlphaGo Zero 的案例發現,演算法比計算或者數據可用性更重要」。

▲ 論文中的圖表顯示了 AlphaGo Zero 在與自我對奕的期間中,系統並沒有因此出現不穩與錯亂。

換言之,Deepmind 想藉 AlphaGo Zero 展現的亮點在於,AI(人工智慧)的未來將無需任何人類指導,和吸收數據;通過全新的強化學習方式,AI(人工智慧)可以自己教導自己,並且成長快速。DeepMind團隊表示,期待將此技術廣泛應用到其他社會問題上,這將對我們的生活產生重大影響。

▲ AlphaGo 團隊負責人 David Silver

更驚人的是第一代的 AlphaGo 需要用到 176 個 GPU 晶片,而 AlphaGo Zero 只需要使用一台 4 個 TPU 的機器即可完成自我深度學習的任務,也就是說 Zero 使用的硬體資源更少,但在性能、深度學習上,卻擁有了一個質的進步,高出舊版數個等級。

 

 

想看小編精選的3C科技情報&實用評測文,快來加入《T客邦》LINE@

查看原始文章

更多科技相關文章

01

CNBC:OpenAI目標2030年運算支出達6000億美元

路透社
02

微軟遊戲部門人事變動:Phil Spencer 宣布退休,Asha Sharma 接執行長

科技新報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...