天下雜誌/贏的思考 AlphaGo掀起大腦風暴


南韓圍棋九段棋手李世乭,曾經連輸三場給Google所設計的AlphaGo程式,掀起全球的一陣討論。

文章提供/天下雜誌 撰文者/賀桂芬

33

Alpha(α)是第一個希臘字母,天文學中,Alpha是星座裡最亮的那顆星;動物學中,Alpha是領頭的那匹狼;現在,戰勝人類的AlphaGo,又帶來了顛覆一切、風頭浪尖的全新思考法。人工智慧全面來襲,顛覆職場、企業、產業、經濟與未來。AlphaGo贏的祕密是什麼?給了我們人類什麼啟示?

這場比賽,讓人震撼,又帶一點點哀傷。圍棋是最複雜的遊戲,人類卻敗給了機器。

「當年超級電腦『深藍』贏了,舉世歡騰,覺得是人類的一大進步。但這次人工智慧系統AlphaGo贏,大家的心情都很矛盾,都在想那我們怎麼辦?」趨勢科技共同創辦人,現任趨勢文化長的陳怡蓁,點出世人的五味雜陳。

44

三月九日,首爾四季飯店。

AlphaGo和韓國棋王李世乭展開七天驚濤駭浪的對弈,吸引上億眼球。大陸央視甚至中斷兩會直播,臨時插播比賽。懂圍棋的、不懂的,都在關注這場比賽,它變成那幾天地表上唯一的大事。

「十年後回看,沒有人會否認,這七天,改變了世界,」趨勢科技董事長張明正說。

賽前,看好棋王的人居多,包括人工智慧專家,創新工場董事長李開復在內。

首戰至中盤,多數觀戰棋士都判斷李世乭獲勝大勢底定,有些人甚至放心慢跑去了。沒想到最後眼鏡碎滿地,AlphaGo贏了。

「它似乎有能力下出對全局而言是好棋,但局部看起來很爛的招,」也下圍棋,專攻人工智慧的台大電機系副教授于天立指出,「我們學棋的時候如果這樣下,會被老師打手。」

「我看不出李世乭一開始哪裡沒走好,但他老是中盤後莫名其妙落後,」大陸職業五段棋士劉耀文說,他連開車都在想,李世乭到底是怎麼輸的?「人類太有自信了,以為掌握了圍棋的全貌,其實扼殺了創新。」

「再給AlphaGo六到十二個月,人類就很難擊敗它了,」李開復說,因為它不停地自我進化。

IBM開發的超級電腦「深藍」(Deep Blue)在西洋棋上贏人類是二十年前,當時科學界都認為,沒有個三十年,機器在圍棋上贏不了人類。「因為圍棋難太多了。我算算要贏也是五年、十年以後的事,」李開復說。

去年十月,AlphaGo雖贏了歐洲棋王職業二段棋士樊麾,但李世乭自己在賽前也說,「樊麾的實力和我差兩子,AlphaGo和我,我的勝算更高吧。」

短短五個月,AlphaGo到底發生了什麼事,讓它從高手變武林盟主?

為什麼選圍棋?圍棋被認為是與機器的對抗中,人類最後的堡壘。「它的排列組合有十的一七○次方,而西洋棋只有十的五十次方,」于天立說。

AlphaGo到底厲害在哪裡?

碩、博士都在師大念的黃士傑,是AlphaGo挑戰圍棋的關鍵人物,也是在與李世乭對弈時,替AlphaGo執棋的人。

黃士傑的碩博士論文指導教授,師大資工所教授林順喜指出,黃士傑六年前進入人工智慧公司DeepMind時,對方告訴他,「我們不做圍棋。」AlphaGo後來改下圍棋,據信與黃士傑是業餘棋士有關。

贏的思考第1招:深度學習——天下棋士為我師

AlphaGo贏了李世乭之後,黃士傑來台分享時指出,兩個大腦和深度學習(見一○一頁:什麼是「深度學習」?),是AlphaGo贏的祕密。

于天立指出,早期的人工智慧,實際上是「人工指導智慧」,也就是由人來指導電腦什麼是對錯,甚至是由人來命令電腦怎麼做。當初的「深藍」便是如此。

但AlphaGo則是只由人「餵」給它大量的數據,放它自主學習,像人腦的神經元一樣相互聯繫產生訊號,最終理解複雜的圍棋。

「AlphaGo厲害的地方,在於它用了兩套大腦,結合蒙地卡羅樹狀搜尋法(Monte Carlo Tree Search),」于天立指出,這些技術都不新,「厲害在這三者的組合。」

簡單講,當年「深藍」打敗西洋棋棋王,靠的是每走一步,就把接下來所有的可能性都算過一遍,這項技術叫作「窮舉法」或「暴力搜尋法」。

但是圍棋的可能性比西洋棋多了一的後面有一百二十個零那麼多,資料量、計算量大到無法想像不說,運算起來耗時耗電,根本行不通。「每一層只選二十個好步,Google就已經用了一千台電腦、兩千個圖形處理器(GPU),」林順喜指出。

如果下圍棋的可能性是一棵樹,AlphaGo就必須有能力「剪枝」,判斷資源該集中在哪些最後獲勝機率高的步數。

黃士傑團隊想出的辦法,是用兩個大腦:第一套大腦名叫「策略網路」(policy network),第二套大腦叫「價值網路」(value network)。

「第一套大腦只管根據經驗值,挑出下一步可用的二十個好步。第二套大腦負責算出這二十步每一步的下三層,哪一方會佔優勢,然後再告訴第一套大腦,選擇獲勝機率最高的那一步去走,」林順喜解釋。

但這些判斷都只是AlphaGo根據被「餵」的幾千萬步中學到的經驗,它只能模仿,無法創新。

贏的思考第2招:隨機亂下——打破常規求創新

為了要突破人類經驗的限制,找出新的可能性,這時蒙地卡羅樹狀搜尋法登場了。

「蒙地卡羅法就是隨機亂下,」于天立指出,「靠讀萬卷書無法創新,蒙地卡羅的目的,就是為了要讓它創新。」

也是金庸迷的于天立說,蒙地卡羅法就像金庸小說裡武功不怎麼樣的虛竹,在《天龍八部》裡亂下棋子,無意中破解「珍瓏」棋局。

黃士傑也說,AlphaGo不時使「怪招」,某些步數剛開始看起來笨拙又失誤連連,但最終證明那些爛招都是致勝關鍵。

「隨機亂下一萬盤,你下一步我下一步,一直亂下,下到最後算分數,一萬盤的平均得分,就是它的勝率,」林順喜解釋,「就像我跟你打麻將,你亂打我也亂打,亂打一萬盤,發現打哪一張牌我贏的多輸的少,我以後就會多打這一張。」

韓國棋院秘書長梁宰豪形容,AlphaGo就像「山中自學成才的高手」,看起來招式凌亂難看,但卻是處處打破常規,讓學棋者的視野大為開闊。

韓國職業九段棋士趙惠連也說,AlphaGo重新定義了什麼是圍棋。「人類下棋講究步步都要贏,贏愈多愈好,但AlphaGo的目標只有贏,贏多少完全不重要,局部犯錯無傷大雅,大局贏就是贏。」

AlphaGo的蒙地卡羅法雖說是亂下,「卻是聰明的隨機,」于天立說,因為有兩個大腦的幫助,事先剔掉勝率不高的步數,AlphaGo因此學到了很多人類從來沒有走過,其實勝率不錯的步數。

但是這些訓練,只夠AlphaGo贏樊麾。

贏的思考第3招:增強式學習——自己打自己

在準備挑戰韓國棋王李世乭的五個月,AlphaGo做了一件外界想也想不到的事:沒日沒夜地自己打自己。

就像金庸小說《射鵰英雄傳》裡被桃花島主黃藥師關在島上的周伯通,為了打發時間,周伯通窮極無聊,開始左手打右手,竟練成了絕世武功。

「就是兩個AlphaGo,A和A打,贏了創造出第二代的B;B再和B打,創造出第三代的C。和李世乭打的時候,已經是第十八代,」林順喜透露。

讓不同版本的AlphaGo自己跟自己對打,看誰贏的多。系統會追蹤這些步數哪一步會帶來更大的勝算,再往前一直回饋給前面的步數去修正。

透過無數次對打,「AlphaGo自己學到了新的招數,變得愈來愈強,」替AlphaGo寫程式的關鍵人物,DeepMind的科學家席佛(David Silver)告訴長期追蹤AlphaGo的《連線》(Wired)雜誌記者梅茲(Cade Metz)說,這就是「增強式學習」。

「所有過去的程式,從來沒有自我成長的能力,」林順喜說。

AlphaGo從模仿到創新,「這就是第二局第三十七步那神來之筆的由來,」席佛說,「AlphaGo算出人類只有一萬分之一的機率會下這一步,但它經過自我增強式學習之後發現,這一步其實很不錯。」

「先跟高手學,再跟自己學,一天二十四小時不斷自我對弈,反正它又不會累,所以人類再聰明也不可能比它勤奮,」李開復說。

可見「不要去做機器會做的事,選擇什麼不做,比做什麼更重要,」張明正則說。

這時的AlphaGo,就像武俠小說《笑傲江湖》裡無招勝有招的境界,絕世高人風清揚向令狐冲傳授道,「你的劍招使得再渾成,只要有跡可尋。敵人便有隙可乘。但如你根本並無招式,敵人如何來破你的招式?」

AlphaGo從模仿人類到創新、超越人類,靠的就是兩個大腦配上蒙地卡羅法。透過天下棋士為我師、博覽群書的深度學習、用超越自我的增強式學習練到無招勝有招,以及隨便亂下找到的創新,組成了學習、思考和決策的勝利方程式。

達爾文曾說:「我一直認為,除了傻子,人們的才智差別不大,但熱忱和刻苦程度有別。」

「AlphaGo如果沒有讀萬卷書,我不相信AlphaGo能夠創新,而人類常想跳過下苦功這一步,」前教育部長曾志朗說。

機器人會奪權嗎?

過去,許多好萊塢電影都描述人類創造的智慧機器想奪權,控制人類。

一九八四年的《魔鬼終結者》中,軍方製造了超級電腦網路「天網」來控制全美的核子武器,但天網有一天有了自己的意識,不讓軍方關閉它的電源,還發動一場核子戰爭。

一九九九年的《駭客任務》中,機器接掌地球,還把人類放到夾艙中當成替機器充電的「有機電池」。

二○○四年的《機械公敵》中,人工智慧系統認為人類會經由永無止境地戰爭和暴行而自我毀滅,因此決定奪權。

AlphaGo的出現,證明科技正快速追上科幻電影。

紐約大學物理學教授加來道雄(Michio Kaku)在《二○五○科幻大成真》一書中指出,人工智慧的未來由我們決定。如果機器發瘋想控制人類,那也是因為人類給它設定了彼此矛盾的指令。

換句話說,人工智慧再厲害,它都沒有辦法像人類一樣有自我意識。

「到今天為止,它還是人類的奴隸,它厲害的是能複製出一千個奴隸幫人類幹活,」李開復說,但是和以前的科技創新不一樣,人工智慧的快速發展,最慢十年,會取代一半腦力密集的白領工作。

二○一一年,美國電視益智節目問答紀錄保持人詹寧斯(Ken Jennings)被超級電腦「華生」(Watson)打敗之後說,「雷德(Brad Rutter,另一位節目常勝軍)和我,是最早因為『思考』機器失去工作的知識工作者。」

「這一套用在其他領域,會比我們想像快得多,」李開復說,「比方律師、醫生、金融、教育,這些都是有強大誘因(被人工智慧取代)的。」

所以,在擔心人類被機器人控制之前,先擔心工作吧。(見一○八頁)。

人機大戰史

■1988年,李開復就讀卡內基美隆大學期間所開發的「奧賽羅」人機對弈系統,擊敗了人類的黑白棋世界冠軍。

■1997年,IBM的超級電腦「深藍」(Deep Blue),在六輪比賽中以二勝一負三和的成績,打敗了當時的西洋棋冠軍卡斯帕羅夫(Garry Kasparov)。

■2011年,IBM的超級電腦「華生」(Watson)在美國益智節目《危險邊緣》(Jeopardy!)中,戰勝兩名冠軍詹寧斯(Ken Jennings)和雷德(Brad Rutter)。

■2015年10月,AlphaGo五局全勝歐洲圍棋冠軍樊麾。

■2016年3月,AlphaGo五局四勝打敗韓國棋王李世乭。

55

模擬神經網路的辨識系統 什麼是「深度學習」?

人類的視神經,是一個個有很多層的神經元,「比方你看我的臉,你的第一層神經會先辨認明暗、點,很多點組成線,一層層辨認我的特徵,最後認出這是我的臉,」台大電機系副教授于天立解釋。

AlphaGo的神經網路有13層,而且有2套。換句話說,它有2個大腦。

「它跟人一樣,看夠多貓的照片,它就認得貓,」師大資工所教授林順喜解釋,「看夠多林志玲的照片,再看到她的新照片,它也認得那是林志玲,這就是深度學習。」

這項技術,早已存在我們的生活中,比方臉書的人臉辨識和iPhone的Siri。

黃士傑的團隊,就是「餵」給AlphaGo至少3000萬步人類高手的步數,讓它把圍棋當圖像辨識,學到高手最常怎麼走會獲勝。

500名專家全球搶

AlphaGo成名後,深度學習變成顯學。它既是尖端學術,又是尖端工業,更是決定未來數十年,國家和企業,誰掌握產業標準和技術,誰就可保榮華富貴的關鍵(見112頁)。

Google很早就意識到了這一點。2014年,Google花4億英鎊(約188億台幣)收購小公司DeepMind,這家公司沒有任何產品,只有12名科學家。

很多人對這筆交易丈二金剛摸不著頭緒。

被譽為「深度學習三巨頭」之一,加拿大蒙特婁大學教授班吉歐(Yoshua Bengio)便點出,那是因為「全世界有50位真正的深度學習專家,其中有12個在DeepMind。」

臉書緊追Google,請了三巨頭之一,紐約大學教授雷鏗(Yann LeCun)成立人工智慧實驗室。

中國則數百度跑最快,高薪禮聘史丹佛大學副教授吳恩達(Andrew Ng)主掌「百度大腦」計劃。

 

※延伸影音

相關文章

分享