当前位置:首页 >探索 > 正文

《畢達哥拉斯的思考課》:AlphaGo對弈贏過世界冠軍李世乭的關鍵,正是因為蒙地卡羅搜尋法

2024-05-02 10:54:24探索

文:李光淵(이광연)

人腦輸給AlphaGo的畢達原因­——蒙地卡羅搜尋法

距離現在不過100年前,人們仍自己耕種以備糧食,哥拉冠軍關鍵並在家中自製必要的斯的思考世界工具來用。19世紀初,對弈地隨著蒸汽機的贏過發明,工廠開始使用機器、李世羅搜大量生產商品。正因人們的為蒙生活方式從農業和手工業,轉變為以使用機器量產必需品的尋法製造業為主的過程,稱為「工業化」或「工業革命」。畢達工業革命一詞最早是哥拉冠軍關鍵由一名法國的學者所創;英國的經濟歷史學家阿諾.湯恩比(Arnold Toynbee)在說明1760-1840年代英國的經濟發展時,將這個詞通俗化。斯的思考世界

《畢達哥拉斯的思考課》:AlphaGo對弈贏過世界冠軍李世乭的關鍵,正是因為蒙地卡羅搜尋法

直至2000年代前半為止,對弈地人類經歷了三次工業革命。贏過第一次工業革命發生在1760年到1830年間,李世羅搜並從英國開始,當時英國禁止機器、技術工人和製造技術等外流,但效果並未持續太久。受到英國的影響,以比利時和法國為首的歐洲鄰國也迅速地工業化。

《畢達哥拉斯的思考課》:AlphaGo對弈贏過世界冠軍李世乭的關鍵,正是因為蒙地卡羅搜尋法

第二次工業革命從19世紀末開始持續到20世紀初,活用了以前沒使用過的石油等天然資源和合成原料。發展了機器、工具和電腦等領域,並因此創建了自動化工廠。然而,以石油等天然資源為原料的工業革命,招致了資源枯竭和環境汙染。

《畢達哥拉斯的思考課》:AlphaGo對弈贏過世界冠軍李世乭的關鍵,正是因為蒙地卡羅搜尋法

第三次工業革命是在1960年代後,透過網路通訊技術和再生能源的結合而開始,並主要發展於如金融和通訊等服務產業。第四次工業革命則是在2016年1月於瑞士達沃斯舉行的世界經濟論壇上被正式宣告。

現在,我們處於第三次工業革命的尾聲和第四次工業革命中。第四次工業革命一詞最早出現在2010年德國發表的「高科技戰略2020行動計畫」十大計畫之一的「工業4.0」中,以「製造業和電波通訊的融合」之意首次被討論。

第四次工業革命是以第三次工業革命為基礎之數位、生物產業和物理學等各領域的技術融合所帶來的經濟體制和社會構造的急遽變化。第四次工業革命擁有「超連結性」「超智能化」的特徵。人與人、物與物、人與物通過物聯網、雲端等情報通訊技術實現互聯。透過大數據和人工智慧等,促使我們現在所生活的社會有望成為一個更智慧化的社會。

電腦和操作電腦的軟體是引領第四次工業革命時代的核心。對於要在第四次工業革命時代生活下去的我們來說,如何迎接以軟體為中心的各領域的新變化,不只會決定個人,更會決定國家的命運。

尤其,人工智慧建立在數學的基礎上;如字面上的意思,人工智慧是以像人類的智慧一樣能自動學習、思考,並迅速處理指令的軟體為中心的電腦。因此要生活在第四次工業革命時代的我們,必須更加熟悉電腦和軟體才行。

常被活用於人工智慧中的方法是「蒙地卡羅搜尋法」。蒙地卡羅搜尋法是指主要被用在電腦圍棋程式、圖板遊戲、即時電玩、撲克牌等,難以預測對方會如何做下一步行動之類遊戲的方法。簡單來說,蒙地卡羅搜尋法是根據對方的動態,並活用從既往資料得到的機率來決定如何行動的最有利的方法。

在方形的圍棋棋盤上展開的生存競爭遊戲「電腦圍棋」是蒙地卡羅搜尋法的最佳應用。圍棋盤上有直線和橫線各19條,兩者的交點共有361個。分為黑白的兩方,互相輪流在361個點上放下棋子占地並對弈後,依各自所擁有的點(地)的多與少決定勝負。

圍棋的每一手都高深而奧妙,隨著先下在哪一處,會形成完全不同的對弈。並且因為可以下的方式太多,甚至有人說自圍棋發明以來,至今沒有兩局棋是相同的。實際上,下棋時,一開始黑棋可以下在361個點中任意一點,接著白棋可以下在已經擺有黑棋外的360個點中任意一點;如果這麼計算,則圍棋可走的情況數共為361!。要用手來計算361!幾乎不可能,其實際的值大於2.6 x 10845

不過,一般在圍棋中,約只要250個點、150手對局就結束了,因此在平均的情況下,可能的情況數為250150≈10360種。然而,整個宇宙的所有原子個數據稱約為個。因此圍棋的棋局到底有幾種情況……多到令人難以衡量。像這樣,因為圍棋的下法實在太多了,所以使用既有搜尋法的電腦圍棋遊戲實力並不理想。

但是在2016年3月登場的人工智慧「AlphaGo」,卻在共5場的對局中,以4比1的成績贏了世界冠軍的九段棋士李世乭。當時AlphaGo所使用的資料搜尋法正是蒙地卡羅搜尋法。蒙地卡羅搜尋法由選擇、展點、模擬、更新等四步驟構成,在這裡讓我們舉個例子來簡單了解AlphaGo是以什麼方法搜尋並能下出對自己最有利的一手吧。

AlphaGo在與李世乭對局前,已經從好幾次的虛擬對局中獲取了重要情報。藉由這些資訊,當對方下在特定一點時,便利用機率找出對應該手最佳的一手棋。舉例來說,執白棋的李世乭在深思後選擇下在某一點時,AlphaGo便會搜索至今的資料,並得知下在該點時,白棋的勝率為三三分之十八,也就是說,當下在該點時,他贏了33次中的18次。

為了應對李世乭下的這手棋,執黑棋的AlphaGo會搜索可能的下法,找出黑棋的勝率各為十一分之九、十分之四、三分之零的三個點,並選擇下在黑棋的勝率最高的十一分之九的點上。對此,李世乭選擇一點下白棋,而AlphaGo得出當下在該點時白棋的勝率為五分之一。於是AlphaGo再次搜索可能的下法,找出黑棋的勝率各為四分之三和二分之二的兩個點,並選擇將黑棋下在勝率為二分之二的點。接著,李世乭在深思後選擇下在某一點上,最後AlphaGo贏得了圍棋對局。這個過程可以下圖表示;圖中白棋和黑棋內的數字為選擇該點時的勝率。


最近关注

友情链接