淘新聞

解密|為什麼柯潔會輸給AlphaGo?

這件事情的起因,當然要從去年的一件圍棋對弈說起,AlphaGo力戰韓國棋手李世石並取得勝利。這時候,年少成名的世界冠軍柯潔坐不住了,站出來稱自己能夠戰勝AlphaGo。

這場期待已久的人機巔峰對決,也終於在2017年5月23日正式展開。經過4個多小時的廝殺,Alpha Go執白4/1子,戰勝了世界排名第一的天才棋手柯潔,取得1比0的領先優勢。

雖然大部分棋友和粉絲都對柯潔持支持鼓勵的態度,但仍有少部分(以某著名富二代網紅為主要代表)站出來指責柯潔沒有兌現承諾。事實上,AlphaGo在這幾個月裡並不是整天吃喝拉撒無所事事,而是完成了硬體與軟體上的全面進化。即使強如柯潔,也無力再與它正面對抗了。

|硬體上的升級

據可查的論文資料顯示,在成型之初,AlphaGo採用48個CPU核心搭配最高8核的GPU組合,總體來說,還算一台比較傳統的高性能電腦。但在2015年,DEEPMIND公司重新為它設計了一套性能媲美超算的分佈計算架構,最高支持1920個CPU核心以及280個GPU核心。

雖然說CPU與GPU數量暴增了數十倍,同時還配備了分散式運算結構;但DEEPMIND的科學家們發現,這對戰鬥力的提升並不明顯(由2890提升到3168,李世石當時分數為3532,柯潔最新分數為3620)。於是在與李世石對決前夕, 他們再次變更了AlphaGo的硬體架構,引入了一種叫做TPU的全新處理器。

TPU全名為Tensor Processing Unit(張量處理器),是專為機器學習與推理神經網路所設計的處理器。它為AlphaGo所使用的TensorFlow機器學習框架提供了更強大的性能支援。因此在大戰李世石過後,DEEPMIND拋棄了傳統的CPU+GPU結構,將AlphaGO整體遷移至TPU平臺之上。

|思維方式的進化

TPU的出現,讓GO擁有了更加強大的硬體身體,但這還不足以讓它成為柯潔口中的“圍棋上帝”;而思維方式的進化,也是讓它無可匹敵的真正原因。在初期,AlphaGo的訓練方法就是不斷學習人類的棋譜,但人類棋手的下法相對固定,它很快就遇到了瓶頸;到後來,科學家們乾脆就讓它開始了如周伯通般的左右互搏訓練。

在人類棋手吃飯睡覺發微博的時候,AlphaGO已經和自己下完了一萬盤棋。柯潔當初的一句玩笑話,成為了擺在眼前的事實。這也正是Master和Alpha Go之所以能夠奇招頻出,讓眾多高手無力招架的原因。這種左右互博的訓練方式,讓它能夠不斷自主進化,將每一分每一秒的時間,都用來不斷精進自己的棋藝。

同時Alpha Go的思維方式也與人類棋手有著天壤之別,它既不會考慮自己有多大的贏面,也不會考慮如何才能贏的更漂亮;它只會考慮將下一子落在哪裡,獲勝的概率會更高;而這種以半目優勢獲勝的演算法,正是它在與柯潔對弈時得出的最優解;即使其它的取勝方式再漂亮(它完全可以贏個十目,但是這種演算法獲勝概率相對略低),都會被它拋棄。

所以說,雖然我們看到柯潔竭盡全力與它一戰,最終以半目差距惜敗。你可能會以為這是一場實力均衡的對決。但事實並非如此:這以半目取勝的演算法,完全是AlphaGo有意為之的結果,它只是裝出與你勢均力敵的方式來對戰而已。正是這種如大魔王戲弄勇者一般的實力差距,讓AlphaGo成為了柯潔口中的“圍棋上帝”。