淘新聞

對陣AlphaGo 人類第一柯潔有多少勝算

今年元旦的時候,化名Master(Magist)的神秘高手在網路平臺上大殺四方,對陣人類職業棋手的成績為不可思議的60勝0負,最終幕後的人肉手臂Aja Huang承認Master就是AlphaGo,並且是個新版本,對電腦圍棋的強大有了重新的認識。今天終於傳來了最新的消息,人類第一人柯潔九段終於要對陣AlphaGo了!他能捍衛人類的榮耀嗎?

終於官宣了消息

根據新華社的消息,從國家體育總局獲得的資訊確認在今年的五月下旬,AlphaGo將在浙江烏鎮與包括柯潔在內的人類頂尖高手下三番棋。因為柯潔九段最近兩年長期雄踞Gorating的人類棋手排行榜第一名,所以他的棋力就是代表了人類目前的最高水準。

Goratings上面柯潔九段雄踞榜首已經很長時間

從AlphaGo橫空出世以來,到去年3月與李世石的人機大戰五番棋,吸引了全世界的目光。圍棋由於要在一個19X19的棋盤交叉點上落子,所以窮舉的數學空間是所有競技遊戲中最高的,一直以來普遍認為很難在短期內解決。但是來自穀歌Deepmind團隊的AlphaGo通過蒙特卡洛搜尋樹剪枝演算法、走子網路、價值網路和策略網路的三重神級網路進行上億盤機器學習訓練之後的AlphaGo已然能夠戰勝了人類頂尖高手李世石九段,顛覆了我們對於電腦圍棋的認知。

AlphaGo紀錄片的宣傳海報

AlphaGo的故事還被拍成了紀錄片,過不久將在電影節上開始放映,我們很快就會看到關於更多內幕的內容。然而,柯潔九段在五月份要對付的,是卻並非李世石面對的AlphaGo。

此“狗”非彼“狗”

我們回到自然雜誌論文發表的去年初,當時歐洲冠軍樊麾對陣的版本在Deepmind內部是V13,當時雜誌上提供的棋譜讓中韓日這種圍棋大國一片譁然,普通認為樊輝的棋力不夠,換個當打的九段AlphaGo贏不了。

分散式運算的AlphaGo下一盤棋電費就要3000美元……

到了去年三月對陣李世石的時候,Deepmind的創始人哈薩比斯坦言對陣李世石的版本是V18的分散式版本,有1300多個CPU和280個GPU,一盤棋的電費就要3000美元。可以看到V13和V18的區別很大,尤其是棋力的提升,而沒升級一個版本,則需要對陣舊版本的時候勝率達到90%,才能稱之為新版。

Master獲勝之後的官方聲明:new version

再到今年初的時候下快棋的Master,根據事後Deepmind的官方聲明,指出這是一個全新的版本,那麼版本的編號一定是大於V18,不過deepmind曾經在韓國kgs網路對弈平臺註冊過帳號,只是沒有下棋,當時的版本是V20,這事情發生在Master出現之前,所以Master的版本一定是V20之後的.

一個沒有輸入過古代棋譜、只知道規則訓練出來的圍棋智慧會有多強大?

再強的版本都基於一個事實,那就是事先輸入過人類高手對弈的棋譜進行訓練。而穀歌要做的事情是,從零開始訓練,訓練出一個從來不知道金角銀邊、立二拆三的人工智慧對弈思路出來,讓它完全跳出傳統的條框限制,這極可能是與柯潔九段介時對弈的版本,如果輸入過棋譜的稱之為1.0時代,這個倒是可以稱之為2.0.

柯潔九段有勝算嗎?

可以簡單的用兩個字概括:沒有,這不是我說的,是這幾天搞德州撲克人機大戰中國版的時候,李開複說的。前不久柯潔九段曾經參與了央視的一檔閱讀節目,在裡面坦誠的說如果是和李世石對陣的版本,自己還是有信心的,而在Master出世之後,已經沒有人類可以贏它了。

人民體育推出的對局精解裡面可以看到普遍難以撐過50手

僅僅看到60勝0負的戰績其實並不能說明問題,因為誰跟博爾特跑百米都是輸,問題在於差距有多大。這要看過程。在今年對弈的60盤快棋裡面,人類的職業高手基本都是50手(一人25子)就已經潰不成軍了,不過當時的AlphaGo一旦確立起來巨大的領先優勢,就開始下很多我們人類看起來的損棋,收官之後可能人也就輸幾目甚至半目,所以只看目數顯然不行,在對弈的過程中,AlphaGo超強的子效、無比靈活的轉換,基本都是早早就確立了領先。

不過那是快棋,後來很多高手的解說裡面,說當時AlphaGo對於很多定式的變招讓他們根本沒時間思考,所以如果慢棋,會想的更清楚些,不至於那麼慘。但事實上,如果給AlphaGo更多的時間,它會進行更精確的蒙特卡洛搜索剪枝演算法,所以說快棋下AlphaGo也沒有使勁全力。

當年“讓天下一先”的昭和棋聖吳清源(圖左)

那麼怎麼才能知道它到底有多強?在日本的近代圍棋裡面,番棋制度是很好的辦法。比如AlphaGo在對人不斷的贏,那麼可以5:0後,它不再貼目,而是讓人類先手,即人類先執黑在天元上落子之後再正常下。如果先手還是連勝,讓一子,當年的吳清源橫掃日本棋壇的時候就是讓天下一先……但是以Deepmind的效率以及高昂的成本,再加上Deepmind只是個人工智慧的研發機構,圍棋也不是唯一的項目,所以這種曠日持久的番棋制度恐怕Deepmind也吃不消。

對稱的模仿棋或許是熬過佈局階段的辦法,不過九段高手怕是不屑於這麼做

還有種辦法。那就是下完全對稱的模仿棋,這樣可以挺過前五十手恐怕問題不大,雖然很難看,但也算一種能試探出AlphaGo中盤或是官子實力的辦法,當然作為世界冠軍,一般來說不屑於這麼下。

絕藝、地震狗及其它

在Deepmind團隊的論文發表之後,很多機構都深受啟發,研究了基於多層網路的對弈軟體,目前比較厲害的是騰訊團隊的絕藝以及日本的DeepZenGo(深度天頂圍棋),網友俗稱地震狗。

馬化騰表示,絕藝是受到了Deepmind的啟發

騰訊的絕藝勇奪UEC電腦圍棋比賽的冠軍(AlphaGo並未參與)

前不久的中國互聯網峰會上,騰訊的董事局主席馬化騰表示,騰訊的對弈人工智慧絕藝,就是受到了穀歌Deepmind的啟發,通過機器學習訓練出來的,現在就是對上職業九段,也是贏多輸少,雖然沒有AlphaGo那種統治力,但能下贏職業九段已然到了一個很高的水準。

現在超強的GPU大量的都被買走做機器學習而非玩遊戲,Deepzengo就用了四塊TitanX

同理還有日本的DeepZenGo,它的配置是2顆E5-2699志強處理器,四路Titan X,算下來大約十幾萬的平臺成本,就能與人類的頂級高手互有勝負了,當然這些軟體有不少還有些諸如死活登方面的問題,但瑕不掩瑜,能下贏職業九段,就說明Deepmind公佈出來的這套辦法至少目前是最優解。

只要柯潔九段能給我們帶來精彩的對弈棋譜就足矣

在烏鎮,柯潔九段或許難求一勝,不過這並不關鍵,關鍵是我們欣喜的看到了AI領域的蓬勃發展讓過去許多的不可能變成了可能。而我們相信Deepmind團隊也會妥善的處理AlphaGo項目的後續,讓這個古老而深奧的競技遊戲在二十一世紀展現出前所未有的精彩。