開發人員釋疑：跟柯潔對戰的AlphaGo到底有多強

IT之家5月24日消息在中國烏鎮舉行的圍棋峰會已經進入第二天，在今天舉行的人工智慧高峰論壇上，Deepmind的首席程式師席爾瓦向公眾介紹了AlphaGo的強化學習方式，以及相比于去年同李世石對戰的AlphaGo Lee，今年同柯潔對戰的AlphaGo Master到底強在了哪裡。

根據席爾瓦介紹，穀歌在訓練AlphaGo時，是通過人類專家進行監督式學習，再通過策略網路實現強化學習輸入價值網路。AlphaGo樹搜索通過策略網路減少搜索的寬度，以價值網路減少搜索的深度。

與李世石對戰的AlphaGo Lee在穀歌雲上有50個TPUs在運作，搜索50個棋步為10000個位置/秒，而昨天打敗柯潔的AlphaGo Master是在單個TPU上進行遊戲，AlphaGo成為自己的老師，它從自己的搜索裡學習，有著更強大的策略和價值網路。

簡單來說吧，按照Deepmind團隊的預測，

與柯潔對戰的AlphaGo Master要比去年同李世石對戰的AlphaGo Lee強三個子。

在昨天的對戰中，柯潔最終是以1/4子的劣勢輸給穀歌了AlphaGo Master。

對此，

柯潔也在微博上感慨“我到底是在和一個怎樣可怕的對手下棋...”。

柯潔微博全文如下：

早就聽說新版alphago的強大....

但...讓...讓三個？我的天

這個差距有多大呢？簡單的解釋一下就是一人一手輪流下的圍棋，對手連續讓你下三步...又像武林高手對決讓你先捅三刀一樣...

我到底是在和一個怎樣可怕的對手下棋...