淘新聞

開發人員釋疑:跟柯潔對戰的AlphaGo到底有多強

IT之家5月24日消息 在中國烏鎮舉行的圍棋峰會已經進入第二天,在今天舉行的人工智慧高峰論壇上,Deepmind的首席程式師席爾瓦向公眾介紹了AlphaGo的強化學習方式,以及相比于去年同李世石對戰的AlphaGo Lee,今年同柯潔對戰的AlphaGo Master到底強在了哪裡。

根據席爾瓦介紹,穀歌在訓練AlphaGo時,是通過人類專家進行監督式學習,再通過策略網路實現強化學習輸入價值網路。AlphaGo樹搜索通過策略網路減少搜索的寬度,以價值網路減少搜索的深度。

與李世石對戰的AlphaGo Lee在穀歌雲上有50個TPUs在運作,搜索50個棋步為10000個位置/秒,而昨天打敗柯潔的AlphaGo Master是在單個TPU上進行遊戲,AlphaGo成為自己的老師,它從自己的搜索裡學習,有著更強大的策略和價值網路。

簡單來說吧,按照Deepmind團隊的預測,

與柯潔對戰的AlphaGo Master要比去年同李世石對戰的AlphaGo Lee強三個子。

在昨天的對戰中,柯潔最終是以1/4子的劣勢輸給穀歌了AlphaGo Master。

對此,

柯潔也在微博上感慨“我到底是在和一個怎樣可怕的對手下棋...”。

柯潔微博全文如下:

早就聽說新版alphago的強大....

但...讓...讓三個?我的天

這個差距有多大呢?簡單的解釋一下就是一人一手輪流下的圍棋,對手連續讓你下三步...又像武林高手對決讓你先捅三刀一樣...

我到底是在和一個怎樣可怕的對手下棋...