開發人員釋疑:跟柯潔對戰的AlphaGo到底有多強
IT之家5月24日消息 在中國烏鎮舉行的圍棋峰會已經進入第二天,在今天舉行的人工智慧高峰論壇上,Deepmind的首席程式師席爾瓦向公眾介紹了AlphaGo的強化學習方式,以及相比于去年同李世石對戰的AlphaGo Lee,今年同柯潔對戰的AlphaGo Master到底強在了哪裡。
根據席爾瓦介紹,穀歌在訓練AlphaGo時,是通過人類專家進行監督式學習,再通過策略網路實現強化學習輸入價值網路。AlphaGo樹搜索通過策略網路減少搜索的寬度,以價值網路減少搜索的深度。
與李世石對戰的AlphaGo Lee在穀歌雲上有50個TPUs在運作,搜索50個棋步為10000個位置/秒,而昨天打敗柯潔的AlphaGo Master是在單個TPU上進行遊戲,AlphaGo成為自己的老師,它從自己的搜索裡學習,有著更強大的策略和價值網路。
簡單來說吧,按照Deepmind團隊的預測,
與柯潔對戰的AlphaGo Master要比去年同李世石對戰的AlphaGo Lee強三個子。
在昨天的對戰中,柯潔最終是以1/4子的劣勢輸給穀歌了AlphaGo Master。
對此,
柯潔也在微博上感慨“我到底是在和一個怎樣可怕的對手下棋...”。
柯潔微博全文如下:
早就聽說新版alphago的強大....
但...讓...讓三個?我的天
這個差距有多大呢?簡單的解釋一下就是一人一手輪流下的圍棋,對手連續讓你下三步...又像武林高手對決讓你先捅三刀一樣...
我到底是在和一個怎樣可怕的對手下棋...