淘新聞

第二次人機大戰揭開帷幕 柯潔能否一勝?

棋壇風雲再起,4月10日下午15時,中國圍棋協會、浙江省體育局攜手Google在北京中國棋院共同宣佈,三方將聯合主辦“中國烏鎮 圍棋峰會”,如之前猜測,人機大戰第二季終於揭開帷幕,圍棋世界第一人、金立智慧手機的品牌文化大使柯潔將大戰阿爾法狗(AlphaGo)。

5月23,25,27日,柯潔與AlphaGo三番棋:每方3小時,5次1分鐘讀秒。

其實端倪早現,3月19日,在央視《朗讀者》節目中,柯潔九段朗讀了《哈利波特與死亡聖器》最後一個節選,內容是哈利波特與伏地魔第一次也是最後一次正面對決,柯潔表示這段文章要“獻給未來的對手”,已經暗示了即將到來的與阿爾法狗的比賽,只是礙于穀歌公司的保密條約,不可明言罷了。

第一次人機大戰之後,柯潔何時與“阿爾法圍棋”對決就成為了大家熱議的話題,這不僅僅是圍棋界、也是科技界及普通大眾期盼。

就在AlphaGo和李世石的比賽期間,金立智能手機順應潮流,神速簽約柯潔,即將到來的五月,AlphaGo和柯潔的大戰,顯示出這是金立下出的“神的一手”、一個絕妙的伏筆。

AlphaGo獲得最終的勝利幾乎沒有懸念,但圍棋人工智慧的最高水準與人類最高水準之間的對決,本身的意義卻是非同凡響。圍棋被認為是人類棋類遊戲的巔峰,最難也最為複雜。圍棋表達了一種靜默的思考、寵辱不驚的氣度,是人類智慧的傑作。進入21世紀之後,圍棋這項中國古老的技藝不衰反興,幾乎是所有幼稚園、小學必備的興趣課,其最重要的原因是圍棋最能代表中國文化,也是最好的智力遊戲。人工智慧代表著科技的未來,從某種意義上說,也是人類的未來,人機之戰,是人類智慧的延伸,也是人類對未來的一次探索。

AlphaGo的研發團隊DeepMind表示非常希望與中國頂尖棋手舉行比賽,共同探索圍棋的上限,通過此次比賽發現圍棋的更多下法,將圍棋運動推向更高的水準。

柯潔九段表示:三百年前發明了蒸汽機,超越了當時人類想像。如今DeepMind發明AlphaGo也超出了我們所有棋手想像,與他對決時感覺就像在對話未來。自己會盡最大努力下好棋,抱有必勝心態、必死信念,不會輕易言敗,不會輕易妥協。

網路上,圍棋和人工智慧話題再度點燃,不禁讓大家想起一年前,2016年3月15日,李世石完成了與阿爾法狗的5場交鋒,最終比分定格在1:4;數月前AlphaGo化名Master,網路上和人類頂尖圍棋高手過招,取得60:0的絕對優勢。

去年李世石人機大戰的AlphaGo版本V18,在網路60勝的是Master是V25版本,此次峰會柯潔將面對是最新的版本,序號不詳……

人類好像不再應該對戰果再有絲毫的樂觀,甚至不該心存僥倖,戰鬥還沒開始,結局就已經註定。可事是真的是這樣嗎?

圍棋AI中最重要的技術是人工神經網路和蒙特卡洛樹搜索兩個演算法,普通人很難理解這兩個演算法的原理,自然就忌諱莫深,容易出現判斷偏差。

人工神經網路是由大量的簡單基本元件——神經元相互聯接而成的自我調整非線性動態系統。每個神經元的結構和功能比較簡單,但大量神經元組合產生的系統行為卻非常複雜。

人工神經網路反映了人腦功能的若干基本特性,但並非生物系統的逼真描述,只是某種模仿、簡化和抽象。

與數位電腦比較,人工神經網路在構成原理和功能特點等方面更加接近人腦,它不是按給定的程式一步一步地執行運算,而是能夠自身適應環境、總結規律、完成某種運算、識別或程序控制。

人工神經網路首先要以一定的學習準則進行學習,然後才能工作。現以人工神經網路對手寫“A”、“B”兩個字母的識別為例進行說明,規定當“A”輸入網路時,應該輸出“1”,而當輸入為“B”時,輸出為“0”。

網路學習的準則是:如果網路作出錯誤的判決,則通過網路的學習,應使得網路減少下次犯同樣錯誤的可能性。網路輸出為“1”和“0”的概率各為50%,也就是說是完全隨機的。這時如果輸出為“1”(結果正確),則使連接權值增大,以便使網路再次遇到“A”模式輸入時,仍然能作出正確的判斷。

如果輸出為“0”(即結果錯誤),則把網路連接權值朝著減小綜合輸入加權值的方向調整,其目的在於使網路下次再遇到“A”模式輸入時,減小犯同樣錯誤的可能性。如此操作調整,當給網路輪番輸入若干個手寫字母“A”、“B”後,經過網路按以上學習方法進行若干次學習後,網路判斷的正確率將大大提高。這說明網路對這兩個模式的學習已經獲得了成功,它已將這兩個模式分佈地記憶在網路的各個連接權值上。當網路再次遇到其中任何一個模式時,能夠作出迅速、準確的判斷和識別。一般說來,網路中所含的神經元個數越多,則它能記憶、識別的模式也就越多。

蒙特卡洛樹搜索,全稱 Monte Carlo Tree Search,是一種人工智慧問題中做出最優決策的方法,一般是在組合博弈中的行動(move)規劃形式。它結合了隨機模擬的一般性和樹搜索的準確性。

MCTS 受到快速關注主要是由電腦圍棋程式的成功以及其潛在的在眾多難題上的應用所致。超越博弈遊戲本身,MCTS 理論上可以被用在以 {狀態 state,行動 action} 對定義和用模擬進行預測輸出結果的任何領域。

MCTS 搜索可能需要足夠多的反覆運算才能收斂到一個很好的解上,這也是更加一般的難以優化的應用上的問題。例如,最佳的圍棋程式可能需要百萬次的交戰和領域最佳和強化才能得到專家級的行動方案,而最優的 GGP 實現對更加複雜的博弈遊戲可能也就只要每秒鐘數十次(領域無關的)交戰。對可承受的行動時間,這樣的 GGP 可能很少有時間訪問到每個合理的行動,所以這樣的情形也不大可能出現表現非常好的搜索。

幸運的是,演算法的性能可以通過一些技術顯著提升。

很多種 MCTS 強化的技術已經出現了。這些基本上可以歸納為領域知識或者領域獨立兩大類。

領域知識特定博弈遊戲的領域知識可以用在樹上來過濾掉不合理的行動或者在模擬過程中產生重要的對局(更接近人類對手的表現)。這意味著交戰結果將會更加的現實而不是隨機的模擬,所以節點只需要少量的反覆運算就能給出一個現實的收益值。

領域知識可以產生巨大的性能提升,但在速度和一般性上也會有一定的損失。

領域獨立強化能夠應用到所有的問題領域中。這些一般用在樹種(如 AMAF),還有一些用在模擬(如 在交戰時傾向于勝利的行動)。領域獨立強化並不和特定的領域綁定,具有一般性,這也是當前研究的重心所在。

你如果能從上面一大堆繞人的學術問題中理清頭緒,就能發現,經過這多長時間的準備和背後的技術支持,人工智慧已經能充分發揮出自己的優勢了,現在,人工智慧圍棋水準的提升面臨的是另外一個瓶頸,演算法瓶頸!

AlphaGo之前,最強的圍棋人工智慧軟體只能達到業餘3—4段水準,並且當時的研發者也沒有短期內突破信心,是穀歌的研究改變了這種局面,是穀歌公開部分技術造成了當前高水準的圍棋人工智慧爭奇鬥豔局面。

AlphaGo問世差不多兩年的時間,我有足夠的理由相信,圍棋人工智慧的水準已經接近目前演算法的極限水準,如果演算法沒取得重大突破,圍棋水準不會出現顯著進步了!

現在的軟體圍棋水準已經比任何一個圍棋高手強了,經過實戰驗證,快棋領域已經是它的私家花園,唯一的希望在慢棋上。

慢棋,電腦的計算速度快的優勢被削弱不少,圍棋對局中雙方鬥智鬥勇,千古無同居,只要水準相差不是很懸殊,不是說水準高的就一定能取得勝利,只是勝算大一些而已,當今大賽中,排名靠前的高手走麥城的例子不勝枚舉。當年,較如今水準弱一些的AlphaGo能給李世石機會,現在,比李世石強一些的柯潔出馬,未必沒勝機。

只是這不是一場普通的比賽,賽場內外,柯潔需要承受的壓力很多,而要達成這一目標,最大的攔路虎是棋手的心理素質,面對冷冰冰的非人類對手,柯潔能“保持一顆大心臟”,不受心理因素影響,發揮出最佳水準,爭取到這稍縱即逝的機會嗎?對此,我們也只能寄望和祝福,或許這一場對抗柯潔的勝算不大,甚至很多人認為低到只有10%,但是這不也是一線曙光嗎?柯潔能拿下人機對抗的最後一局勝局嗎?他只有三次機會。

早在2007年,金立就開始贊助中國圍甲聯賽,推動圍棋事業的發展。在金立與中國圍棋攜手走過的十一年間,共有13位中國籍圍甲棋手24次獲得世界冠軍,中國圍棋在世界棋壇中也逐漸奪回霸主地位。而對中國圍棋事業的支持,已變成了金立品牌的一種超級續航精神,也是金立對傳統文化和人類智慧的敬畏。

圍棋,不只是計較一子一目的得失,更有放眼全域的取捨和戰略,是一種長距離的“超級續航”,而正是這種全域觀和“超級續航”的精神,使得金立從數次行業洗牌中脫穎而出,成為手機行業的翹楚以及資格最老的品牌,也成為了全球知名的科技企業之一,圍棋與金立的遭遇,奠定了中國圍棋的盛世之基,也造就了一個縱橫商界的傳奇。■