淘新聞

智商不夠用了!人工智慧VS最強大腦簡史

【中關村線上原創】去年底今年初,一個名為Master的神秘圍棋大師在弈城和野狐兩大網路圍棋對戰平臺掀起了血雨腥風,通過線上超快棋的方式,以60勝0負的戰績震驚天下,在第59盤和60盤的局間,突然宣佈自己就是AlphaGo。最近這個月,經過一番鏖戰,德州撲克這個人類的專長領域人又敗下陣來。今天我們就借助選題來回顧一下人類智力的巔峰與人工智慧對弈的失敗歷史。

人工智慧由來

人工智慧這個詞來自英文Artificial Intelligence,簡稱AI。從電腦誕生的那一刻起,人們就在討論未來會帶來哪些變革。但在過去,人工智慧受限於硬體本身不夠優秀,計算能力不足,不過在摩爾定律的推動下,現在運行人工智慧的系統往往都是非常龐大的電腦集群。比如今天非常熱的機器學習,其實概念上世紀90年代就已經提出了,但是受限的是電腦的計算能力。

機器是疑犯追蹤裡面的主角

西部世界不僅僅有機器人AI,還有3D列印

無論是小說還是電影、電視劇,都有很多人工智慧的影子。筆者本人非常喜歡的美劇疑犯追蹤(Person of the Interest)、西部世界(West World)裡面都有人工智慧的影子。當然那都是基於幻想的作品,而非已經實現的系統。

深度神經網路判斷車型的過程,模仿大腦的多神經元

之前筆者寫過文章,由於CPU和GPU的分家,讓數量更多、速度不太快的核心來模仿大腦神經的系統是今天熱門的研究方向,這種神經網路在機器學習等領域用的很多。測試一個超級系統的成功與否,顯然是挑戰真正的頂級人類智慧。

IBM深藍VS卡斯帕羅夫

寫個國際象棋程式是很早以前的電腦就能實現的功能,但是程式的棋力往往不是人的對手。對於這方面的研究很多。而最出名的則是1996年的IBM的深藍與卡斯帕羅夫的對弈。

居中剪裁者即譚崇仁先生,圖片來自哈爾濱工業大學官網

深藍計畫源自許峰雄在美國卡內基·梅隆大學修讀博士學位時的研究,第一台電腦名為“晶體測試”,在州象棋比賽中獲得了名次,後來該又研製了另一台電腦“沉思”(Deep Thought,該名源自於《銀河系漫遊指南》中的一台超級電腦),晶片工藝是3微米。許峰雄在1989年加入IBM研究部門,並繼續超級電腦的研究工作,當時他與Murray Campbell主力研究平行運算問題。1992年,IBM委任譚崇仁(現任香港大學電子商業科技研究所所長)為超級電腦研究計畫主管,領導研究小組開發專門用以分析國際象棋的深藍超級電腦。

博物館中的深藍:運行於IBM RS6000 SP的系統上

深藍的名字源自其雛型電腦“沉思”(Deep Thought)及IBM的昵稱“巨藍”(Big Blue),由兩個名字合併而成。深藍的程式運行於IBM著名的RS6000系統上,使用C語言編寫,運行系統為AIX,深藍的關鍵是有480個專門為國際象棋優化的VLSI晶片。深藍每秒鐘能計算2億步,可以搜索到12步棋之後的發展,而人類的頂尖棋手是10步左右。

卡斯帕羅夫與深藍對弈當中

不過歷史上首次著名的人機大戰,卻是深藍以2-4敗北。隨後IBM改進了系統,推出了更深的蘭,才僥倖3.5-2.5擊敗卡斯帕羅夫。不過IBM很快就拆了機器送進了博物館,卡斯帕羅夫想再戰也無門了。由於國際象棋本身的變化不多,今天的電腦快太多了,所以擊敗國際特級大師的系統很多,頂尖高手用軟體來進行訓練是普遍的現象。

谷歌AlphaGoVS全世界圍棋高手

Deepmind在發表《自然》雜誌的封面論文《通過神經網路與搜尋樹掌握圍棋》(Masterting the game of Go with deep neural networks and tree search),這篇論文公開發表的時間是去年一月,在論文當中,這個穀歌收購的人工智慧團隊說自己的程式通過走子網路、策略網路與蒙特卡洛搜尋樹演算法的集合,已經基本解決了圍棋這個過去認為難以逾越的智力遊戲,並且5:0戰勝了歐洲圍棋冠軍樊輝。

Deepmind團隊登上頂級學術雜誌《自然》封面的論文

圍棋一直被認為是智力遊戲當中最難以用電腦來實現的。國際象棋、象棋的棋子少,不同棋子走的方式固定,所以今天的超級系統窮舉也不是問題。但圍棋不同,圍棋的棋盤是19X19,有361個落子點,所以窮舉的方式是不可能的,這也是為何圍棋成為最後被電腦攻克的專案。數學上,中國象棋和國際象棋的空間複雜程度大約是10的48次冪,而圍棋是10的172次冪,而圍棋還有打劫的手段可以反復提子,所以事實上要更複雜。

去年三月的人機大戰,上臺正中是第一個被AlphaGo擊敗的歐洲冠軍樊輝,與李世石對弈的是Aja Huang博士

谷歌隨後宣佈了圍棋程式AlphaGo將于世界冠軍李世石對戰的消息。去年的人機大戰吸引了無數的關注,最終以4:1戰勝了李世石九段。除了獲勝的第四盤,很多人認為李世石發揮的不好、機器不打劫等等陰謀論一直甚囂塵上,而Deepmind團隊的響應也不是特別多。直到去年底,Deepmind團隊宣佈要進行更多的對弈。

連戰連勝的神秘高手Master最終宣佈就是AlphaGo

開心的小李:至少哥贏過AlphaGo一盤,你們都沒贏

於是就有了文章開始的那一幕,一個名為Master的高手橫空出世,只在對戰平臺上與職業棋手下超快棋,並且保持了60勝0負的驕人戰績。隨著60盤的落幕,Deepmind的黃博士也希望棋迷能享受這60盤棋。

谷歌創始人謝爾蓋布林、CEO皮柴去年造訪中國棋院,圖片來自微博穀歌黑板報

最新的消息是中國棋院與穀歌方面有了接觸,棋迷和電腦迷有望看到柯潔與最新版本AlphaGo的慢棋比賽。

Libratus VS人類

棋類的競技專案,是資訊全公開的。以圍棋為例,第一個子落下之後,棋盤還剩下360個點可以選擇,依次類推。但是有些競技對抗不是這樣,是資訊不完全公開的,有玩家都不知道的黑幕。比如Deepmind希望挑戰的星際爭霸2這個遊戲,開局後地圖上就有黑幕,是看不到對家在怎麼操作的。

德州撲克的牌型大小規則

德州撲克無疑也是這種遊戲。這是一個在歐美盛行,國內不怎麼太流行的遊戲,雖然現在玩家業多了起來,但遠不如鬥地主普及。大概的規則是每人發兩張暗牌只有自己看到,然後再發3-1-1的節奏發5張名牌,七張牌組成最大的牌型,按照同花順-四條-葫蘆-同花-順子-三條-兩對-對子-高牌比大小的順序看誰的牌更大。

玩家只能看到自己的兩張底牌和桌面的公共牌,資訊不完全

人工智慧在20天內贏了人類玩家176萬美元的籌碼

比賽現場,一共對弈了大約12萬手牌

因此得到的只有下注的資訊以及幾張公共牌的資訊,資訊不完全。而高手則可以通過各種策略來干擾對方,比如詐唬、加注騷擾等等。無限注德州撲克可以隨時全下。CMU的程式Libratus就是一個通過人工智慧打造的超級程式,前不久與人類高手進行了為期20天的對抗,結果是程式在20天內贏了玩家176萬美元的籌碼,並且電腦程式相當的靈活,同樣會詐唬等手段,玩家在20天內只有4天是贏錢的,其它日子都輸。並且機器自我學習能力非常強,人類頭一天發現的弱點,第二天就不會再犯一樣的錯誤。

CMU的科學家與River超級電腦的合影

CMU就是著名的卡耐基-梅隆大學,他們提出了反事實遺憾最小化(Counterfactual regret minimization)演算法,讓機器自己對弈了若干億次之後積累了機器的最優策略。人機德州撲克大戰的電腦則使用的是匹茲堡超級計算中心的Bridge,每個節點128G記憶體,使用600-700個節點,這是開放使用的最強的超級電腦之一。

人工智慧讓失業的人越來越多?

如果都機器幹了,要人幹什麼?即時也是差不多。在GPU的案例當中,筆者看到過這樣一個案例,農場通過機器學習技術來讓電腦視覺識別莊家與野草,讓噴灑農藥的機器只給野草噴農藥,而過去這種體力勞動則很多需要人工來完成。這就產生了問題,人工智慧會搶人的飯碗嗎?

超強的國際象棋軟體並未成為人與人對弈的絆腳石,反而是訓練助手

在筆者看來基本是杞人憂天的想法。事實上我們今天的電腦大量使用了之後,會計這種職業也並沒有消失。人下國際象棋已經下不過電腦了,但職業國際象棋大師依舊存在並且存在的相當好,電腦成為了他們的助手。

訓練平臺有很多,但並沒有出現類似人類大腦的AI上帝

另外一方面,今天對於機器學習的研究很多還都是前瞻性的,並且專案與項目之間是獨立的,比如AlphaGo的訓練平臺用的穀歌的Tensorflow,有特殊的獨家訂制硬體TPU,一般的超級電腦能不能運行不好說,棋力下降恐怕是一定的。事實上也沒有一個大一統的人工智慧上帝,又能下圍棋,又能玩德州撲克,項目之間是獨立的。而這些應用普遍對計算能力要求非常高,在短時間內,我們似乎也看不到大面積普及的可能性。

自毀的天網?

理想中的烏托邦?

最重要的是,未來什麼樣子是沒人知道的,可能有科幻電影中的天網也可能是烏托邦,最終的結果都是人做出的決定,我們要相信人有足夠的智慧不會讓強大的人工智慧帶來災難,在未來人工智慧將成為我們生活中的一部分,一如今天的智慧手機。