淘新聞

谷歌大腦是如何煉成的:萬字無刪減版全解密(一)

雷鋒網按:如果說到在機器學習領域領先的公司,想必你不會忽略穀歌。從谷歌翻譯到從機器視覺,穀歌一直努力將機器學習應用於可能想像的任何地方。本文會講三個故事,它們在 Google 翻譯向 AI 的成功轉型中整合在了一起:一個技術故事,一個制度故事和一個關於思想演變的故事。本文源自紐約時報,作者Gideon Lewis-Kraus,雷鋒網編譯,未經許可不得轉載。

序:你=你所讀的東西

在十一月初的一個週五晚上,東京大學人機交互教授 Jun Rekimoto 正在電腦前準備演講。當他在流覽網頁時,Rekimoto 突然發現社交媒體的時間流上出現了一些有意思的內容。雖然這些內容很輕易就看出是穀歌機翻的,但品質已經有了很大的提升。在訪問了 Google Translate 並進行測試之後,Rekimoto 驚訝不已。雖然已經夜深,但 Google Translate 的進展之快依然讓 Rekimoto 久久無法入眠。

隨即,Rekimoto 在他的博客中記下了這一發現。首先,他在 Google Translate 上輸入了菲茨傑拉德的代表作《了不起的蓋茨比》裡的一個英文節選段落,點擊翻譯後,與兩個日文版本(一個是 1957 年 Takashi Nozaki 的版本,一個是現代 Haruki Murakami 的譯版)進行對比。Rekimoto 在和我溝通的一封郵件中提到,Murakami 的譯文帶有強烈的個人風格,用語非常細膩。而谷歌翻譯的版本雖然還帶著機翻的痕跡,但更加通俗易懂。

隨後,Rekimoto 通過日譯英對 Google Translate 進行測試。他把自己口頭翻譯的《乞力馬札羅的雪》的開頭部分簡單地輸入進電腦中,發現翻譯結果幾乎可與海明威的原作媲美。當然,海明威是以行文通俗易懂聞名的,雷鋒網也請大家來猜猜,哪一段是 Google Translate 所作,哪段是原版文字呢?

NO. 1:

Kilimanjaro is a snow-covered mountain 19,710 feet high, and is said to be the highest mountain in Africa. Its western summit is called the Masai「Ngaje Ngai,」the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude.

NO. 2:

Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called「Ngaje Ngai」in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.

即使對於一個美國土著而言,如果不發現 2 號段落的小小瑕疵,其實很難分辨其中的差別。Rekimoto 表示,其實他對 Google Translate 再熟悉不過了:畢竟在 24 小時前,它只是一個會翻出如下文字的機器:

Kilimanjaro is 19,710 feet of the mountain covered with snow, and it is said that the highest mountain in Africa. Top of the west,「Ngaje Ngai」in the Maasai language, has been referred to as the house of God. The top close to the west, there is a dry, frozen carcass of a leopard. Whether the leopard had what the demand at that altitude, there is no that nobody explained.

在 Rekimoto 把測試結果發在有著一萬多關注者的 Twitter 後,在短短幾個小時內,上千人也 po 出了他們「調戲」機器翻譯的結果。有些幾乎完美,而有的則啼笑皆非。

在東京破曉之時,Google Translate 就在這一夜攀上了日本推特的頭條熱搜,甚至把 cult 動畫和人氣偶像少女組合都擠了下去。每個人都在困惑:谷歌翻譯怎麼會突然這樣讓我們眼前一亮?

四天之後,全球的上百名記者、企業家和廣告商蜂擁到穀歌位於倫敦的辦公室中,聆聽穀歌的特別發佈會。賓客們享受著谷歌翻譯 Logo 形狀的小餅乾,手中拿的是印有不同國家語言的紙張(我的是挪威語),此外還被邀請下載 Google Translate 的軟體。桌子上的甜甜圈和冰沙都用小牌子標注出各種國家的風味。過了一會,大家被引到了一個黑暗的小劇場中。

Sundar Pichai,Google CEO

倫敦市長 Sadiq Khan 首先上臺致辭。他以「我有一位朋友」開場,提起對方對他說,市長大人總讓他想起穀歌。市長說,「為啥,因為我什麼都懂?」朋友否認道,「不是的,是因為你就像穀歌一樣,總是試圖把我的話補完。」會場傳出了善意的笑聲。隨後,谷歌 CEO 桑達爾•皮查伊上臺發表演講。

皮查伊此行的一項議程是蒞臨慶祝谷歌倫敦國王大道新大樓的建成。此外,基於他在不少場合都宣告谷歌的未來將以「AI 為先」,這句話引來了不少猜想。在他的演講中,皮查伊提到了這句話的真實含義:在未來,穀歌的產品不再是傳統計算程式設計的結果,而是「機器學習」。

谷歌大腦——這是穀歌一個鮮少被提及的部門,實際上已經成立了五年時間。這個部門一直遵循著一個原理:人工「神經網路」能夠像嬰兒一樣,通過不斷試錯來理解世界,而這能讓機器擁有像人類一樣的靈活性。這條圭臬並不是什麼新主張——早在上世紀 40 年代,也就是現代電腦早期階段就出現了。但少有科學家將這一想法落地,畢竟它看起來太遙遠也太神秘了。直到 2011 年,當穀歌大腦計畫採用這一方法攻克人工智慧,採用機器學習來優化穀歌的移動平臺。比如,安卓的語音辨識現在已經能媲美人類水準;比如,圖像識別也已經在一年前首次運用于消費者產品上。

Google Translate 於 2006 年上線,目前已經成為穀歌最受信賴及流行的應用之一。每天,Google Translate 會面對 5 億個月度活躍用戶的 1400 億個不同語種的單詞。它不僅僅是作為一個獨立應用而存在,而且作為 Gmail、Chrome 及許多其它穀歌產品的集成功能,我們將它作為一個按鈕——一個毫無障礙、非常自然的電子組成方式。皮查伊在臺上提及,直至敘利亞難民危機之時,公司才意識地區間的翻譯交流是何等重要。在他背後的螢幕顯示,在那段敏感時期,阿拉伯語與德語互譯的谷歌翻譯請求增長了五倍之多。(這也與皮查伊的想法一致,他在印度出生成長,而雷鋒網要指出的一點是,印度是一個多語種國家。)谷歌翻譯在此後也已經在穩定增加語種的豐富性,並完善功能,但在過去四年來,品質提升的速度已經大不如前。

直至如今。上個週末,雷鋒網也提及了 Google Translate 的大更新,系統已經將大部分請求轉換到基於人工智慧的系統進行處理。這一更新在美國、歐洲和亞洲都已經上線,包括西班牙語、葡萄牙語、法語、德語、中文、日語、韓語及土耳其語在內的語言,都可以實現與英語的互譯。而其它上百種語言也在緊鑼密鼓地更新中,以每月預期八個的速度計畫在年底前更新完畢。而對於谷歌工程師而言最大的驚喜在於,他們只用了九個月時間就提前完成了。A.I. 系統所取得的進展速度之快,大概就相當於在一夜間掌握了以往技術的總和。

皮查伊對於含蓄的古典文學尤為著迷,一個月前,他曾告訴我,在他山景城的辦公室裡發表演講時,PPT 上有些文字還是需要 Google Translate 來輔助顯示,畢竟並不是所有人都像物理學家 Robert Oppenheimer 一樣能讀原版的《博伽梵歌》(雷鋒網注:印度聖典,由梵語寫就)。因此在倫敦的發佈會上,幻燈片上出現了博爾赫斯的經典名言:「Uno no es lo que es por lo que escribe, sino por lo que ha leído.」(評判一個人不應看他所寫,而應看他所讀。)

帶著微笑,皮查伊大聲地讀著由舊的 Google Translate 展示的令人有些尷尬的直譯版本:「One is not what is for what he writes, but for what he has read.」

而在大螢幕的右邊,新版的 A.I. 系統版本則展示了一個更加信達雅的譯文:「You are not what you write, but what you have read.」

這句話用來描述新版的 Google Translate,卻也恰如其分:在某種意義上,Google Translate 的確是第一台通過「飽讀詩書」而通曉知識的機器。

穀歌決定圍繞 A.I. 而重組公司,實際上是全球機器學習熱潮的第一批擁躉。在過去的四年裡,穀歌、Facebook、蘋果、亞馬遜、微軟及中國的百度,這六家公司都圍繞人工智慧展開了一場聲勢浩大的「人」備競賽,而大學自然成為了兵家必爭之地。企業紛紛向頂尖的學術院系拋出橄欖枝,許以極大的資源和自由。比如矽谷眾人皆知 Facebook 惜才如命,CEO 小紮會親自通過視頻和電話來瞭解公司即將納入麾下的優秀研究生,七位數的年薪起跳根本不在話下。而參加人工智慧的相關學術會議的人士幾乎增加了四倍。科技巨頭們在關心的,不僅僅是小打小鬧的技術進步,而是如何掌控接下來即將來臨的計算平臺:普適性極強、無處不在的人工智慧。

「人工智慧」這個詞似乎總是出現得這麼理所當然,但實際上它一直是引起混亂和爭議的源頭。想像你正置身上個世紀 70 年代,在路上攔住了隨便什麼人,掏出了一個智慧手機並向她展示裡面的 Google 地圖。如果你嘗試說服她,你不是什麼奇怪巫師,而你拿出的「黑色護身符」也只是一個比阿波羅時光機更為強大的微型電腦,穀歌地圖實際上毫無疑問,就是一個能向她展示什麼是「人工智慧」的東西。的確如此,這個應用能夠為你制定更棒的路線,比如從酒店到機場——顯然,機器能比你做得更快更好,此外,它還能對交通進行評判,規劃最佳路線,並當你「誤入歧途」時,重新判斷你的位置並推薦新的路線。

實際上,今天沒有人會把穀歌地圖與「高貴的」人工智慧相提並論。當我們在使用智慧這個詞的時候,是帶著情感色彩的。我們所理解的人工智慧,是能與其它初級簡單的事物所能完成的東西不同的。現在,我們能用自動化完成一項任務,那麼所涉及的相關技能就會降級為一種單純的機制。而今天的穀歌地圖,似乎還不能對應上我們所想像的「人工智慧」這個詞,而只能充其量叫作「機器」(robotic):只接受一個明確的請求(從某處到另一處),並盡力滿足這個需求。因此,人工智慧這個詞所能對應的實際工作已經在縮小。

皮查伊將目前的人工智慧應用與「通用人工智慧」這個終極 boss 區分開來。後者不會涉及具體的指令,而將是一個通用工具,為一般情況下的一般用途而設計。皮查伊認為,公司未來的運轉將主要依賴通用人工智慧。想像一下,如果你告訴穀歌地圖,「我要去機場,但我中途要停下來為我侄子買個禮物,」一個通用版本的人工智慧服務——就像三年前的電影《Her》中,斯嘉麗•詹森所配音的那個無所不在的助手一樣。她能夠像你的親密朋友一樣,知道你的一些基本情況:侄子的年齡、喜歡給孩子買什麼、哪能找到一個購物商店。但一個真正智慧的地圖也能做一些親密朋友所考慮不到的事情,比如你侄子的學校裡,孩子們最近最時髦玩些什麼。一個智慧的機器能夠通過錯綜複雜的資料抽絲剝繭,並尋找出那些甚至我們自己都渾然不知的需求。

人工智慧的新浪潮,也就是 AI 助手——就像蘋果的 Siri、Facebook 的 M 及亞馬遜的 Echo,都是機器學習的產物,作用大同小異。這些公司在消費者身上做著機器學習之夢,但是機器學習並不一定只局限在消費者身上。三星的醫學影像子公司今年宣佈,其新款的超聲設備能夠檢測乳腺癌,而管理層也在努力增加人員貯備,以擴大電腦的行業應用。DeepMind 在 2014 年被穀歌納入麾下,雖然當時的預測顯示,人工智慧在十年後才能戰勝人類,但 3 月份,AlphaGo 就以 4:1 戰勝了圍棋大師李世石。

1950 年,艾倫•圖靈提出的測試指出,電腦如果能在五分鐘的文本交流中成功欺騙一個人類對話者,那麼就算測試成功。是否機器能在兩種語言中自由切換,並能很好地理解人類的語言進行對話?谷歌大腦的成員們正在推動和幫助監督 Translate 項目,滿懷信心地相信這樣的機器能夠成為未來的一位通用人工智慧助手。

接下來雷鋒網要展示的,就是 Google 的研究人員和工程師們(剛開始只有一兩個人,後來變成三四個,最後成長到了上百個)沿著這一方向取得巨大進步的故事了。這是一個非常少見的故事,尤其是因為它與我們慣常對矽谷的印象相悖。這個故事裡面,沒有那種在車庫裡搗鼓一些東西,認為自己可以改變世界的人。它不是一個關於科技解決所有問題的故事,也不是一個關於技術會導致世界毀滅的故事。它也與顛覆無關,至少不是我們通常認為的那種顛覆。

事實上,裡面有三個重疊的故事,它們在 Google 翻譯向 AI 的成功轉型中整合在了一起:

一個技術故事,一個制度故事和一個關於思想演變的故事。

技術故事與一個公司專注於一個產品的團隊有關,在這裡他們只用了別人四分之一的時間,對一個舊產品進行了改進和測試,並形成了全新的版本。

制度故事與公司內一個小而有影響力的人工智慧團隊有關,他們對一些古老、未經證實和廣泛不適用的計算概念出於直覺的信念,顛覆了幾乎每一家公司。

思想的故事與一些長期堅持不懈的認知科學家、心理學家和工程師有關,他們看似不合理的信念,最終激起了我們對技術以及意識本身理解上的範式的轉變。

第一個故事是 Google Translate 的故事,它發生在山景城的九個月時間裡,解釋了機器翻譯的轉變。第二個故事是穀歌大腦的故事。第三個故事是深度學習的故事,它發生在蘇格蘭、瑞士、日本、加拿大等地遙遠的實驗室,時間跨度七十多年,它甚至改變了我們對那個會思考的自我的認知。

這三個故事都與人工智慧有關。七十年的故事與我們對人工智慧的期待與渴望有關,二十五年的故事與它在近期可以做什麼有關,而那個九個月的故事則與它現在能做什麼有關。這三個故事都是對概念的驗證,而所有的一切都只是開始。

以上是全文第一部分,敬請期待雷鋒網的後續文章。

via

NewYork Times