李飛飛:我把今天AI所處的發展階段稱為“AI in vivo” | Google I/O 2017
雷鋒網按:在穀歌 I/O 2017 的最後一日,主場館海岸線圓形劇場迎來了本屆 I/O 最具重量級的機器學習講座:由四位分屬不同領域的 AI 女性大牛展開巔峰對話,漫談 AI 的過去、現在與將來。四位元嘉賓分別是
語音辨識、電腦視覺、資料視覺化和生物計算
領域的頂級 AI 學者與工程師。而本場對話無關技術,純是幾位傑出科學家對各自領域深度學習發展歷程的反思,以及對將來趨勢的思考。
四位嘉賓是:
Francoise Beaufays,穀歌語音辨識技術研發帶頭人
李飛飛,穀歌雲首席科學家,斯坦福 AI 實驗室負責人
Fernanda Viegas,計算式設計(computational design)專家,谷歌 Big Picture 資料視覺化部門負責人之一
Daphne Kolller,Calico Labs 首席計算官,Coursera 聯合創始人
本講座由穀歌雲副總裁 Diane Greene 主持(以下稱”主持人“),分為三個環節,每個環節的話題分別對應 AI 的過去、現在與將來。
話題一:AI 技術是如何發展到深度學習時代,走到今天這一步的?
Daphne Kolller:
我認為,深度學習革命讓我們得以解決當今各領域的許多現實難題,它讓這一切成為可能。
這場革命,是一系列機器學習研究進展的結果——深度學習來臨之前,大約有 10 到 15 年相當艱辛的研究,用於研發人工設計的模型。構建這些模型需要大量其它領域的專業知識,以及深入細緻的思慮考量。研究人員需要人工雕琢模型的大量細節,由於缺乏資料,往往要用我們的直覺判斷作為構建模型的依據。
而當我們得到更多資料,尤其在文字、圖像、語音領域,就逐漸開始用資料來替代這些主觀洞察力。但是,過去這 10 到 15 年間的技術研究成果,在今天仍然很有價值。這裡有兩個方面:
在研究方法上,優化演算法便是那時發明出來的,是深度學習得以成功的關鍵技術之一。
另一方面,如今我們一廂情願得相信,大資料是解決一切的方案。但這僅僅對應部分領域。對其它領域而言,我們掌握的資料量充其量不過是中等,有的甚至可說是小規模。因而,
仍需要在人類直覺和資料之間做平衡,充分利用兩者的長處。
李飛飛:
我來稍微談一談歷史背景。在所有人類的科學領域裡,AI 是一門相當年輕的學科,大約有 60 歲。但在我的觀點裡,AI 啟蒙思想的根源,即對於智慧的求索,可追溯到人類文明誕生的黎明時期。
大約 60 年前,機器剛剛能處理簡單的算術。但以電腦科學之父阿蘭-圖靈為代表的思想家,已開始提出挑戰人類社會的問題:“機器是否能思考?機器是否能擁有智慧?那時,馬文·明斯基、John McCarthy 等電腦先驅聚到一起,創立了如今的人工智慧學科。AI 之父們眼中的 AI,在技術上講,與今天十分不同。但核心的願望是一致的:讓機器能學習、思考、感知、有邏輯,能開口說話,與我們交流。
AI 已經經歷了幾波技術發展:從一階邏輯(first-order logic),到專家系統(expert systems),然後是早期機器學習,再到如今的深度學習革命。
過去的 60 年,我把它稱為”in-vitro AI“,或者“AI in vitro”
(雷鋒網注:可理解為“試管階段的 AI”)。這一階段為 AI 研究的基礎問題以及眾多子學科打下了基石。後者包括機器人、電腦視覺、自然語言處理、語音處理、生物保護學(conbio)等等。這同樣是一個研究人員們不斷理解資料、尋找工具集的過程。
而 2010 年左右是一個分水嶺。這時,三個不同領域的進步終於達到了一個前所未有的里程碑高度:統計機器學習領域工具的成熟、互聯網和感測器帶來的大資料、摩爾定律預測的硬體計算性能提升。
這三者的合力,把 AI 從 “in vitro”階段,推上了一個被我稱為 “in vivo”
(雷鋒網注:可理解為“胚胎階段的 AI”)
的全新階段
。
“AI in vivo”,是一個 AI 技術向世界做出實際貢獻的階段。當下這個時間點,還僅僅只是個開頭——“It‘s just the begining”。我們在穀歌雲所觀察到的每一個行業,都在資料、AI、機器學習的推動下經歷著革命性的轉變。在我眼裡,這是一個歷史性的時刻:AI 終於開始發揮現實影響力,改造無數個行業。
我想要再強調一遍:一切剛剛開始。現在 AI 領域的工具和革命性技術,僅僅是廣袤海洋中的幾滴水。剩下的可探索空間,即我們能借助 AI 實現的事情,幾乎是無限的,再怎麼誇大也不為過。對此,如果你感到興奮激動,或許是應該的——有許多工作等著我們去做,來實現 “AI in vivo”。
主持人:Francoise,你處在語音辨識研究的最前沿。當下,語音辨識技術已經普及開來,能否向我們介紹下這一發展歷程?
Francoise Beaufays:
當然。12 年前我加入穀歌,那時,我們都想用語音辨識技術做點有用、好玩的事。但這相當得難——當時語音的品質完全不能和現在比。因此,我們從極其有限的產品著手,這樣識別一個人說的話並不過於複雜,然後一點一點地突破極限。我們需要做的,是打造一個成功的產品,讓使用者願意使用;然後以此為基礎,不斷收集新資料導入模型、不斷反覆運算,每次提高一點點。
按照該思路,我們開發了 GOOG-411,我不知道有多少人還記得它。它是一個手機 APP:你撥打一個號碼,它會問你:查詢哪個城市或州?回答之後,它接著問:“查詢哪家公司?”說出名字之後,它會撥通該公司的電話。請注意,12 年前,沒有 iPhone 也沒有安卓,大家用的還是功能機。所以 GOOG-411 的功能也很基礎。幸運的是,穀歌高層對該技術的前景抱有憧憬,支持我們盡可能得打破技術極限。
當時我們很成功。然後 iOS 和安卓誕生,一切都變了——使用者有了視覺回饋。於是我們開始構想其他的 APP 產品,那便是 Voice Searchv用語音進行穀歌搜索。我們開始做語音轉錄,把麥克風整合進手機功能的各個入口,讓使用者可以用語音做任何事。
更後來,我們試圖把語音辨識技術帶到家庭場景,比如 Google Home 這樣的設備。用語音來處理日常任務,是一個呼聲很高的訴求。我們認為智慧助手是一個很好的入口。相比用口頭命令做簡單的事,智慧助手可以用日常的自然語言與使用者問答,而不是麻煩的鍵盤打字輸入,使谷歌真正成為用戶的個人助手。
主持人:Fernanda,你曾表示要讓資料視覺化民主化。如何才能實現?必要性在哪裡?資料視覺化分析又是如何進化的?
Fernanda Viegas:
十多年前,我已經在從事資料視覺化。當時的情況很不一樣:研究非常困難,設備和現在不能比,能獲得的資料也很少,大多數並不公開。
這情況逐漸改善,現在,資料視覺化已可說是無處不在。比如,媒體也喜歡在資料視覺化的説明下,用統計數字表達複雜的新聞事件。我們喜歡的一個玩笑是:
“對於統計,資料視覺化是一道毒☆禁☆品”
——你可能都不會意識到自己在做統計,因為資料視覺化是如此善於在視覺上找規律、找異常。
資料視覺化一直在一條更加民主化的軌道上。長久以來,AI、機器學習有一項重大挑戰:如何讓我們人類理解超高維資料。這方面,Geoffrey Hinton 和同事們搞出的 t-SNE,堪稱是 AI 領域的革命性資料視覺化工具。它在資料視覺化發展史上是一項相當關鍵的里程碑。我和飛飛有類似的感覺:我們正處於如何利用資料視覺化技術推動 AI 進步的起點。
話題二:AI 在當下面臨的技術挑戰
Francoise Beaufays:
語音辨識從來都是基於機器學習,與更早期無關機器學習的技術沒什麼關係。
過去三十年間,機器學習技術一直在進化,語音辨識也不斷進步,其中一個大轉捩點是神經網路的採用。這距今不到八年,但基於神經網路的語音辨識研究在很久以前就已開始。只是由於計算能力的限制,這條路在產生大量成果之後被學界放棄,直到幾年前重新採用。這期間,語音辨識基於更基礎的技術,仍然在發展提升,例如 Gaussian 混合模型。
在技術上,採用深度學習確是一項較艱巨的工作,牽扯到延遲、規模、訓練能力等問題。當基於深度學習的語音辨識技術在生產環境部署,這打開了一扇嶄新的大門,背後是一系列的提升。另外,由於有了強大的計算硬體支援,我們能快速地從一個神經網路架構轉換到另一個。因此,我們開始探索 RNN(比如 LSTM)、CNN、基於 CTC 的序列建模等其他模型。簡而言之,採用神經網路,為我們開啟了在支撐穀歌產品的核心技術上不斷創新的新空間。
主持人:這是用於語音辨識的神經網路,我們再來聽聽能延長壽命、讓我們更健康的神經網路。Daphne,給我們講講為什麼 Calico Labs 需要你這位元世界最頂級的分子生物學與機器學習專家之一,你在那做什麼?
Daphne Kolller:
很多人可能沒聽說過 Calico,我們的曝光很少。做個簡介,Calico 是最早剝離穀歌,直接歸屬 Alphabet 的子公司。Calico 的目標是理解衰老,説明人們活得更長、更健康。
衰老其實是我們所面臨的最大的死亡風險,沒有之一。這對幾乎所有 40 歲之前發生的疾病都成立:當患者一年一年老去,死於該病的風險會指數級得增長,糖尿病、心腦血管疾病、癌症均是如此。
但諷刺的是,沒人真正知道為什麼。
沒人知道為什麼在 40 歲之後,每一年過去,都會給我們增加死於這些疾病的風險。為了對此進行理解,我們很有必要研究導致衰老的生物系統機制,從分子層面一直到系統層面。雖然我不認為我們能永生,但也許通過技術手段介入,我們能活得更久更健康。
Calico 早期有一名研究人員,其研究顯示:
僅僅某單個基因的變異,就能延長機體 30%-50% 的壽命。
而且,我們不僅會活得更長,還會以更年輕的面貌、更飽滿的健康狀態生活。
但實現這些需要搞清楚許多尚不明了的東西,還需要收集所有生物系統在所有年齡狀態下的海量資料,包括酵母、蟲子、蒼蠅、老鼠、人——為什麼這些不同物種在分子層面發生著同樣的事?
幸運的是,過去二十年間,科學家們發明出一整套衡量機制與方法,收集資料並試著幫我們理解衰老中的機體。這包括基因測序技術、微流體、跟蹤設備,記錄機體如何隨衰老發生變化。但是,沒人能把這些不同測量機制所產生的、從微分子層面一直到人口學層面的資料整合到一起。
如何整合所有資訊,精確描繪出人體如何衰老的過程?
這就需要生物學家和機器學習專家之間的合作,後者能建立模型,整合所有資訊。
我屬於少數極幸運的人,能在該領域的萌芽時期就投身進來:在 2000s 年早些時候開始從事計算生物學(computational biology)。如果說,我的機器學習算是母語造詣,我的生物學就在“流利”水準。這使我能夠與 Calico 的科學家們共事,
在兩門學科之間建立真正的合作紐帶,開發能結合兩個世界的優點——大資料和人類直覺的模型。
由於生物機體的複雜度實在太高,即便是今天這個量級的資料,我也不認為僅用資料就能重建生物體從頭到尾的完整模型。正如我在講座的開頭所講:資料,和頂級科學家的直覺,我們都需要;用以最終建立對衰老的深度理解,並預測有效的干預方式。
主持人:下面聊聊電腦視覺(CV)。飛飛,有次在 TechCrunch,你說 CV 是 AI 的殺手級應用,你想表達什麼?你一直提倡的 AI 民主化又是什麼意思?這跟雲計算有什麼聯繫?
李飛飛:
我當時是想推動更多人認識到這一點。我堅信這一點。當時的原話是:
“很多人問 CV 的殺手級應用是什麼?我會說:CV 本身就是殺手級應用,AI 的殺手應用。”
我會這麼說,有兩個理由:
五億四千萬年前,生物進化史上發生了濃墨重彩的一筆:由於某些不知名的原因,地球上的物種種類從極少,一下子爆發為極多。這被看作是進化史上的宇宙大爆炸——被稱為寒武紀大爆發。對其背後的原因,生物學家迷惑了許多年。直到最近,一個非常有說服力的理論浮出水面。這個猜想是:那時,生物進化出了眼睛。一下子,動物的生存變得主動:有了獵食者,有了被獵食者,整個物種進化軌跡從此天翻地覆。
今天,人類是最智慧的視覺動物。大自然把我們腦容量的一半都分配給了視覺影像處理,正是由於其重要性。
至於第二個理由,據估計,互聯網上超過 80% 的內容,為視覺內容。另外,感測器收集的第一大資料形式,是由可見光或不可見光組成的圖像資料。無論在哪裡,對於公司、消費者來說,以圖元形式出現的資料都是最珍貴的。
和語音辨識類似,有了深度神經網路之後,CV 實現了多項突破和長足進步。在我看來,從 2010 到 2017 的七年間,CV 最主要的進步發生在基礎的感知任務領域(perception task):物體識別、圖像標注、物體檢測等。我們也已經有了應用產品——穀歌照片(Google Photos)、自動駕駛汽車的行人檢測系統等。
我認為,下一波對 CV 的投資,將集中於 “Vision+X”,即 CV 和其他領域的結合應用。
比如說,視覺在溝通、語言中是如此重要,CV 和語言的結合,會非常有意思。醫療、生物領域的視覺應用更不必說。機器人是另一個有無限潛力的 CV 應用領域。人類研究機器人的歷史幾乎和 AI 一樣久,但現在,機器人仍處在一個非常原始的階段。究其原因,這在很大程度上是由於其原始的感知系統(想想寒武紀大爆炸)。
簡而言之,我的確認為視覺是機器智慧最重要的構成要素之一。
話題三:AI 在將來有什麼趨勢?有哪些可供展望的願景?
主持人:我們時間不多了,Fernanda,能否講講你眼中資料視覺化的未來在哪裡?
Fernanda Viegas:
當然。順著剛才飛飛的思路,既然人類有這麼複雜的視覺系統,我們不妨用它來理解機器做的事。機器學習運行于海量的資料、統計數字、概率,在某種意義上,視覺化是幫助我們理解這些東西的秘密武器。
為什麼我們應該重視資料視覺化?這有三點:
可解釋性。你是否能解釋模型輸出的東西?
漏洞可修補性。更好地理解模型,能説明你修補漏洞。
教育。視覺化在機器學習教學中扮演了重要角色。另外,如果我們利用視覺化更好地理解了機器學習系統,我們能否從這些系統中學習,提升職業水準?
最後,我想講一個有意思的例子,我們用資料視覺化發現了機器學習系統中原本並不知道的東西。前段時間,穀歌實現了 zero-shot 翻譯,即谷歌翻譯能處理未遇到過的語言組。研究人員對此產生了一個疑問:該系統的多語種資料空間是按照何種規律分佈的?比如說,資料是按語種劃分?還是,系統把不同語種混到一起,“學到”了一些語法、語義的規律?
於是,我們開發了一個資料視覺化工具來進行查看。結果發現,不同語種但相同語義的句子,組成同一個簇。不同句子形成一個個不同的簇,而無分語種。某種程度上,這可以說是世界通用語言的雛形,我們把這成為“interlingual”,即“跨語言的”。另外,我們發現,哪些相對更隔離的簇,都是翻譯品質不高的語句。這告訴了我們,資料空間的幾何分佈是有涵義的。
目前為止,AI 仍讓人感覺到強烈的工程導向屬性。我很期待在將來,藝術家、UI 設計師、科學家會為 AI 帶來什麼,有哪些我們全未想到過的可能性?這些會很值得探索。
主持人:Francoise,我想問你資料視覺化會如何説明語音辨識(笑)。但我同樣想問你:如今資料越來越複雜,比如訓練模型的標記資料,還有越來越多的個性化,語音辨識技術在走向何方?又有哪些令人興奮激動的挑戰?
Francoise Beaufays:
在語音辨識領域,每當遭遇一個新難題,我們必須要專注在它上面。我們開發 Youtube 兒童頻道的時候,就必須要專注于孩子的聲音——他們的說話方式、音域、斷句方式都和成年人不一樣。最終,我們找到了把學習成果加入通用模型的方法。因而 Google Home 現在能與兒童正常交互。
對於我們而言,Google Home 又是一個新環境,我們需要收集新資料。有了新資料之後,將其導入模型進行訓練就變得簡單直接。但是,第一次發佈 Google Home 的時候,並沒有使用者資料。因此,我們做了許多模擬:採集資料,添加不同類型的噪音,在資料上做不同類型的混響(reverberation)。事實上,我們用的資料足以稱得上是海量。我們轉錄了數萬小時的語音,然後與類比疊加增殖,最後導入模型的資料,相當於是數個世紀的語音。
世界上有如此之多的語言,語言學家說,光是使用人數在 10 萬人以上的,就有 1342 種。我們如何向如此之多的語種服務?這是一個需要在機器學習領域發揮很多創造性的難題。
李飛飛:
我相信 AI 是第四次工業革命的驅動力量之一。我從一個哲學家那裡聽來的、一句我最喜歡的話是這樣的:“獨立的機器價值觀並不存在,人類價值觀就是機器價值觀”。我很期待 在將來,來自各門學科的技術專家在 AI 領域發揮所長,只有這樣,才能真正為全人類開發 AI,而不是為一部分人而研發。
Daphne:
作為一名頂級機器學習專家,如果在五年前,有人問我五年後機器是否能像人類一樣準確用文字注解圖像,我會說不可能,二十年後還差不多。但由於飛飛等科學家的努力,這一天比我預想的早很多就到來了。
我離開 Coursera 重回生物領域的原因,是因為我認為生物技術現在已經到了指數級增長曲線的那個拐點。如果我們看看人類基因測序的歷史趨勢,其指數每七個月就翻倍,增長速度是摩爾定律的兩倍。按照該趨勢預測 2025 年的接受了基因測序的人口數量,保守估計是 1 億,正常估計是 20 億。而這只是測序,還沒有包含 RNA、蛋白質組、人體成像、細胞成像等等。
人體,是人類迄今所遇見的最複雜系統。我認為,我們正處於理解這一系統的開端——到底是什麼讓我們活著?什麼讓我們邁向死亡?我認為,有今天這一量級的資料以及不斷進步的機器學習技術,我們完全有機會用 AI 革新科學。