您的位置:首頁>手機>正文

四位頂級AI大牛縱論:深度學習和大資料結合的紅利還能持續多久?

雷鋒網按:

這輪 AI 熱潮的很大一個特點就是底層技術方面在打通,雖然說過去對通用人工智慧大家曾經有過很高的期望,但一直沒有落地。這次,深度學習給大家帶來了很多機會,使得我們在底層技術方面有了越來越多的共性。然而深度學習並不是萬能的,那麼它的局限性在哪裡?當遇到天花板時又該如何呢?

4月8日,在 ADL 第78期“深度學習:從演算法到應用”的 Panel 環節,四位頂級 AI 學術大牛同台縱論驅動這一輪 AI 浪潮的底層技術,主題為“深度學習和大資料結合的紅利還能持續多久”。

從左到右分別是:山世光、顏水成、李航、俞凱(雷鋒網現場拍攝)

四位分別是:

中科院計算所研究員、博導,中科視拓創始人、董事長兼 CTO 山世光

360副總裁、 首席科學家顏水成

華為諾亞方舟實驗室主任李航

上海交通大學研究院、思必馳創始人兼首席科學家俞凱

於 2017 年 4 月 7-9 日舉辦的中國電腦學會學科前沿講習班(CCF Advanced Disciplines Lectures,簡稱 ADL)第 78 期,是由 CCF 和 KDD China 聯合主辦的高端學術及技術系列性品牌活動。

下面是雷鋒網對 Panel 環節的整理(包含不改變原意的刪減)。

底層技術在打通,聲、圖、文領域相互借鑒

山世光:

今天的三位大咖裡,俞凱老師做語音辨識,顏水成老師主攻視覺方向,而李航老師則在自然語言的理解處理領域非常資深,而且在更加廣泛的人工智慧上問題上也有研究,包含了聲、圖、文三個領域。我們今天討論的題目就是“深度學習和大資料的紅利在 AI 領域還能持續多久”,既然不同研究領域的人都坐到一起了,那我們就先講講這個大家互相跨界的情況。為什麼這麼說呢?因為我個人覺得這一輪AI熱潮很大的一個特點就是底層技術方面在打通。雖然過去我們對通用的人工智慧曾經有過很高的期望,但是實際上一直沒有落地,但是如今深度學習給大家帶來了很多的機會,而且底層的技術有了越來越多的共性,比如說卷積神經網路不僅在語音裡面有用,在自然語言處理裡面也有應用,所以我想請三位元從這個視角談一下,這一輪AI在通用技術方面有什麼樣的進展?

俞凱:

稍微糾正一下,大家不要以為我是做語音辨識的,我一定要說這句話,為什麼?我所做的事情其實是口語對話系統,包括語音辨識、語音合成等大家可以想得到的東西。更重要的是,我做的是對話,或者說是以交互為主要方式的人機口語對話系統。

對話實際上是認知控制,你可以認為我做的是以口語作為主要通道的感知加上認知,在這一點上我和李航老師是有重疊的,都是交互的自然語言處理。我為什麼會提這個?因為聲、圖、文,如果從這個角度分的話,實際上都可以看是成感知層面的東西,但是它後面所對接的都是理解、交互的控制、人的決策和推理,這些部分是在聲圖文領域的從業者或多或少都會涉及到的,無論是顏水成老師還是李航老師。所以我想把它分成兩層,從感知上看我們做的不一樣的,但是後面的東西,大家做的很多都是類似的,比如大家會做到理解這一層,而我還會做到交互這一層。

關於這一輪的AI潮,我說一下自己的感受。我先拋一個觀點,凡是在機器學習範式上一樣的東西,聲圖文全都可以用,而且任何一個機器學習方法在這三樣裡面都可以用。什麼叫範式?比如說分類問題,CNN之所以在語音辨識裡用的多,很重要的一點就是它能夠處理高度非線性的映射,有非常好的分類能力。只要是面對這樣的問題,就一定可用,所以我們現在也很關注圖像方面的東西。

(山世光:這個我可能會有不同意的觀點,我個人覺得更多的是學Feature。)

只要是能夠歸結為範式性的東西,第一是分類,第二是回歸,這是最典型的兩類事,第三是序列標注。只要能歸屬這三類的,幾乎都可以通用,只是用的方法不一樣。

李航:

你剛才提到深度學習和大資料的結合紅利,以及人工智慧在技術層面上的打通,未來在應用層面上也會有很多的機會。

現在在UC Berkeley有一種研究,就是給機器人看一段“人開門”的視頻,機器人在看完視頻之後,可以學會自己用手去開門。以前這種運動和視頻的理解是完全不同的領域。大家自然可以想到相關的,比如我跟你說一段話,這個機器會不會理解,能做什麼事情,這種可能性在未來應該是有的。在深度學習、大資料這些技術的延長線上,假設有很多的資料,以及很強的計算能力,這種跨模態、跨領域的應用,應該是未來發展的一個增長點。

顏水成:

大部分人對於通用智慧的理解,目前還停留在概念階段。可能大家主要想的是通用人工智慧是什麼樣的,但是對於怎麼樣讓機器實現或者產生通用人工智慧,其實討論的不是特別多。總的來說通用人工智慧暫時是遙不可及的事情。

山世光:我把剛才這個問題換一個問法。比如說過去做人臉職別,我們可能連電腦識別領域的其他的子問題怎麼做都不關心。但是現在不一樣,現在要做人臉識別,只看人臉識別的論文肯定是不行了,還要看其他類似領域或者更通用的論文。從這個聲圖文這三個大的領域來說,它們之間的相互借鑒和技術層面的交叉,我覺得已經越來越多了。像CNN是從圖像領域裡面起來的,1989年就開始在做了。不知道俞凱老師是不是可以介紹一下,在語音方面的應用和圖像方面的應用會有什麼樣的差別?

顏水成:

根據我的觀察,在聲圖文領域裡,聲音的問題相對來說比較少一些,比如像語音辨識、TTS、或者聲紋識別,而圖像領域的問題太多了,而且落地的方式比語音多很多。這也許是為什麼電腦視覺領域的從業者比語音辨識更多。

山世光:

俞凱老師同意這個觀點嗎?

俞凱:

我覺得顏水成老師是一語中的,但這個觀點我肯定是不同意的(指聲音領域的問題相對較少的觀點),其實是語音的人看起來借鑒圖像的人比較多。

顏水成:

但是深度學習在語音上是最早成功的。

俞凱:

實際上不只是深度學習,真正圖像的人看語音的論文相對來說比較少的,這跟整個領域的覆蓋有關,所以我覺得剛才是一語中的,主要就是對問題的挖掘,這跟整個的歷史發展是相關的,這是事實。但是倒過來講,我是不太同意的,原因很簡單,語音放在那,它就是一個模態,裡面涉及到環節非常多,所以就會出現一個現象,真正搞語音的人出來創業的比較少,特別難做,為什麼呢?因為你必須什麼都懂,包括那些學術界還沒弄出來的,但是你必須弄出來,才能最終變成一個系統。

顏水成:

所以它是一個閉環的,包含麥克風陣列、降噪、語音辨識等一系列問題。

俞凱:

語音最大的特點是什麼呢?它不像圖像,任何一個子問題馬上都能看得見,你必須得繞一個圈,要麼回答你了,要麼看到識別的結果才可以。它的鏈條是非常長的,從剛才說到的硬體、軟體、信號、特徵、模型、再到後處理,這一系列完了之後才能看到一個結果,很難知道哪一塊做的好或者做的不好,因此對後面的結果有重大的影響。如果你從中單獨拎出去一塊,想要直接評估它的指標並不是那麼容易,所以這個是語音發展的一個特點。

我為什麼把它當做特點呢?因為它既是好處也是壞處。壞處就是說,對於整個領域的問題,大家的認識不夠大,我也在聯合一些語音圈的同仁,把一些問題明確的提出來。好處是什麼呢?就像賣鞋一樣,如果各位去賣鞋,你是會去都有鞋穿的地方去賣,還是去一個沒有鞋穿的地方去賣?兩個各有好處和壞處,如果都不穿鞋,你就沒市場了。如果都穿了鞋,你怎麼賣?市場飽和了。所以從語音的角度講,我的感覺是,在研究問題的提出上可能是under-developed,但是在問題的解決上跟圖像相比其實是over-developed。

我舉一些例子,比如剛才提到的互相借鑒的問題,大家直接就談到了深度學習,很多人看待語音的角度,“不就是分類的問題嘛”,反正有深度學習的人,有圖像領域的人,有全世界的人,大家都能解決這個事。好,我們都來借鑒,大家的成果都可以用。但是我看這個事,不是從分類的角度去看,我可能要去改它的criteria,什麼意思呢?比如說,我們現在要做語音辨識,我是給一定的聲音,然後識別出文字,這是一個criterion,我訓練的時候,在傳統的語音辨識模型裡面,它是一個隱瑪律可夫模型。我要訓練的就是一個聲學模型,如果我換一個特別難的criterion,就會使我的測試和訓練是匹配的,就不會存在很直接的過訓練的問題,因為過訓練不單單是這個問題,還有一個準則不匹配的問題。

所以我們很多時候會關注這樣一類,這些角度是不一樣的,實際上是在範式上有所不同。所以今天提到的大資料和深度學習這塊,我的第二個觀點是什麼呢?

我個人認為,從具體的深度學習方法中跳出來,其實在深度學習的發展歷史中,它會經歷範式的變化,在第一個十年,大概是06年到16年,實際上第一個八年吧,我認為深度學習和大資料的結合在傳統機器學習範式上幾乎達到飽和,後面還可以再研究,但是它的邊際效益降低了。

什麼叫傳統?比如說分類問題,比如說回歸問題,它們的範式都有一個特點,我把這個特點稱為開環學習。就是說你有一個模型,我有一個資料進來,你要優化一個準則,然後你出去,就這麼簡單,你只需要去想這個模型怎麼變。但是從2013、2014年開始,出現了另外一個方向,這個方向可能跟大資料在一定程度上有矛盾,因為前面的開環學習,必須要有足夠多的大資料,而且什麼叫多?不是數量,一定指的是品質,要能夠覆蓋各種各樣的可能性,完了之後你去學它,主要依靠大資料,以及模型強大的非線性運算的能力。到了後面出現了一個問題是,“我沒有資料怎麼辦”,或者“我資料不均衡怎麼辦”。於是我們有了強化學習(reinforcement learning),生成對抗網路(GANs),還有微軟的對偶學習(dual learning)。這些學習都有一個特點,可以歸為一類,叫閉環學習,什麼意思?它的資料也好,它的準則也好,它都不是一個開環的,都要有feedback signal,這個feddback signal往往是從不可預計的外部環境來的。

在你們做了前面所有的學習的時候,比如監督學習(supervised learning),它的系統是你預先設計好的,所以你必須收集資料,必須預先設置好signal,但是到了第二個階段,這些signal是沒有設定好的,它是自己出來的。比如說強化學習,它是和環境交互,比如說生成式對抗網路和對偶學習,它是和自己交互。這個紅利能持續多久,取決於這個範式的變化,這是我拋的第二個觀點。

山世光:

其實我覺得視覺和語音領域,還是借鑒很多來自于自然語言理解領域的一些技術方法,比如說上一代的一些模型,已經在視覺領域裡面用了好多年,在深度學習出來之前,基本上是這一套。那麼除了這個之外的話,據您(李航老師)的瞭解,還有什麼樣的技術可能是在原理或者歷史上,也借鑒了自然語言理解的技術?或者反過來說,自然語言的理解領域的同行們,他們會不會也關注語音或者視覺這些領域的進展?

李航:

剛才你說那個現象,以前可能在自然語言和其他的人工智慧領域之間也是這樣,大家不會關注視覺和語音方面的事情。現在這個界限慢慢越來越模糊了,大家會互相借鑒,這個現象可能是歷史上沒有發生過的。然後你們剛剛說的這個聲圖文,其實“文”裡面有一個和聲、圖本質上不一樣的地方,它有這個符號(symbol),它的本質的特點就是在語音辨識以後,轉換成了符號。在語言表達的時候,我們認為我們能夠理解一些概念,傳達一些概念的時候,其實是有對應的符號的,這個就是跟語音和圖像不太一樣的地方。

說到深度學習,剛才俞凱老師說的我也挺同意的,

2014年左右,有一個頂峰過去了,下一波從我們自然語言處理的角度來看的話,怎麼樣能夠把深度學習的技術neural processing和symbol processing結合起來,是自然語言未來必然要去解決的問題。

這裡面有很多挑戰,首先就是目前還不清楚人的大腦裡面這種符號到底對應的是什麼東西,怎麼樣能夠像做CNN一樣擴展現在的深度模型也不是很清楚。符號其實是挺硬的東西,而深度學習、神經網路是很軟的東西,我們處理人的語言,包括對話的理解,從文本裡面獲取知識,理解文本的內容,這些應用都是需要這種軟、硬處理的結合。我認為自然語言處理和深度學習未來發展的重要關鍵就是“怎樣做neural symbolic processing”,這塊是可能跟其他兩類不太一樣。

聲、圖、文怎樣落地?

山世光:

我最近其實特別羡慕做語音的,為什麼這麼說呢?因為語音這個領域,它處理的結果直接變成了符號,但是視覺這塊,我們自己說一圖勝千言,好象是說一張圖可以有很多很多的符號出來,但是它其實和非常精確的命令,比如說我們去控制一個東西,和語音以及語言是直接相關的,從這點來講的話,語音就有非常豐富的內容,可以很精確的去表達,這也是為什麼說語音的應用比視覺更早了一步。特別是語音辨識,跟自然語言理解的連接更加直接一點,而視覺這塊就稍微弱了一點,但是最近兩年有一個專門話題是vision和language(視覺和語言),大概是從2015年才開始的,之前也有人做,但是做的很爛。2015年之後看起來好像有一些聲稱通過了圖靈測試,但是我覺得還是有點弱。從這點來講的話,比如說做APP,我自己去創業的時候,別人都會說視覺能不能做一個單獨的APP給用戶用,而不是說作為一個錦上添花的東西嵌入到一個已有的系統裡面去,是不是視覺會有這種缺陷?

顏水成:

現在還是有不少這種純視覺的APP的,比如美圖秀秀、FaceU,這些就是典型的視覺。我個人覺得視覺這個領域的話,因為它經常可以有不同的創新,比如說今年非常典型的熱點就是短視頻的生產和聚合,各大創業公司(以今日頭條為代表),以及傳統的IT公司(比如360、百度、騰訊),都在推動短視頻,這些東西跟傳統的純粹圖像分析不一樣。短視頻興起後,你的計算模型的efficiency,推薦演算法等,都會跟以前完全不一樣。比如圖文的時候,可以用surrounding text做一些事情,那麼短視頻出現之後的話,可能就沒有什麼太多的caption(字幕)或者title(標題)的東西,這個時候主要依賴的是視覺的東西。無論是學術界工業界,其實對短視頻的分析的投入和研發的力度是加強了的。雖然聲音還在裡面,但是可能對於文本的依賴性變弱了。從視覺維度來說的話,深度學習和大資料結合紅利又一波又要來了,而不是到了瓶頸期。

山世光:

就是視頻的結構化、符號化和後端的搜索、應用的連接。

李航:

這是個挺好的例子,其實剛才我們提到的語音,俞凱老師做的東西跟語言相關,只不過是從語音對話的角度去看這個東西,其實語音和語言比較容易自然的結合在一起,現在已經變成一個相對比較大的領域。我對未來的預測是,真正做語音辨識的人會越來越少,而做語音對話的人會越來越多,這是一個整體的大的領域,而語音辨識是其中一部分。

顏水成:

對於語音對話這塊,我個人的觀點有點不一樣,對話非常依賴於語料,這樣的話,只有兩類公司比較適合做這個事情。一類的話就是有search engine的公司,還有一類就是以騰訊、微軟為代表的,有instant message產品的公司,比如微信、Skype。這些公司有天然的優勢。

李航:

我們倆說的其實不矛盾,這個領域有這樣的應用,那麼自然就需要將語音、語言的處理技術融合起來。相對來說,傳統的語音辨識和語言處理的人會越來越少,而在更大的應用背景下,更大的技術範圍內,人會越來越多,這是我的預測。

俞凱:

其實是這樣,對話也分很多種類,剛才所說的open domain(開放領域),其實只是其中的一小類,而且是離商業化最遠的一類。

顏水成:

但是老百姓最期待的可能是這個玩意。

俞凱:

其實不是,從投資的角度、以及技術的角度來講的話,最集中的就是垂直領域的任務性對話,這個是一定的。

顏水成:

對,這是落地性非常好的,但是

我們看到的科幻片,或者老百姓他不能區分什麼是task,什麼是open domain。他們想的是,可能會有一個新的機器人出現,它可以安慰我,給我提供各種各樣的資訊,但是我們現在真正能夠提供的,還是像Alexa Skills這樣的東西。

俞凱:

從這個角度來講,其實那些比較open的語料,對於研究來說是有一定價值的,對於未來暢想也很有意思,但是從實際落地和真正的研究語義區分角度來講,其實大公司並沒有優勢,原因非常簡單,就是在機器學習的範式上,它不再是一個基於離線語料的學習,尤其是對話決策這一類,機器學習是需要線上和環境交互,才能真正去學的,而這樣一類事情,全世界都才開始做。所以我覺得,細分下來的話,在對話的領域裡面,至少有聊天、問答、任務性對話三個比較難的課題。我把open domain看成是特殊的聊天。

這三種用的技術都不一樣,而它的商業化模式區別也比較大。所以我會有一個感覺,可能細分能讓大家把這件事看的更具體一點。回答剛才山世光老師提到的關於圖像商業化這個問題,我也再說一個觀點:不解決痛點,只解決癢點。什麼意思呢?就是我一天不上微信,我簡直就不行,我昨天兩點鐘到了賓館,我睡覺之前一定要看微信,因為在飛機上沒法看,那個是痛點,真的很痛,我如果忘了這個,比如說李老師給我發了微信,我如果不知道,這後面就麻煩了,但是如果我不打開那個對話APP,這是沒事的,所以這是癢點,這一點特別關鍵,它到底是疼的還是癢的。而從視覺的角度上講,其實我的感覺是有很多痛點的,而且比以前還痛,這就是為什麼,雖然現在語音的發展潛力非常大,但是從現實的情況上來看,整體上視覺公司估值已經比語音這邊高,而整個核心的應用是一個什麼東西呢?安防。安防這件事情是非常清晰的應用。剛才提到的好幾類,包括說這個APP的問題,第一要區分你做這個APP的性質是什麼,到底是工具性,還是社交性的,如果連這個都不區分的話,你的方向就不清楚,你就不知道,技術在裡面占多大比例,工具性的占的比例高一點,但是社交性的、遊戲性的技術比例可能很低很低。而在安防領域,其實圖像是完全dominant的。

顏水成:

安防其實也有個問題,其實公司都是都希望自己的技術能直接與用戶做交互,而做安防的話其實是默默的在後臺弄這個東西,普通老百姓不一定知道這個東西的存在,這可能是它的一個缺點。其實我覺得做視覺的人,還是希望能讓用戶看見,就是做2C(to customer)東西。

俞凱:

我個人感覺,如果是2C的話,也只有兩種情況,一種情況就是你就是一個感知工具,這個感知工具是不可或缺的,比如輸入法,這個在自然語言處理裡面是完全不可或缺的東西。還有一個方向就是必須得是個系統,單獨語音可能不行,單獨圖像可能也不行,它可能會以其中一個為主 ,但是必須是個系統。

顏水成:

我覺得可能要等到AR眼鏡所有的技術都成熟了,而且用戶量比較大了,才能夠讓視覺成為dominant的東西。

山世光:

會不會把希望寄託在了一件不可能發生的事情上?大家可以現場調研一下,有多少人願意天天戴一個AR眼鏡。

顏水成:

請問現場有多少人體驗過HoloLens?(現場觀眾舉手),看起來二十分之一都不到。我們現在在座的根本沒有多少人知道AR當前的現狀是怎樣的,沒有體驗過AR眼鏡目前處於什麼水準。我第一次帶HoloLens眼鏡的時候,只是在實驗室裡面體驗了十分鐘,用起來特別麻煩,因為微軟一定要把它的帳號跟HoloLens綁起來,又不好輸入,我又不熟,搞的非常痛苦。但是有一次我太太恰好去外邊旅遊,我一個人在家裡,我就用了整整半天的時間,在家裡把HoloLens設置好,把裡面各種各樣的功能體驗了一遍,然後就覺得這個東西還不錯,離我想像的科幻電影裡的樣子又近了一點,但是還是有問題,HoloLens太沉了,視野太窄,而且續航也不太給力。後來看到Lumus這個專門做光學鏡片的公司,它的產品能夠把資訊從側面投影出來,通過光波導這種形式把信號反射到你的眼睛裡面,能把眼鏡做的和真的眼鏡大小差不多。這樣的話,極有可能能做到一款和普通的眼鏡大小差不多的AR眼鏡。

此外還有一些人在做SLAM技術,以及一些配套的手勢控制的技術。特別是當我看到Lumus的那個眼鏡,加上一個叫Infinity公司的SLAM技術,合在一起的時候,你就會覺得這個眼鏡可以做的很小,並不是遙不可及的,我覺得AR眼鏡發展的腳步比我們想像的快了一些。所以大家有機會的話,應該去體驗一下。

深度學習加大資料的模式會面臨天花板嗎?如何解決?

山世光:

我們還是回到這個話題上來,我解讀一下這個話題為什麼這樣去設置。其實這裡面有兩個問題。第一個問題是說深度學習加上大資料這樣一個模式的,會不會出現天花板的情況?昨天余凱(平線機器人創始人兼 CEO,前百度研究院執行院長)的PPT裡面正好有一張圖片,橫坐標是資料量,縱坐標是performance,那麼這個曲線的走勢是會逐漸趨於平緩呢?還是會一直往上走?

第二個問題就是天花板出現了之後怎麼辦,就是你有了大資料,但是達到了天花板,你還沒有滿足用戶的需求,那你還有沒有其他的技術。人很多時候並不是依靠大資料來學習,我們是不是在下一波里面會更重視這種不需要大量資料的學習演算法。之前也有討論,有多少人工智慧,就有多少人工資料標注的工作,是不是可以避免這個問題?請三位從這兩個角度解讀一下。

俞凱:

我把我剛才說的擴展一下,先倒著來說,就是第二個問題,

我的一個基本觀點就是閉環的將會成為未來的一個研究主流,甚至有可能是工業界的主流,它最大的特點就是對於人工標注資料的需求大大降低,這個是我特別明確的感受。

比如GAN,它是機器自己生成資料,只是這個生成方法是閉環的,所以使得它生成的資料特別好,要是強化學習的話,直接和環境進行交互,它們利用都不是一個一個正常的、離線的、大規模的人工預標注。因此從第二個問題的角度上講,我會認為閉環學習是一個比較大的方向。另外一個事情就是,觀看機器學習的整體發展進程,

我特別同意李老師的觀點,他說的是符號學習和深度學習,我的觀點就是資料和知識雙驅動,我覺得這個方向將會是未來特別特別重要的方向。

李航:

關於第一個問題,其實大資料永遠解決不了長尾問題,自然語言處理的這個傾向非常明顯。比如說現在的輸入法、語音辨識,在有專有名詞、術語、或者夾雜英語單詞的時候,肯定識別不好,不管你灌多大的資料。因為你收集的語料越多,新詞的量也在同時增加,永遠會有長尾的詞出現,那麼怎麼樣去處理?至少現在用深度學習或者自然語言處理的方法,還不能很好的解決這個問題,其實語音辨識也是一樣的,還沒有完全解決這個問題。但是人肯定不會有這個問題,一個是語言的使用能力,你可以認為是人類幾百萬年進化出來的能力,讓你在聽到一個陌生的單詞的時候,可以利用你的語言能力做推理,做聯想,做判斷,來彌補這些問題。我們現在的深度學習,或者整個人工智慧領域都沒有這樣的技術去彌補這樣的事情。這塊的話,明顯 說明大資料、深度學習不是萬能的。我們可以在未來短期的時間裡面,解決一些問題,比如剛才說到這個輸入法的問題,我可以把它變成personalised(個性化),或者是context dependent(基於上下文)來處理,可能做的更好一些。模型上,我可以嫁接在sequence to sequence learning這種大的框架裡面,我可以把一些事情做的很漂亮,也很有效。但是本質上,並不是像人一樣處理長尾現象,因此大資料、深度學習肯定不是萬能的。

山世光:

其實之前俞凱老師講到自動駕駛的時候,就有一個collide case,比如說車禍,它其實不是經常發生的,很難採集這樣的資料,但是這個我們也有討論,是不是可以合成這樣的資料。但是如果能合成出來大量的這類資料,而且是很接近真實的,那也許就不需要深度學習了,因為你本來就知道這個事情怎麼產生的。

顏水成:

其實說到長尾問題,讓我想起去年在上海紐約大學,Zhang Zheng老師組織了一個關於neural science vs. computer science的討論。人是怎麼解決

長尾的問題呢?當時我們就覺得人腦裡面有可能有兩個模型,一個叫參數模型,一個叫非參模型。其實長尾這個東西,可能就是由幾個instance存在那裡。參數模型或者深度學習的模型有兩個能力,一個是能分類,能做prediction,同時還有一個能力,就是能判斷對這個樣本(能)不能prediction,(如果不能,)那麼就把這個樣本拉出來,用非參方法一一比較一下。

人是怎麼處理長尾問題的呢?我們當時有一個假設,其實也沒有很多道理,就是聽起來比較reasonable。你的學習過程中非參樣本是逐漸增多的,比較多的時候就形成一個概念,參數模型就會增加一個節點。但是當你長久不看,就遺忘了,有些概念就消失了,有些樣本就會退回到參數模型裡面,這可能能夠解釋,為什麼有些時候你會覺得有個東西可能認識,但是死活都想不起來,這個時候就意味著參數模型不能識別樣本是麼東西,但是可能在非參模型裡有。在非參模型存的資料可能非常非常多,這樣的話就不停地去搜,不斷地想,想著想著就想出來了,有可能在非參數模型就把它匹配上了。

李航:

其實我不太同意這個觀點。人是肯定是有這部分的能力,這是模式識別的思維方式。比如你第一次聽“他在微信裡潛水”這句話,你可能要琢磨一下這是什麼意思,你第一次聽,你可能會想潛水有什麼特性,做一些聯想,然後大概猜出這個是什麼意思,這是個長尾的事情,語言理解原理有部分是聯想,也有一些推理,當然你得到的結論也不一定對,有可能誤解了。對這塊認知科學也沒有說清楚,人的推理,或者自然的聯想,或者比喻的能力(理解比喻和造比喻的能力),到底有什麼不同?我個人理解,有一部分能力已經超脫了模式識別的能力。讓現在的電腦架構做這樣的事情的話,相當於需要做窮舉的全集的近似度計算,當然也不完全是這麼回事兒,但是人為什麼能夠很快地做這樣的相似度計算,判斷說這個事情是這麼個事。

俞凱:

我覺得剛剛顏水成老師說的這個角度我是比較同意的,他說的兩種不同的方式去做,一個方式是計算的方式,另外一個方式是存儲和定址的方式。這兩個方式的結合實際上是人腦的一個點,計算的方式需要存的東西比較少,但是需要線上去推理,定址的話就相當於比較簡單的映射。

山世光:

我覺得李航老師說這個,它不僅僅是一個簡單的存儲,而是可以去聯想,可以舉一反三的。

俞凱:

長尾的資料問題,其實還有另外的一件事情,目前學術界不是特別重視,但是工業界其實特別重視,未來很可能會推動大資料和深度學習的結合。由於傳統問題很多被解決了,所以它會推動新問題的產生,這個新問題是什麼呢?我舉例子,就是剛才提到的performnce問題,這個指標,不是真實的產業界定的,是學術界在最開始定義這個問題的時候提出的,比如說我舉這個例子——詞錯率(word error rate),但是這個指標現在看起來好像已經快達到飽和了,人們就會說,實際上99%和97%的識別率有差別嗎?那麼什麼東西有差別呢?我們就要想,語義理解可能有差別,那麼你怎麼定義有效的語義理解?你定義出來以後,你的輸入就不是文字的語義理解了,你現在說的是語音,現在識別的有錯誤,在這個錯誤的情況下,導致的理解是什麼樣,你就把它連成一個新問題,這個問題可能就會變成對於語音終極的理解的誤差有多少,但是這個誤差怎麼定義現在沒有一個共識。我覺得這會產生一系列新的問題,而這些問題會推動深度學習新的模式和新型態的大資料結構的發展。

怎樣用一個具體的指標評價AI的整體進步?

山世光:

我覺得這個非常好,我在計算所經常跟一些做系統的人打交道,他們就特別不理解我們這個領域,他們認為,“你們老是說今天有進步,明天有進步,到底這個AI領域的進步是怎麼評價的?”他們的評價標準很清楚,有個benchmark,新機器造出來,把這個benchmark一跑,我現在是多少,原來是多少,很清楚,但是整個AI界他們找不到能夠理解的,你去年是這個指標,明年是這麼一個指標,怎麼評價AI整個的發展?最後大家沒辦法,寄希望於圖靈測試,但是圖靈測試不能很好的度量進步。這樣一個指標是不是我們這個領域值得思考的問題?

俞凱:

我覺得指標會不斷地變化。其實說白了,

任何科學最關鍵的是先定義問題,然後才是怎麼去解決它。

科學的發展往往是問題導向的,我感覺現在就處在一個新問題出現的前夜,但是這種事在學術界其實很難被人承認的。根據我自己的經驗,我曾經投過很多關於變一個criterion的論文,但是這種論文被接收的概率比我改一個演算法被接收概率要低得多。

顏水成:

其實圖像跟語音、語義還有另外一個很明顯的差別。圖像是一個universal problem,無論中國還是美國做的其實是一模一樣的,但是語音和語義還有一個language問題,即使外國做的很好,但是那個模型並不一定能夠在中文上做到非常好的效果,這個可能還是有一些差別的。

山世光:

再回到剛才的這個問題上,我想問一下俞凱老師,在語音辨識的這個領域,你剛才提到詞錯率這個指標基本上要飽和了,這是說再增加更多的資料性能也沒法上升了呢?還是說已經做的足夠好了?

俞凱:

我們這個概念就是說相對錯誤率的下降。在語音辨識歷史上,相對錯誤率下降30%屬於歷史上大的進步,之前還有幾個技術也是這樣,相對錯誤率下降30%,可問題是我現在的錯誤率只是10%,你相對下降30%這個概念,已經變成了7%,你再相對30%,變到了多少?你會發現實際的絕對值特別小。我說的飽和就是表面上看技術還是在不斷地進步,但是給人的感覺就是,對於這個問題本身,它的邊際效應已經特別低了。現在比較難的是處理抗噪、倆人同時說話等問題。因為這樣的東西,它的錯誤率特別特別的高,那樣的情況,它的研究價值就大於工業價值,否則很多事就讓工業去做了。

之前微軟將Conversational Speech Recognition的詞錯率做到了5.9%,和人的錯誤率已經一樣了。從某種意義上講,在限定的條件下,這事已經算解決了,但是在非限定條件下或者非配合條件下,這個事情才剛剛開始。

無監督學習

山世光:

回到“如何在沒有大量的資料情況下怎麼去做學習”的這個問題。之前我們也討論,一個思路就是做強化學習,做交互相關的這種可能。另外一個就是說貝葉斯網路和深度學習的結合形成一套新的機制,也許可以在一定程度上解決這樣的問題,大家是同意還是批判?

李航:

貝葉斯網路那個不好評論。但是我覺得非監督學習一定要小心,其實非監督學習指的東西現在越來越不一樣了,傳統的非監督學習真的是一大堆資料,learning from the scratch,找到這個資料裡的規律,沒有任何指導。我們人其實無師自通能學到一些東西,聽起來好像能做這個非監督學習,但是這個能力的本質是不一樣的。人類進化這麼長時間,我們學習的能力在DNA裡面已經有了。我們生長的過程當中,學到了大量的知識,也就是說成年之前學到很多東西,在成年的時候,一般的人學任何一個東西,你也可能說小資料,或者無監督的學習,但是其實之前的那些知識、能力都會説明你。這種意義上其實大家也在做,就是遷移學習,半監督學習,最近他們比較關注的meta learning(穀歌提出來的東西)。就是說我學各種各樣的分類器,各種各樣的知識,這些東西怎麼樣能有效的結合起來,説明我只用小資料或者不用資料,就能把這些新的東西學好,這樣學習的範式更接近人,比如Bayesian Program Learning這種新的想法,都是在朝這個方向走。要麼人給的知識,要麼機器自動學的各種各樣的知識,如何把這些有效的利用起來,再去學新的知識,這塊我覺得是很有意思的方向。

山世光:

我覺得李航老師說的這個引到了一個非常重要的話題上來。我就觀察我家小孩,我感覺他在七八歲之前,學每一個技能其實都挺困難的,比如你讓他系個扣子的話(這個跟智慧沒有什麼關係),他要學蠻久的,但是你會發現他不同層面、不同角度的能力,在逐漸積累一段時間之後,在有了自學的能力時候,智力的發育不是線性的,那時候就會突然爆發性的自己去學。這個對機器來說,它可能有視覺、聽覺等各種各樣的能力,但是沒有把這些結合在一起,去誕生一個智力,這塊如果有突破話真的會是一個大的突破。

俞凱:

我的感覺其實還是回饋通道的問題。其實很多時候是因為扣子系不好無所謂,他不知道應該把扣子系好,或者說扣子系不好就沒有批評他。就是他的學習能力強了,我感覺有一個很重要的問題,他無時無刻都有新的資料接觸,這些資料是沒有label的,但是有compact,所以他對compact感知形成了一種感知能力的時候,他有這個信號了,然後他就可以把整個的學習流程,加上好的結構,然後貫穿起來。小的時候是因為這個信號就很簡單,打一下疼了,餓了就叫,這是非常簡單的。當這個compact越來越豐富,而且當他越來越能理解這個compact以後,他的學習能力才能體現出來,我感覺這也是對外部認知回饋信號的能力。

李航:

這個我同意。小腦最基本的能力都像是監督學習(supervised learning),而大腦和其他海馬體還不太一樣。小腦的話,比如小的時候學游泳,學騎自行車,通過大量的訓練,後面有一定的能力積累之後,這些動作都是一樣的,還包括走路。在這個環境裡面,就像俞凱老師現在說的,你有一些回饋,然後你會根據reward去調整,以組合的方式去學習。

山世光:

這好像也不不僅僅是小腦,剛開始學一加一等於二這個基礎的時候也不那麼容易,當然對於我們來說非常非常容易,但是他開始的時候其實不是那麼容易,不過到了一定時間之後就會很快。

李航:

反正也有相似的地方吧,我也同意,好像不太完全一樣。這樣形容比較好,我感覺學動作這樣的東西,和學知識性的東西(數學、語言),仔細觀察的話也不太一樣。

現場Q&A

問:

剛才俞凱老師提到的閉環學習,像生成式對抗網路這種,雖然說它不需要很多標注資料,但是還是需要很多資料的。還有之前提到的one shot learning,它之所以能夠從一個樣本學出來,是因為它需要很多經驗知識。所以我覺得所謂的這些小資料它還是需要很多大資料來給它提供經驗知識的,所以想聽聽四位老師的看法。

俞凱:

我剛才在那個觀點裡提了兩條,第一條是從開環學習到閉環學習,第二條就是從資料驅動到知識和資料雙驅動,恰好就把這兩條都說了。我覺得這裡面有一個關鍵點,就是無標注的資料和有標注的資料是有本質區別的。因為無標注的資料你可以認為它的獲取是沒有cost的,就像一個人的成長一樣,你只要在社會裡面,在現實世界裡面,你就會接收到這些資料,所以這件事可以認為是沒有cost的。如果說可以使用比較無標注的資料,通過閉環的辦法,使得無標注資料的內部結構可以被發現,這件事本身就是一個非常大的進步,你可以認為它是不需要資料的,我一般指的是不需要有標注的資料,我認為這個至少在現階段是一個可以被認可的點。

第二個事情就是one shot learning問題。實際上就是像人學習一樣,當我們說人能夠學的很厲害,不單單意味著人這個個體有學習能力,還意味著你也上學。如果你不上學,沒有知識的積累,也沒有辦法變的很厲害。所以當你說需要這些經驗知識的時候,我覺得這個不能說需要大資料,那個東西不是一般意義上的資料,更多的是某種模型結構的積累,就是剛才前面提到的有監督的、非監督的,參數、非參數的,非參數那部分就有可能是定址,他去尋你的memory裡面的址,那個memory是人類的記憶,這種記憶是結構化的記憶。所以這個東西是經過人類多年的積累已經現存的東西,它不是一個需要重新獲取的東西。我的觀點就是會有這個範式的變化,但是這兩個模式都是未來很重要的模式。

顏水成:

人的學習並不是start from scratch,其實從父母的基因那你已經繼承了很多有用的資訊過來了,那個也是通過大資料積累起來的東西。至於one shot learning,其實人有一個能力就是,新的class(類別)出現之後,就可以很快對這個新的concept(概念)建立一個模型出來。早期的時候有人做了一些研究,就是說你假設有了一個一千類的模型,現在又有了一個新的類,但是我給你的資料就是三四張圖片,那你怎麼樣可以把這個一千類模型adapt成一個一千零一類的模型。此前有人做過相關的研究,但是後來這塊基本確實沒有人來做了,但是我覺得這個方向其實還是有一定的學術價值的。

李航:

關於人的基因裡面語言學習的能力,有很多的研究,有一個很有名的例子,就是觀察小孩如何學習英語動詞的過去時態。研究發現,小孩在以開始的時候是基於實例來學的,如果你說“Daddy came home”,然後他就會說“Daddy came home”,也沒有generalize,過了一段時間他發現這個動詞的過去時都會加ED,小孩就會困惑,有一段時間既會說“Daddy came home”,又會說“Daddy comed home”,就會出錯。再過一段時間,就真正學會了過去式有特殊的變化形式。他會準確的說“Daddy came home”,同時也知道別的動詞是加“ed”。從這個例子可以看出來,人在語言學習的過程中,有generalization的能力,但是開始的時候就是基於instance,比如你說“came”,他就記住“came”,後來他就會嘗試有保守的去做generalization,有時候還會做over-generalization,但是又會做簡單的調整,最後能夠正確的把這些區分的比較好。還有很多其他的例子,這說明人還是有先天的能力的,否則很難解釋怎麼那麼快學到這些東西,但是這個現象還是非常複雜的。

喜欢就按个赞吧!!!
点击关闭提示