淘新聞

阿裡雲 iDST 總監初敏博士:AI技術發展與商業化之路 | GMIC 2017

雷鋒網按:4 月 27 日,GMIC 2017(全球移動互聯網大會)北京站開幕,主題是「天·工·開·悟」。今天上午,阿裡雲 iDST 總監初敏博士做了題為「AI 技術發展與商業化之路」的分享,雷鋒網對速記做了不改動原意的編輯和整理。

初敏博士 2009 年加入阿裡巴巴,目前在阿裡集團 iDST(Institute of Data Science and Technologies)負責語音辨識,語音合成,自然語言理解,知識問答,對話管理等人機交互相關技術研發以及產品研發。

非常高興有機會跟大家分享我們最近做的事情的感悟。最主要的是分享感悟。剛剛簡先生(雷鋒網按:竹間智慧科技創始人 & CEO 簡仁賢,他在 GMIC 2017 上做了題為“AI 時代的人機情感共鳴”的分享)講 AI 是不是有泡沫,其實大家已經開始擔心了。最近的 AI 跟過去相比已經開始商業應用了,技術的商業化正在開啟,但這個過程沒有想像的那麼容易。我認為在未來幾年裡,只在說的人會越來越少,大家會看到某一些泡沫似乎在降下去,但我覺得會有更多實際幹的人出來,真正的把這個技術用到每個行業中,讓我們真正體驗到用,而不僅僅是在媒體上看到的宣傳。

我今天想跟大家分享的,一個是技術的發展,一個是真正的商業化之路是會非常艱難的。

人工智慧的進步帶來了哪些變化?

人工智慧這一波的熱度是資料驅動的智慧時代的到來。

雖然大家表面上關注的最主要的是演算法,是從深度學習開始的。現在還有強化學習、無監督、半監督等等各種各樣的學習方法。事實上這些學習方法真正能起到作用、能帶來改變,是因為現在有很強大的計算能力,以及有各種各樣的資料貫穿在一起。

我們做機器學習的人,這麼多年下來,有非常強大的經驗。你在演算法上的改變,往往不如資料種類的豐富性,以及規模增大帶來的好處更大。

這兩年能看到很大的進步,

歸根到底的原因是計算能力。

計算能力包括原來在單台機器上,後來是在一大組 CPU 集群上,包括 TPU 等等各種探索,都是在解決計算能力的問題。因為聯網把資料聯接起來了,資料從不同的源到一個結點上進行統一學習,增強了學習效果。這一輪所謂的 AI 真正是大資料驅動的,雲計算+大資料+演算法的進步來推動的。

從另外一個應用的角度,大家體會最強的是互聯網上的改變。這一輪演算法技術,推薦、搜索、推送,我們已經能體驗到一部分。今天我們感受到的變化更垂直化、個性化、智慧化,在很多地方的細微改變都是因為資料的聚匯,以及學習對人、對各種細節學習能力的增強,使我們感受到細微的變化。

另外就是每個個體感受不那麼深的,給傳統工業帶來了很多變化。比如,我們用在工廠的資料裡,監測工廠的故障率、提高產品的良品率。可以預測城市生活中未來 N 個小時的交通情況,哪裡會堵、哪裡會出現風險,通過信號燈的調節能不能更好的疏通交通的通暢性。這些技術的確在方方面面,有一些是我們能夠感受到的,有一些是在日常生活中不能直接感受到的,但都在發生著變化。智慧化的過程已經開啟,而且正在飛快的進步。

這件事情不是一個企業、一個人、一個機構能獨立完成的。如果真把所有的技術從頭到尾打通,有非常多的工作要做。從底層的計算能力,到垂直的語音、圖像技術,即便是個 Bot,也要把這些東西集成起來。最終這些技術能不能是放之四海而皆準的,往往都是需要根據場景、根據垂直行業的需求來進行改變。一個系統不可能十年都不變,它要跟著外界的情況發生改變。一個系統第一天上線,我覺得它的效果很好,不是它一定要好一輩子的。你要把資料灌進去,要讓這個系統 24 小時不停地轉,這個轉的過程也是學習的過程。只有這樣的系統才真正的能用起來。很多時候我們看到上線一個東西,3 個月的效果很好,過一段時間就用不起來了。

這個技術不應該是在象牙塔里了,而是應該在很多地方推,這個推的過程是很多環節的銜接。在某些媒體上傳播的時候,我們只看到了美妙的想像的部分,沒有重視到實施過程中的各個環節。只有這些東西都做好,我們想像中的那個美妙的結果才能得到。商業化的過程中最大的困難,每個企業、每個環節想引入這些技術,想在你的場景中用通的時候,實際是要有思想準備的。不是閉著眼睛從哪裡接根管子就用得非常好了,而是要有決心,要紮下去,打透了,才能得到非常好的結果。

人工智慧真的需要分工協作,我們大家的定位在什麼地方,我需要誰來説明我。另外就是人才的儲備。AI 很熱,這個領域的人才非常熱。我自己觀察到的還有一種人才也非常缺失,其實是怎麼用的人。比如,一個機器人在我們的環境中提供客服,應該怎麼交互、怎麼用、怎麼設計、入口在哪裡,這樣的人才是更缺失的。我自己在公司裡跟很多部門合作的時候都碰到這個困難,最終反而是技術人員好像更理解一點。其實這是不對的。

我覺得真正懂得 AI 技術在某一個場景中真正該怎麼用的人才也是非常稀缺的。要打通的是各處的,只不過大家立足點不一樣,你側重的人才會不一樣。

阿裡雲的兩大語音交互研究方向

阿裡雲做的更多是底層,是以平臺來提供的,底下會有集群、雲計算的平臺、大資料的平臺,以及人工智慧的各種專項技術。做這些專項的技術,語音辨識本身都是投資非常大的,不是每個企業都值得自己去投資。因為做這些事情,既要很多人,又要很多錢,又要很多資料和很多計算能力,平臺形式的提供是更為合理的。這也是為什麼我們作為雲計算公司會做很多這樣的工作。各個層面的行業的打通,是各個領域的專家更懂的,後面就應該是各種解決方案。我們會提供各種基礎能力,而真正的解決方案是跟合作夥伴一起打通,真正把這個垂直行業落地,工作量是非常大的。

因為我自己帶的是語音交互的團隊,我給大家舉一個例子。底層也是一樣,有識別。語音辨識合成是大家傳統講的語音技術。

現在有兩個方向,一個是所謂的人機對話。

各種應用 APP 裡可以嵌入這種交互。但是,在你做 APP 交互的時候,因為你知道的事情比較少,能做的會比較窄。你從作業系統開始做,系統底層知道的更多,能通過這個交互實現和打通的資訊就會更多。在我們自己內部做的時候也是這樣,更重要的是以作業系統為依託,走到各種端,它可能是手機,也可能是車,也可能是電視,或者其他設備。當然,也可以提供一個簡單的接入,讓各種 APP 接入進去。

另外一個部分也是非常重要的,就是資料價值的發現。

我們在阿裡自己的雲棲大會上,會直接接上語音轉寫,我在這裡的講話就被即時的轉譯成了文字。這樣的資料就會非常有價值。這樣的轉寫在法庭等各種場景都能用起來。如果我們把語音變成了文字,這就變成了很珍貴的資料資源,就可以發揮很大的價值。很多東西會隨著時間發生非常大的變化。

在去年的雲棲大會上,我們做過一次 ET 的演示。交互是一個最表層的東西,最終它是要把很多深的服務串起來。前提是我們背後有很多的資源能夠接入。即便你理解了,如果我沒有後備的服務是沒有用的。這就是非常大的配合,一層是做語音、語言理解、對話的管理,但最後一定要把它轉成某一個服務的查詢。ET 是我們包裝阿裡雲人工智慧技術的代言人。這種即時的大會字幕,即時的語音能轉成文字,中文、英文都在自己的系列會上用得非常成功,基本上已經是標配,包括「雙 11」時做的節目。不同的場景,很難有一個固定的 Bot 能完成。我們能很快的在不同的場景做,實際上是因為我們可以根據場景快速的定制各種 Bot,根據場景的只是一個非常重要的能力。

語音辨識的難點何在?

語音辨識是很重要的,最大的問題是演算法的複雜度。因為有的時候複雜的演算法的效果好。我需要即時,基本是在複雜率和即時之間的平衡。

還有資料的規模。你會問到方言覆蓋率怎麼樣、能說多少種語言,其實這些轉化到最後都是你有什麼資料、你有多少計算能力、你多快能把這些語言做掉。能做中文、能做英文,其實做所有語言在技術上是一樣的,差異是在於你的資料來源,你有沒有那麼多資料,你有沒有那麼多計算能力可以很快的把這些東西搞出來。在真正用的時候,實際上還是資料和計算能力的變化,以及模型反覆運算能多快。如果我有很強的計算能力在一個月裡可以比較 20 種方法,我的進步就會很快。如果一個月裡只能反覆運算一輪,我會進步的很慢。最終很多時候我們比的是這個。

各種場景的自我調整。我們做即時字幕的時候,在技術性會議上是做的很好的。可以假設想像到,我去一個醫療會議上,可能會很痛苦,因為裡面有太多的醫學專有名詞,我們的系統沒有。怎麼根據具體的場景,讓它快速的 adapt 過去。

(演示環節)

剛剛稍微聽了兩個片段。語音合成技術這些年已經比較成熟了,剛剛放的兩段是我們合作的兩個場景,一個是語音播報頻道。另外一個是面向兒童,講故事的。這個技術也是可以定制,不同場景需要的聲音是不一樣的。我們面臨的最大挑戰還是如何快速的根據不同場景定制出不同的聲音,適應不同的需求。這是商業應用時最大的挑戰。今天做到的效果總的來說還是不錯的。但是,這兩個聲音的場景如果換一下,其實是完全不好用的。這意味著我們需要根據場景來做定制化。

語言的理解與對話。

簡先生講的 Bot 也是理解和交互。我覺得交互的目的是找到答案。其實是根據你的知識點在哪裡,你的知識點是什麼樣的組織,我們才根據這個技術做這個事情。很重要的源是知識,知識的組織,以及知識從哪裡來,這是真正應用的場景。一個企業做客服,你就需要有自己的客服知識庫,這個事情是別人不能替代你的,一定是自己提供的。技術能提供的是什麼?是如果你有自己的知識庫,我是不是能很快的把它變成很好的問答的能力,變成和人交互的能力。

信息的抽取。

一旦把語音變成文字,可以做很多自然語言的抽取。我們在客服場景裡做的就是質檢。因為今天所有的電話都被錄音下來了,服務的品質好不好,用人去篩查,這件事情基本是做不到的。我們已經把阿裡系的所有電話都語音辨識出來,在文字層面做質檢。這是螞蟻客服的效果,本來他們有 30 多個人做 1% 的抽檢,因為現在用了這個技術,可以做到 100% 的覆蓋,人還會留一些,但工作量會減少很多,而且做到了 100% 的質檢。類似的技術還可以用來進行產品的監控、危機的識別。

客服可以打電話,我們稱之為熱線。通過 IM 的交互,稱之為線上。傳統的做法,電話進來是一個按鍵功能表,最後都是人工服務。它也會記錄下資料,通過資料的沉澱,我們有了知識庫,這個行為中該怎麼提供服務,可以學習到很多,最終可以進行改造。電話進來,可以用語音辨識。然後,根據人的問題進行分類,猜你碰到了什麼困難。如果這個問題是服務的機器人可以回答的,基本就可以自助的服務完成。如果是比較複雜的問題,就會輸送到不同的技能組,因為客服人員也是分技能組的。這個過程中的資料而不斷的沉澱下來,這些沉澱的資料又變成寶貴的資料資源,可以進行產品監控、異常監控,甚至是對用戶技術分析。客服是企業跟客戶接觸最多的地方,對用戶的瞭解也是最深的。傳統的客服中心,經過各種智慧化改造,它實際上變成了資料中心,會提供非常強大的資料支撐。

隨著每年「雙 11」業務量的增大,服務的請求量也是增長很快的。我們不可能通過加人來提高服務,必須用智慧手段來保證服務品質。從 2014 年到 2015 年,服務請求量的增長非常大,主要是來自 IM,是因為當年把入口放得更明顯了,用戶更容易找到 IM 的入口,請求量大了很多。那一年在自助的能力上做了很大提升,人工服務量並沒有增長,還有點下降,特別是 IM 入口,服務量下降很多,就是因為機器人能自助回答大部分問題。但是,人工電話的服務量是有所上升的。2015 年到 2016 年的變化,是因為我們一起合作了一個專案,加了語音電話進來的自助能力。到了 2015 年、2016 年,電話人工量也下降了。在 2016 年的「雙 11」,客服團隊的日子就好過很多,因為整個需要人工服務的量下降了非常多。

雖然我們自己是做語音交互的,但跟很多業務團隊做了非常深入的合作。

核心困難就是在最後一公里的落地上。只有我們有足夠的投入,那些效果才能全盤的打通。

語音接入本身就很難,經常有各種錄音。我剛剛上場前,會提示我麥克風離得近一點,要不然收音就不好。在各種場合不能控制的時候,收音本身就是很痛苦的事情。

還有不同的場景,你需要的重點的詞彙,你有自己特別的詞彙,你有自己的口語化的問題,包括你自己的知識庫。這個過程中很多環節,只有都打通了,真正的智慧才能實現。不是說今天有泡沫,而是有多少人願意實幹,不是在那兒說,而是實實在在的把每一個環節打通,智慧是一定能落地的,而且一定能帶來商業價值。有很多例子可以看到,在真正落地的時候也遇到了非常多的困難。這跟企業想做這件事的決心特別相關。

我們做的是核心技術,最終還是要依靠生態和跟合作夥伴的合作,讓智慧化的技術在每個場景中落地。我們期待著把智慧化真正的多地。

謝謝大家!