淘新聞

解密 | “雙11”晚會上,阿裡雲人工智慧ET的魔術秀

11月10日晚,在“雙11”晚上,除了國內外各路明星捧場,有一位特別的嘉賓,給這場以“買買買”為主題的晚會上增加了科技色彩。它就是阿裡雲推出的人工智慧ET。

ET 是誰?

今年8月的雲棲大會上,阿裡雲宣佈推出人工智慧ET,它從小Ai演化而來

。當時作為阿裡雲旗下的首款人工智慧機器人,小Ai在4月《我是歌手》的總決賽上,準確預測了最終的歌王得主。據瞭解,ET背後採用的是大資料AI技術,基於阿裡雲強大的計算能力,目前已經具備智慧語音交互、圖像/視頻識別、交通預測、情感分析等技能。當時在現場,ET展示了模仿馬雲說話的技能。阿裡雲首席科學家周靖人表示,ET優勢不僅僅單純陪人說學逗唱,更多體現在全域洞察和即時決策上。

ET 魔術秀的背後

“雙11”晚會現場,ET先是掃描現場5名觀眾的面部。然後,主持人讓觀眾依次隨機切牌,拿到黑色牌的觀眾轉身面向後方。其中有4名觀眾轉身後,ET再次進行掃描。最後ET 得出每位觀眾手拿的牌。

對於這個魔術秀,阿裡雲官方也即時進行瞭解密。

1. 這個魔術是真的嗎?

完全真實。由人工智慧ET真實的算出來。 

2. 魔術的成功概率是多少?

從32張牌中取5張進行隨機排列,全部的可能性為P(5,32)=32*31*30*29*28=24165120,所以成功率為1/24165120。

而通過一系列的魔術環節設計,使得最終在32種可能性裡進行計算。ET要通過攝像機來自行識別誰轉身來獲得關鍵資訊,並算出最終的唯一結果。

3. 這次魔術秀背後的原理是什麼?

事實上,這是一個經典的魔術,只是這次由阿裡雲人工智慧魔術師ET來表演。

32張撲克牌以數學方程式De Bruijn 序列排列,其原理很複雜,但結論很簡單,從這樣的序列中任意取出相鄰n個數,它們的二進位排列一定不相同。這就意味著,ET只需將5名觀眾手上的黑牌和紅牌(對應二進位裡的0和1)按順序出來,就只有一個唯一的解。

簡單來說,將牌事先按順序排列,不管怎麼切牌,排序組合的可能性縮減到32種,然後根據下面這張圖表尋找對應的排列形式,答案就呼之欲出了。

對應排列形式如下圖:

換句話說,如果你能背熟這張表,並且在知道5張牌那幾個是黑色後,幾秒內報出某個序列的花色和牌號。你也可以成為魔術師。

4. 這個魔術應用到了阿裡雲ET哪些人工智慧的技術?

A 圖像識別

ET能夠實現對通用圖片的識別,可以檢測出圖片中的具體的物品以及所在圖片的位置區域。現已經支持水果、蔬菜、常見日用戶、美食、運動器械、交通工具、植物、動物等百種以上物體的識別檢測能力。

比如ET在魔術中識別出華少手中拿了撲克牌即用到了這一技術。

在場景識別方面,ET可以判斷是屬於室內、室外、自然風景或者其他場景;

在動物識別方面,ET能判斷這些圖片中特定動物的位置資訊以及置信度同時返回每個位置的動物的相關種類,支援上百種動物的識別。

ET背後的阿裡雲圖像識別技術採用了世界領先的深度學習技術,同時結合了其他機器學習的一些演算法,使得以上功能準確度均達到95%以上

B 智慧語音交互

ET的智慧語音交互基於語音辨識、語音合成、自然語言理解等技術,實現了“能聽、會說、懂你”。

比如在與華少的交流中,ET不僅能“聽懂”華少的話並在螢幕下方即時打出字幕,還能給出相應的回復,對答如流。不同於其他語音辨識技術,ET還能夠結合演講的上下文對之前識別的錯誤進行修正。

比起各種實驗性的技術資料來說,阿裡雲更重視將高端技術的工業級應用引入ET。如,ET實現了BLSTM(雙向長短時記憶神經網路)演算法的第一個工業級應用,説明YunOS系統在IoT設備上輕鬆實現了人和設備的自然交互。

BLSTM演算法是深度學習中的一種,一般的深度學習演算法只能看到上下文的一點點,BLSTM理論上可以看到無窮遠的上下文,所以可以更好的理解人類的語言。但這就對單位時間內的計算量要求很高,阿裡雲飛天為此提供了強力支援。

C 人臉識別

阿裡雲ET的人臉識別技術已經覆蓋了人臉檢測、器官輪廓定位、人像美化、性別年齡識別、1對1人臉認證和1對多人臉識別等多個方向,用機器學習的方法,包括卷積神經網路、Supervised Descent Method等,實現了高精度和高效的技術,人臉識別在LFW上識別率為99.5%。

比如在觀眾抽取撲克牌時,ET已經完成了對5位觀眾的面部識別,並利用人臉演算法建立了器官輪廓定位,以便之後識別出是否有人轉身。基於此,ET能夠輕鬆識別出黑牌觀眾轉身的動作,準確報出5名觀眾的手牌。

基於這些業內領先的技術,阿裡雲將ET的能力對外輸出。在人臉方面,可提供多樣化的雲服務和手機用戶端SDK支援,實現人像檢測、人臉美顏美妝、性別年齡表情識別、VIP識別、人臉認證、安防檢測等多種功能。

5. 阿裡雲人工智慧ET在完成這個魔術中需要克服哪些問題?

整個過程中需要ET要具備高精確度、高即時性的視頻識別和語音能力,並用人類的語言和主持人溝通交流。因直播環境受到場地、燈光、音效的影響,語音辨識、視頻識別都會受到很大考驗。

6. 阿裡雲是如何在人工智慧領域進行佈局,並實現突破的?

阿裡雲人工智慧ET代表的是阿裡雲語音辨識、語音合成、自然語言理解、即時圖像識別、機器學習的綜合技術。這些技術的底層都依賴於深度學習演算法以及大規模計算能力。一套複雜演算法模型的訓練往往需要千億級別的樣本資料,這就對背後的計算能力提出了很高的要求。

阿裡雲的飛天作業系統為ET提供了前所未有的計算能力。阿裡雲首席科學家周靖人領導的人工智慧研究機構iDST為ET配備了全面的演算法庫,以推動ET在多個領域不斷進化。

7. 阿裡雲人工智慧ET還能做什麼?

借助深度神經網路等機器學習技術,阿裡雲人工智慧ET已經具備利用資料為一整座城市提供思考和決策的能力,目前,杭州政府聯合13家企業,為這座擁有2200多年歷史的城市,安裝了一個人工智慧中樞——杭州城市資料大腦。在杭州蕭山區的部分路段的初步試驗中,城市大腦通過智慧調節紅綠燈,車輛通行速度最高提升了11%。

另外,阿裡雲人工智慧ET在今年4月份湖南衛視《我是歌手》的決賽中,在直播現場成功預測了李玟奪冠。

在其他領域,ET已經開始擔任法庭書記員、超級交通警察、影視投資經理、客服等角色。