淘新聞

拯救懶癌晚期,阿裡發佈“天貓精靈X1”

7月5日下午,阿裡雲在北京時間博物館召開了一場發佈會,正式推出首款智慧音箱產品“天貓精靈X1”,定價499元,有黑白兩個配色,除了支援播放音樂,查詢天氣、控制智慧家居、家電設備等基礎功能外,還運用了首個商用的聲紋識別技術,其中一個典型的應用場景是購物,這在國內智慧語音設備中尚屬首例。

“天貓精靈X1”從當日起開放1000台限量公測,並將於8月8號正式進行首批發售。

此前,不少媒體已收到並紛紛曬出本次發佈會的邀請函——一個扁平的圓片,上面印有“未來,開口即來”字樣,中間有一個按鈕,按下去會發出溫柔的女聲:“我在,你說”。在這樣的深意下,“阿裡將推智慧音箱產品”的消息一時間傳得沸沸揚揚。

天貓精靈發佈會邀請函

雖然,亞馬遜的智慧音箱產品Echo早已做得風生水起,但在6月,各大科技公司卻像有預謀般相繼出手。蘋果公司的Homepod、RokidPEBBLE(月石)、喜馬拉雅的“小雅”、京東與科大訊飛合作推出的叮咚智慧音箱,包括百度和騰訊也相繼宣佈將加入這個戰場。

業內對智慧音箱的暢想,除了作為智慧家居的控制入口和內容播放的出口外,更有可能成為外賣、網約車、電商購物的新交互場景。而阿裡的入局,將這個已熱炒數十天的話題再次推向高☆禁☆潮。

這次發佈的“天貓精靈”,會為消費者帶來怎樣的驚喜?

“天貓精靈”:首個支援支付和電商購物的中文智慧音箱

阿裡推出這款產品的初衷,與目前行業內對智慧音箱未來的期望一致。“有沒有一種比觸屏更好的對話模式?我們的父母一般會用手機的通訊交流功能,但80%的App他們可能不會使用,因此這不是最好的方式,應該還有更好的。”阿裡人工智慧實驗室負責人淺雪(花名)在發佈會上說,”我們覺得,語音可能是下一代人的對話模式。”

在外觀上,天貓精靈X1採用了圓柱形的設計,有黑白兩種配色,直徑83毫米。在X1頂部中央,配有一枚靜音鍵。當用戶觸發此鍵時,X1會立刻停止聲音播放,並停止識音功能,以有效保證用戶隱私。

X1底部設計了一圈隱藏指示燈,會通過聲音來判斷用戶方位,亮起燈光以示提醒,燈光還會根據不同使用功能和場景配合進行提示,以及360°全向5M拾音麥克風。

尺寸上,X1直徑82毫米,小於亞馬遜的標準版Echo和蘋果Homepod,淺雪對此解釋道:“不想有很強的入侵感,並且它會越來越小巧、無所不在。”

淺雪在介紹天貓精靈X1

在語音控制的核心上,X1定制了業內第一顆Smart Audio專屬優化晶片,在逼近喚醒率75分貝的臨界值,能實現動態4段EQ調節,平衡好音效與高喚醒率靈敏度之間的矛盾,並且搭載了阿裡開發的第一代中文人機交流系統AliGenie,具備理解力、執行力、進化力,即快速的語義學習和用戶的喜好識別能力。

X1的另一大特色是能實現一鍵聲波配網,配網時間小於10秒,根據淺雪的介紹,“行業平均時間大於30秒”。

天貓精靈X1也融入了“聲紋識別技術”,讓設備能夠識別並且記住每個用戶的身份和喜好,特別是用於支付場景。比如用天貓精靈充手機話費,一般需要兩步:確認機主手機號、身份驗證,舉例來說,其方式是讓使用者重複讀一遍“天貓精靈-6756(四位元數字)”。

此外,天貓精靈X1還加入了電商購物功能。目前的主要方式是通過使用者的語音指令找到曾經購買過的商品,語音驗證進行下單,發貨至默認位址,並且可以進行快遞查詢和到貨提醒。

天貓精靈X1下的單可在手機淘寶App上查看

發佈會上,阿裡人工智慧實驗室產品總監釋空(花名)介紹說,“把購物語音化實際上是一個非常困難的過程,當商品量巨大的時候,淘寶商品的標題也比較複雜,要讓系統能夠自行整理和學習。”

除了自主開發的功能以外,天貓精靈X1也接入了一些協力廠商應用,比如移動健身教練KEEP,和阿裡通信的“找手機”功能。接下來,天貓精靈還將接入越來越多的應用和場景。淺雪表示,天貓精靈X1已接入西溪天堂的悅榕莊、喜來登等五家酒店,也在和國際玩具巨頭美泰合作開發物聯網玩具。

智能音箱戰爭已經打響,局勢如何?

亞馬遜Echo是目前的智慧音箱——無線音樂播放機+虛擬助手結合體的鼻祖。

自2014年推出第一代Echo,亞馬遜已經賣出了1100萬台Echo設備,在美國以超過70%的佔有率制霸該市場。但實際上,其中一半銷量來自售價僅50美元的第二代產品Echo Dot,而面向高端市場的Echo Show因其229.99美元的價格(約合人民幣1600元)優勢不大,並被不少業內人士批判加上觸控式螢幕是“多此一舉”。

除了音箱產品外,2017年4月,亞馬遜還推出了具有視像功能的Echo Look,不僅能聽取使用者語音指令,更能看到使用者的形象和動作;6月,推出“魔棒”Dash Wand,可用於語音指令或者掃描條碼進行電商購物。二者均搭載了亞馬遜智慧語音助手Alexa。

目前,在美國搶下智慧音箱市場第二位的是Google,Google Home已佔有約24%的市場,這款產品於2016年發佈並上市,售價為129美元(約合人民幣860元)。

2017年5月,微軟發佈了與音訊設備製造商哈曼·卡頓合作打造的智慧音箱Invoke,該音箱硬體設備由哈曼卡頓製造,內置Cortana語音助手。在6月的CES 2017大會上,微軟又發佈了和協力廠商廠商Mattel合作的另一款Cortana智慧音箱“Aristotle”,售價299美元。

真正讓中國市場對智慧音箱產生巨大關注的,是2017年6月初,蘋果公司在2017年WWDC上宣佈將推出Siri智慧音箱Homepod。近日三星也加入了這場混戰,據《華爾街日報》報導,三星智慧音箱正在緊鑼密鼓的研發中,通過語音助手Bixby操控。

而在國內,近期也有不少科技公司出手。6月初,由前阿裡M工作室掌門人祝銘明創立的智慧家庭機器人公司Rokid發佈了旗下第二代產品PEBBLE(月石),與第一代ALIEN(外星人)相比去掉了螢幕,體積更小,價格從5280元降至1399元。

作為內容的喜馬拉雅FM,在近日也發佈首款全內容AI音箱“小雅”,售價999元,由喜馬拉雅提供內容OS、獵豹移動投資的獵戶星空公司提供語音AI技術,佳禾智慧提供硬體解決方案。據稱,6月20日發佈會當天,“小雅”售出超5萬台,約七成由喜馬拉雅FM用戶包攬。

現在,國內多個互聯網巨頭也在試圖進入這個領域。

除了阿裡以外,騰訊執行董事劉熾平日前在接受《The Information》採訪時透露,該公司正在研發一款智慧音箱, 或在八月份發佈。據知情人士透露,騰訊這款音箱的名字暫定為“耳朵”。此前,騰訊曾先後推出智慧語音助手騰訊雲小微和騰訊叮噹。

轉型專注於人工智慧的百度,則發佈了對話式人工智慧秘書度秘(Duer)和語音家居設備小魚在家,智慧語音交互系統DuerOS及相應的智慧晶片。按李彥宏的描述,DuerOS的定位是要讓冰箱、桌子等日常用品在任何環境下都具備與人對話的能力。

京東和科大訊飛合資成立的靈隆科技,則已經開發了多款叮咚智慧音箱,價位在179元到798元之間。

對於巨頭們而言,開發智慧語音產品的優勢,或許是基於自己的業務構建一個語音開放平臺,將諸多物聯網設備和互聯網服務接入進來。而在此前,無論是PC、手機、可穿戴設備還是VR,均是通過視覺來交互,通過聽覺來交互的智慧音箱無疑能滿足以上設備的一些缺陷,並開發一些新的應用場景,將人們從螢幕和按鍵中解放出來。比如對於“懶癌患者”、老年人和兒童、或是失明人士就非常適合。對於智慧家居的操控,通過語音來控制也更為簡便。

當然,在各家新產品不斷面世後,智慧音箱市場確實也產生了諸多競爭要素,就目前觀察,有如下幾點:

1、性價比:包括價格、音質、外觀和質感。

2、支付、社交、購物、內容等應用的開放程度,以及對智慧家居設備的相容程度。

3、技術成熟度,其中包括:遠場識別技術,能讓音箱接收到用戶在3-5米甚至更遠的地方發出的指令;聲紋識別技術,能讓特定使用者發出的指令有效;需要不斷提高的語音辨識率和不斷縮短的喚醒時間;以及中文喚醒詞,目前業內大部分是四個字的音節,Rokid已縮短到“若琪”兩個字,也有一些企業在開發自訂喚醒詞技術:最後,是和視覺捕捉的結合程度。

對此,一位TMT資深評論人曾分析道,智慧音箱是依賴技術推動商業模式創新,而國內更注重資源整合與銷售模式創新。如何將產品和技術更進一步打磨,並在銷售智慧音箱這樣的新品類時更好地教育市場,還需要所有入局者一同努力。

關於天貓精靈和AliGenie,你可能還想知道這些:

一、關於天貓精靈X1

Q:天貓精靈X1是什麼?

A:天貓精靈X1是阿裡人工智慧實驗室推出的首款智慧語音終端設備,內置第一代中文人機交流系統AliGenie。AliGenie生活在雲端,它能夠聽懂中文普通話語音指令,目前可實現智慧家居控制、語音購物、手機充值、叫外賣、音訊音樂播放等功能,帶來嶄新的人機交互新體驗。依靠阿裡雲強大的機器學習技術和計算能力,AliGenie能夠不斷進化成長,瞭解使用者的喜好和習慣,成為人類貼心的智慧助手。 

Q:能介紹一下阿裡人工智慧實驗室嗎?

阿裡人工智慧實驗室(A.I. Labs)成立於2016年,負責阿裡巴巴集團旗下消費級AI產品的研發。A.I. Labs的使命是探索人機交互新大陸,帶領人們體驗探索未知世界的樂趣。 

Q:阿裡為什麼要做天貓精靈X1?

A:語言是人與人之間最主要的溝通方式,也應該是人與另外一種智慧進行交流的主要方式。我們認為隨著雲端一體化帶來的高度智慧化,智慧終端機需要匹配比手機觸屏更強大的人機對話模式,AliGenie將肩負阿裡巴巴在智慧人機交流系統領域探索的使命。我們將為開發者和硬體廠商提供一個開發者平臺,包括了語音技術、服務入口以及硬體方案,並整合阿裡巴巴生態體系中豐富的互聯網服務和商業連結能力,共同為消費者提供全新的智慧體驗。天貓精靈X1只是這個生態體系中新生長出來的一顆大樹,我們希望未來能長出一片新的森林。

Q:為什麼起這個名字,X1有什麼意義嗎?

A:在數學中,“X”代表未知數和變數。天貓精靈X1作為中國消費級AI產品的開端,充滿著未知和變數。這也是阿裡人工智慧實驗室推出的第一款產品,因此命名為X1。 

Q:天貓精靈X1目前有哪些功能?

A:目前已經具備音樂音訊內容的播放、聽故事、講笑話、查運勢、玩遊戲、查天氣、找手機、問百科、設鬧鐘/計時器、查食物熱量、充話費、查快遞、查價格、天貓魔盒控制、天貓超市購物、智慧家電操控等功能。隨著開發者的入駐,天貓精靈X1能夠實現的功能還將快速增加,具體可以查看天貓精靈官方網站,或下載天貓精靈APP。

Q:天貓精靈X1的聲音是怎麼來的?

A:我們接觸了100位專業聲優,最後選擇了我們最滿意的這位。加上語音合成技術,這就是最後大家聽到的回答,希望大家都能喜歡。另外,未來還會開放語音包介面。

Q:天貓精靈X1硬體設定如何?

A:天貓精靈X1採用了首顆專門為智慧語音行業開發的晶片,在解碼,降噪,聲音處理,多聲道的協同等方面做了專門的優化處理。針對AliGenie需要進行大量音訊處理、聲音合成的工作環境,定制晶片加入了獨立的NEON處理單元,NEON 技術可加速音訊和語音處理、電話和聲音合成等,從而帶來更優秀的語音辨識及音訊處理效果。

在收音方案上我們採用了業界公認的優秀方案------六麥克風收音陣列技術。在頂部的六顆高靈敏麥克風有助於收集到來自不同方向的聲音,從而更容易在周圍的噪音中識別出有用的資訊,來達到更好的遠場交互效果。

Q:在有噪音的環境中也能正常使用嗎?是如何做到的?

A:天貓精靈X1背後的團隊在降噪技術上做了大量研究,並專門針對家庭使用場景做了優化。天貓精靈不是在絕對安靜的環境下工作的,家庭中有各種各樣的噪音,開發人員在廚房,客廳,臥室,書房等環境裡面,對玻璃,木材,混凝土,金屬,石材,等各種材質和環境進行了上千次實驗,其中對中國家庭環境大量使用的石材和木頭材質進行了針對性的測定,能夠適應在家庭環境噪音下進行喚醒。並且具備一定的學習功能,可以根據環境噪音進行學習和進化,適應不同家庭環境噪音,經過7天左右優化,會更加適應所在家庭環境。

此外,天貓精靈X1還使用了回聲對消和遠近場拾音等技術,即使在播放音樂的同時也能正常接收語音指令。 

Q:什麼時候正式發售?

A:天貓精靈X1於7月5日開始限量公測,用戶和開發者可以在天貓精靈官網(bot.tmall.com)申請公測,8月8日將面向天貓會員用戶進行首批正式發售。

Q:這個需要配套的手機APP嗎?

A:在初次使用時,用戶在手機上安裝天貓精靈app,用以綁定帳號。手機app可以即時顯示與硬體產品的連接狀態、命令接受反應情況、產品最新的功能上線提醒,以及主動推薦適合使用者使用習慣的內容

天貓精靈APP 7月5號就會在各大應用商店上線,X1的用戶也可以通過“手機淘寶”------“我的設備”進入動作頁面,可不必安裝單獨APP。 

二、關於AliGenie和開發者平臺

Q:AliGenie目前所涵蓋的功能包括?

A:目前有以下功能,隨著更多功能的開發和協力廠商開發者的加入,功能將不斷擴展

1.音樂音訊:海量曲庫和內容庫

2.家居控制:語音控制智慧家電設備

3.購物充值:聲紋實現購物全流程

4.兒童教育:精選兒童音訊內容,寓教於樂

5.技能市場:彙聚各種服務和內容,不斷擴展功能

Q:AliGenie未來還會進入哪些生活及商業場景?

A:目前已經或正在拓展的行業解決方案有1、兒童領域2、酒店領域3、家庭場景下4、TO B其他商業場景5、線下零售場景6、與其他顯示裝置結合的場景 

Q:AliGenie可接入的智慧家電範圍包括?

A:目前支持100多個品牌,包括接入阿裡智慧聯盟、塗鴉科技、broadlink等智慧家居方案的產品,更多智慧家電正在接入中。 

Q:AliGenie開發者平臺會開放哪些能力?

A:AliGenie開發者平臺主要面向四種類型的開發者,包括內容開發者、應用開發者、智慧家居開發商和硬體生產商。開發者既可以創建技能,為更多的語音使用者提供服務,也可以將自己的設備接入雲端服務,獲取語音交互能力。

依託強大的底層技術、智慧的演算法引擎、完善的雲端服務和成熟的軟硬體標準系統,AliGenie會持續不斷地將全面、易用的核心技術能力進行輸出,為開發者帶去更多可能。通過AliGenie開發者平臺,開發者可以連結到阿裡生態體系中的數億消費者和海量的生活和商業場景。

Q:AliGenie開發者平臺有哪些核心技術開放?

A:1、深度學習 

我們研發了國際領先的深度學習技術來作為AliGenie的大腦,這些技術成果被發表在頂尖國際會議例如KDD和CVPR上。我們自主研發的深度學習能快速高效的從海量資料中進行學習,並能在廣泛的應用場景中使用。

2、自然語言處理 

基於我們積累的海量的自然語言資料,和自主研發的國際領先的深度學習技術,我們實現了高效準確穩定的自然語言理解。

3、搜索/推薦演算法 

通過阿裡積累的用戶畫像,為用戶個性化地提供使用者所需要的資訊和內容服務。

4、知識表示及推理問答系統 

我們構建了一個海量的知識庫,實現對萬事萬物的結構化的描述,這個知識庫不僅説明我們更好的理解語言,更重要的是可以通過推理回答各種知識類問題。 

上述能力我們將免費開放給開發者和硬體廠商,無需從頭搭建AI語音系統,節省在研發上的巨量投入,使開發者能夠更好的為使用者提供服務。

Q:如何成為AliGenie平臺上的開發者?

A:通過我們的開發者平臺,即可申請成為開發者,只需要簡單認證,就可以使用我們的深度學習訓練平臺。

1、通過官網進行註冊,填寫資料申請邀請碼

2、一周內發放邀請碼,開放相關工具和平臺

3、可以利用平臺進行相關的開發和應用,然後提交測試評審,通過後可以在應用商店上線 

Q:硬體廠商如何將AliGenie集成到自己的產品中?

A:我們會推出全套的硬體參考設計方案,給予合作夥伴足夠的支持。

1、廠商通過官網申請合作文檔和技術參考文檔。

2、我們將對申請進行評估,並與合作夥伴討論準備相關硬體的設計方案、接入方案及商業策略。

3、雙方進行聯合開發和測試,整個過程約1.5個月左右完成。 

Q:什麼樣的智慧硬體可以與AliGenie連接?硬體廠商如何加入?

A:目前阿裡智慧聯盟的上千萬智慧家居設備已經能夠與天貓精靈X1進行連接。

硬體設備廠商可以通過兩種方式接入AliGenie:

1.通過SDK接入

提供常用平臺(如嵌入式Linux、Android)的SDK給到設備廠商,SDK中包含了如長連接通訊、設備使用者綁定、音訊播控、狀態管理等功能模組,封裝其中的實現細節,開發者可以方便的進行接入。

2.通過協議接入

提供基於Websocket的一套標準化協議,由廠商自行進行對接,直接調用AliGenie的各項能力。 

Q:開發者如何分成?

A:開發者可以獲得全部收益,平臺在推廣期間不參與分成。我們還會推出相關的阿裡AI創新開發者計畫。 

三、關於技術

Q:這個產品是阿裡自己研發的嗎?有哪些核心技術?

A:天貓精靈X1和AliGenie均由阿裡巴巴的科學家和工程師團隊研發,應用了阿裡巴巴積累多年的語音辨識、自然語言處理、人機交互等技術。其中,阿裡人工智慧實驗室正在對聲紋識別、聲紋購、NLP中文對話引擎等核心技術申請專利。不久前,我們的NLP技術團隊還在國際權威技術論壇KDD 2017 上發表了一篇論文。 

Q:阿裡巴巴在人工智慧語音領域有何獨到的技術優勢?

A:在美國國家標準署2016年舉辦的全球說話人識別競賽(NIST SRE2016),阿裡巴巴以OpenSesame(芝麻開門)為隊名,採用了基於深度學習網路的特徵提取,借助距離測度學習來提高資料的泛法能力,開創性提出利用對稱性支持向量機器來提高系統性能,在近兩百多支參賽隊伍中,阿裡最後的系統性能在大中華區聲紋識別性能排第一,美國賽區第二。同時我們遞交了4個相關的專利,這一系統曾受邀在聲紋識別頂級(NISTSRE2016 workshop)作公開演講。 

在語音頂級國際會議Interspeech2017,我們的兩篇論文也被接受:《TheOpensesame NIST 2016 Speaker Recognition Evaluation System》《The I4U Mega Fusion and Collaboration for NISTSpeaker Recognition Evaluation 2016》。 

這一聲紋識別技術也被運用到了X1上,它會根據聲音條件識別出不同的使用者,以此保證使用的安全性和私密性。而在記住了每個人之後,X1還能夠實現“千人千面”,能夠根據每個人的喜歡進行內容設定和推薦。 

基於聲紋識別技術,我們還推出了聲紋購功能,是第一個商用的聲紋購物系統,可以通過聲紋完成支付,當你發起購物、充值等行為時,只需要說出聲紋密碼,聲音識別系統將對身份進行校檢,確認是本人後才會完成交易,否則將拒絕請求。 

Q:產品是否支援多輪對話?

A:支持。阿裡巴巴人工智慧實驗室在自然語言理解的基礎上,加入了“決策引擎”機制,能夠理解語音的上下文語境,並判斷當前應該回應的是哪一個模組,進行決策。這一套先進的人機交互和自然語言處理系統也在國際頂級學術論壇KDD 2017上發表了重要的論文,並正在申請技術專利。 

Q: X1的語義理解是用的自己的技術嗎?做的怎麼樣?

A:中文語音交互的難點在於中文的語義理解。阿裡人工智慧實驗室研發的中文語義理解引擎針對常用的定時,提醒,天氣,娛樂內容,家居控制,助手,以及購物等領域進行了特別優化,僅天氣預報就能夠理解786種中文問法。

通過深度機器學習,天貓精靈X1已相容20個領域的自然語義理解。

此外也更多考慮到中文語言對話過程中的各種實際案例,對北方語言的兒化音,乾淨利素的問法,小朋友經常疊字疊詞,南方人某些與普通話混淆的中文表達方法進行了深度處理。針對中國人語言發音的特色,對吞字,咬字,缺字,北京話習慣,河南話習慣進行了特別優化,進行補償和修正。 

這套語義理解系統還帶有記憶功能和強大總結歸納能力,還加入了模擬的“長期記憶”和“短期記憶”功能,能夠針對不同的場景和時間度,讓語義理解系統更加貼近使用者。除此之外,阿裡人工智慧實驗室還已經著手其他多個語種的研究。 

文 / 天下網商記者 何承軒

編輯 / 吳思凡