科大訊飛發佈會,我看到的人工智慧
11 月 25 日,訊飛還是沒能打破一個“魔咒”——逢發佈會股價必跌。訊飛員工向雷鋒網打趣道,直播的時候有人發彈幕說,快別直播啦,去看看你們的股價吧。另一名訊飛的員工則問,“這到底是什麼原理呢?”實際上沒人說得清楚,再加上每次股價都會反彈,所以也沒人細究。
今年的發佈會地點還是在國家會議中心的一層大廳,理論上這裡能坐 1500 人,但今年的報名人數超過了 3500,所以現場站著聽課的人不在少數,會議開始後半小時還聽見門口的安保厲聲道:“只讓出不讓進,工作人員也不行。”
總之,現場熱鬧非凡,人們都很想知道:在訊飛眼中,跟進人工智慧的正確姿勢到底應該是什麼樣子。
為時 4 個小時的發佈會,訊飛連發了七款產品:多語種即時翻譯技術、萬物互聯輸入法、智慧家居、智慧車載、智慧教育、智慧服務機器人,以及個性化語音合成技術。用科大訊飛董事長劉慶峰的話說:“都是絕對的黑科技。”
眾所周知,在偌大的會場演示語音技術算得上一種“自殺行為”,在此栽過跟頭的廠商不計其數,但在發佈會當天,訊飛的每個演示都堪稱完美,現場驚歎連連。甚至有那麼一瞬間讓人產生一種錯覺,電影《Her》中的場景已經離現實不遠。
多語種即時翻譯技術是演示重點之一,無論是哪位演講者登臺,左右兩邊的大螢幕上總是即時顯示他所說的每一句話(中文),準確率極高。另外,英語,日語,韓語,維吾爾族語的翻譯也在即時進行。
“這不科學,”我向訊飛的員工表示質疑,“我用過你們的錄音寶,機器識別的準確率基本上屬於不能用的水準。”他說:“現在錄音寶的識別率已經提高了不少,只不過的確還比不上現場的演示效果。”問題的關鍵是拾音,他補充道:“現場的演示實際上一套完整的‘訊飛聽見’系統,你看不到的是,我們在台下放了 8 個麥克風。”
聲學博士錢晨曾告訴雷鋒網,如果想把硬體產品的拾音做好,至少需要兩個麥克風以上。言外之意,麥克風的數量與拾音效果呈正相關關係。既然現場有 8 個麥克風作陪,那“驚歎指數”顯然是要打折扣的。
另一款在現場掀起高☆禁☆潮的產品是被稱為中英互譯神器的“曉譯翻譯機”。演示的兩人一人說中文,一人說英語,曉譯翻譯機幾乎無延時地將對話內容互譯,並用非常人性化的聲音讀了出來。
毫無疑問,這款產品的實用價值很高,如果複雜的對話也能達到演示的準確率——100%,曉譯翻譯機儼然就是一個貼身翻譯。
看到這裡,現場很多人心中基本上就剩下兩個問題:這東西賣多少錢?什麼時候上市?可惜這兩個問題訊飛都沒有給出答案,雷鋒網能得到內部消息也只是:“還沒量產,不知道什麼時候上市。”
訊飛員工毫不諱言公司並不太擅長做電子消費品,並多次向雷鋒網強調:“硬體是個坑。”但基於曉譯翻譯機的產品形態,量產的難點顯然不在硬體。元器件——麥克風、晶片等——都是現成的,又沒有使用特殊的造型和材料,所以最讓硬體廠商頭疼的定製件對曉譯翻譯機似乎也不成問題。合理的推測是,其軟體還需要進一步優化。
換句話說,訊飛想讓真正的翻譯官下崗,還為時尚早。同理適用于同聲傳譯。
真正讓人想起電影《Her》的倒不是以上“黑科技”,而是這次發佈會上“最不正經”的一款產品——個性化語音合成。
最開始演示時,攝像頭對準了台下的錘子科技 CEO 羅永浩,老羅靦腆的笑著,和全場觀眾一起聽著由訊飛合成的“老羅的聲音”。從效果來看,合成的老羅已快逼近以假亂真的地步,所以在現場的哄笑聲中,雷鋒網記者的朋友圈也被“羅永浩為您朗讀”刷屏了。
訊飛工作人員告訴雷鋒網,合成只需錄入一個人的數個音節,完成之後便可隨意點播,歡樂程度與被錄入者的可識別度,錄入的音節數成正比。
在很多人(甚至包括訊飛自己的員工)看來,這只是個調節氣氛的功能,但實際上,訊飛絕不會為了鬧著玩研發一款新產品。
還記得在電影《Her》裡,男主角希歐多爾第一次被人工智慧震驚的場景麼?斯嘉麗扮演的女主角薩曼莎一發聲,希歐多爾便感覺很怪異,他說:“你看上去就像真人,但其實只是電腦發出的聲音,太奇怪了。”薩曼莎安慰他:“我能理解你作為一個正常人,在洞察力方面的局限性,你會習慣的。”
編劇的這一設定非常講究,參考的是恐怖穀效應。斯嘉麗的表演也很出彩,並憑此片成為了羅馬電影節史上首位沒有一個鏡頭的最佳女主角。英特爾資料中心事業部副總裁、電腦架構專家、神經系統科學家 Naveen Rao 曾告訴雷鋒網記者,《Her》是他個人最欣賞的人工智慧電影。但如果沒有“看上去就像真人”這一點,欣賞程度顯然要大打折扣。
後記
也許是發佈會耗時太久,再加上演講者的水準參差不齊,到了發佈會後半段,原本擁擠不堪的會場空曠了很多。現場的工作人員顯然習慣了這種狀況,各司其職數小時之後,他們依然非常興奮。
這不是訊飛的尷尬,他們以技術立足,在業內有口皆碑,作為合作夥伴,華為消費者業務 CEO 余承東甚至缺席華為集團財年預算會議來捧場。
但我依然好奇那些目光炙熱的觀眾是否滿載而歸,就像在發佈會前跟我說,“就想弄明白訊飛是怎麼從一家語音輸入公司變成一家人工智慧公司”的同事,發佈會結束後他仍一臉茫然。這是個值得深究的問題,但顯然,這也並不適合在這種場合講。