億歐智庫 人工智慧產業綜述報告出爐
報告主要分為四大版塊:回顧人工智慧發展的路線圖、冷靜審視技術的本質、挖掘技術落地具體市場的機遇和挑戰、以及附錄了217位主要中國企業核心AI人才的圖譜。
本研究報告為億歐智庫團隊歷時3個多月進行桌面研究、走訪企業看到、思考總結到的資訊,報告特點為關注技術和產業的結合落地,誠然報告存在諸多不足,疏漏之處在所難免,敬請讀者多多批評指正。
報告簡版如下:
CHAPTER 1 回顧人工智慧發展的路線圖
2016年是人工智慧發展的一個重要拐點,是更快更強的計算力和爆炸式增長的資料庫將深度學習推到了鎂光燈之下。
不誇張的說,人工智慧已經成為了流行文化甚至是政治話語的前沿,但我們也推測,很有可能人工智慧在下一個路口就步入了輿論的冬季。
CHAPTER 2 冷靜審視人工智慧技術的本質
2.1 總覽人工智慧技術圖譜;
基礎支撐層的演算法創新發生在上世紀80年代末,是大資料和計算力將人工智慧推到鎂光燈之下,而建立在這之上的基礎技術便是電腦視覺、語音辨識和自然語言理解,機器試圖看懂、聽懂人類的世界、用人類的語言和人類進行交流,研究人類智慧活動的規律。
2.2 電腦視覺技術模式圖和對應企業圖;
電腦視覺是一門研究如何讓機器“看”的科學,更進一步的說,是指用電腦代替人眼對目標進行識別、跟蹤和測量的機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。
目前世界上圖像識別最大的資料庫,是斯坦福大學人工智慧實驗室提供的ImageNet,而針對諸如醫療等細分領域還需要收集相應的訓練資料;Google、Microsoft此類科技巨頭會面向市場提供開源演算法框架,為初創視覺識別公司提供初級演算法。
2.3 語音辨識技術模式圖和對應企業圖;
語音辨識是以語音為研究物件,通過信號處理和識別技術讓機器自動識別和理解人類口述的語言後,將語音信號轉換為相應的文本或命令的一門技術。由語音辨識和語音合成、自然語言理解、語義網路等技術相結合的語音交互正在逐步成為當前多通道、多媒體智慧人機交互的主要方式。
2.4 自然語言理解的應用:搜尋引擎和機器翻譯;
自然語言理解即文本理解,和語音圖像的模式識別技術有著本質的區別,語言作為知識的載體,承載了複雜的信息量,具有高度的抽象性,對語言的理解屬於認知層面,不能僅靠模式匹配的方式完成。
得益於互聯網將線下資訊線上化還衍生出UGC模式為自然語言理解技術的發展充實了語料庫,但鑒於深度學習採用的層次結構從大規模資料中自發學習的黑盒子模式是不可解釋的,而以語言為媒介的人與人之間的溝通應該要建立在相互理解的基礎上的,所以深度學習在搜尋引擎和機器翻譯上的效用沒有語音圖像識別來得顯著。
CHAPTER 3 人工智慧技術落地具體市場的機遇和挑戰
追溯本質來講,人工智慧是一項降本增效、賦能產業升級的工具,不同的是它在各行各業所受到的關注度——或過度的追捧,或悄無聲息。總體來看,億歐智庫在“醫療”、“金融”和“出行”這三個領域都看到了降本增效的可能性,看到了這些市場的變革關乎著普羅大眾的迫切需求,也看到這些變革的背後所帶來的潛力效應。
3.1 智慧醫療
AI賦予醫療降本增效功能,但醫療智慧化之路依然崎嶇。
基層的訴求是“加工資、快下班”、“看病貴、看病難”,從長期來看訴求得不到滿足的原因出在“大資料沒能共用”、“醫療資訊未能標準化”,但要解決醫療的根本問題,便會牽扯出其背後龐雜的利益網等棘手問題,醫療智慧化依然崎嶇。
3.2 智慧投顧
投資者需要投資顧問幫忙做“情緒管理”和給予一定的“投資策略/建議”。
AI在“資料搜索”和“自動生成報告”的具體應用中輔助投顧做到量化交易。
總體來看,AI輔助智慧投顧降低了投資的門檻,吸納了更大規模的投資群體。但在智慧投顧領域電腦也還無法完全替代人類,在一些關鍵時刻還是需要依靠專業經驗來做決策。而從AI涉略的投資策略/建議環節來看,人工智慧所能替代的只是初級的資訊收集與處理等基礎工作,運用大資料獨立做投資決策更多是一個概念,成熟市場很少這樣操作。在許多金融科技從業者看來,重視AI但遠未到委以重任的地步。
3.3 無人駕駛
無人駕駛的演進,是一個人類逐步交出操控權、提高安全係數的過程。
演算法給無人駕駛技術的感知和決策層做底層支撐,應對動態障礙物的跟蹤檢測。
在感知層面,深度學習主要對攝像頭和雷達收集到的局部資料(結合全域資料)做處理,基於動態圖像極大的豐富資訊以及難以手工建模的特性,深度學習能最大限度發揮其優勢。
在決策層面,為了在行駛過程中避免與動態障礙物發生碰撞,無人駕駛系統需要演算法的輔助來做到:1、檢測出對行駛有影響的動態障礙物並對其位置變化進行跟蹤;2、預測出其動態障礙物的運動路徑;3、識別動態障礙物的種類。
但即使最好的汽車安全科技也不能確保挽救每一條性命。對於安全科技效用的限制在於人們使用(或不使用它)的方式。
在輔助駕駛人類和機器共同控制的模式之下,存在共同過失判斷難的問題。其實從輔助駕駛向部分無人駕駛、完全無人駕駛過渡過程中,交通事故責任出現一種由人類轉向汽車製造商的趨勢,那麼出於對龐大法律責任的考慮,無人駕駛汽車製造商可能因為安全隱患而考慮限制汽車能力,最後導致高新科技無法充分地投入社會中。
歸根結底無人駕駛汽車最後能否順利進入社會與否,並非取決於技術成熟度,而是同時由下而上的社會接受度與由上而下的政策、立法管制考慮。
無人駕駛距離上市,中間還橫著監管體系的問題。
注:《億歐智庫:人工智慧產業綜述報告》完整版和《億歐智庫:主要中國企業核心AI人才圖譜(216人)》可在億歐官網查看。
寫在最後
人工智慧在近年來的崛起,得益於爆炸式增長的資料庫和越來越強的計算力的助推,將多層神經網路給推到了鎂光燈之下。而關於深度學習,還有一個有趣的現象:互聯網為資料的流動和匯合提供了載體,但深度學習在互聯網的應用(廣告、推薦等)上取得的提高,沒有語音圖像這些領域那樣顯著。
原因在於語音圖像的資料,我們完全可以通過主動的語料收集,讓每個iPhone、甚至每個攝像頭都盡可能充分覆蓋到,但對於互聯網上的社會行為的收集,諸如“點擊與否”、“閱讀與否”、“參與互動否”,對於每一個個體的每一個當下環境來說,都是很不確定的資料。總的來說,深度學習需要能標注、有大量標注資料來作為模型進化的需要。
擁有1500萬張標注圖片的資料集ImageNet是來自167個國家的48940名工作者,花費了2年時間——清理、分類、標記了近10億張通過互聯網搜集到的圖片,才得到這個資料集。但ImageNet還只是一個通用性質的資料集,初創公司要在特定領域建立自己的壁壘,比如說醫療,就需要對該領域進行資料獲取,而後進行資料標注,越細化越好。
在知乎「大公司裡面有人專門負責標注資料嗎?」問題下,共有 21 個回答。來自大公司的回答者們表示曾「發動全部門人對幾萬張圖進行人肉打標」,或是將工作「安排在人力成本比較低的分公司」。小公司們則將資料「交給隔壁全是女性的部門標」,或是「省錢就自己人標了」。除此之外,交給外包公司是頻率最高的選項。
從招聘網站發佈的職位需求也可略窺一二。在智聯招聘中鍵入「資料標注」,可以找到 60 個直接相關職位。在拉勾網則能找到近 400 個——管理外包團隊等相關職位也被算入其中。
某種程度上,判斷一家企業是不是核心在做人工智慧,可以查看它每個月花費在資料標注上的金額。
深度學習並不是人工智慧的全部創新,它依賴標注資料和計算力。在上下波動的輿論大背景之下,隨著時間的推移人工智慧技術呈正相關發展趨勢,希望這份報告能在下一個輿論冬季到來之前,協助您審視整個當下的局面,希望能為人工智慧的發展盡一份力。