編者按:本文來自源碼資本微信公眾號,雷鋒網已獲得轉載授權。
當下,越來越多的AI與大資料技術不斷滲入到商業和生活當中,作為商業與生活的最大載體,城市擁有無數的資料和資源需要利用 AI 計算與調度。那麼人工智慧如何在城市管理當中發揮作用,微軟亞洲研究院“城市計算”領域負責人鄭宇博士在源碼資本2017年碼會上,分享了人工智慧在城市計算領域的進展。
鄭宇博士簡介:
微軟亞洲研究院資深研究員、“城市計算”領域負責人,ACM資料採擷中國分會(KDD China)秘書長、上海交通大學講座教授、香港科技大學客座教授、人工智慧國際權威期刊(SCI一區刊物)ACM TIST主編。他主持開發了多個城市大資料系統,其中Urban Air首次利用大資料來監測和預報細細微性空氣品質,該服務覆蓋了中國的300多個城市,並被中國環境保護部採用。他主持了城市大資料平臺的設計和實施,並成功在中國大資料示範基地貴陽市部署。 2013年被MIT科技評論評為“全球傑出青年創新者”(TR35),並作為現代創新者代表登上了美國《時代》週刊。2014年,由於他主導的城市計算具有巨大的商業前景和改變行業格局的潛力,他被《財富》評選為中國40位40歲以下商界精英。2016年被評為美國電腦學會傑出科學家 (ACM Distinguished Scientist)。
以下為鄭宇博士的演講內容:
非常高興有機會能夠跟大家分享我們在城市計算(Urban Computing)領域的工作。大家平時聽到很多人工智慧用於語音、圖像、文本的場景。怎麼樣用人工智慧和大資料技術改變我們的生活,我圍繞這個主題探討一下,人工智慧在城市領域的進展。
1、理解城市文化本身,資料科學家純粹的理論無法代替行業知識;
2、理解資料本身,不僅僅要瞭解資料的表徵,也要瞭解資料背後蘊含了什麼樣的知識;
3、掌握資料科學的模型,包括資料管理,資料採擷,機器學習,還有視覺化;
4、懂得如何利用雲平臺,把演算法高效部署在平臺上解決問題。
在城市領域,以上四點也有應用上的不同之處:
可以想像到城市裡面資料特別多,鏈家的、搜房的,從地理資訊到人流量,好像千差萬別上百種、上千種的數據。實際上按照資料的結構來分的話有兩種資料,一種點的資料,一種網的資料。按照資料關聯的時空屬性來分,可以分為三類。所以總共有六種資料。這六種中最為複雜的就是軌跡資料,因為物體的位置和在每個位置上的屬性都在不斷的隨著時間改變,而且點和點之間存在著關聯。像摩拜和滴滴的車的軌跡都屬於這種類型。
我不希望來了一千種資料要建一千種模型和演算法,使得系統變得非常複雜。我們希望只要定義好這個模型之後,不管你來什麼資料,可以高效利用平臺,利用對應的分析和挖掘演算法去處理。
城市領域有大規模的資料,多元、多模,變化非常快,這麼複雜的資料怎樣快速更新,以及大規模的應用?必須要有一個平臺。大家自然會想到,我們就用雲平臺把它連接到一起。可惜的是,不管哪家商用雲平臺都無法做好時空大資料,對城市大資料支援的並不是很好。
現有雲平臺處理城市大資料的限制,與MSRA的實踐:
1、資料結構很不一樣,跟圖像文本結構不一樣。
2、查詢方式不一樣。例如我們在找滴滴的時候,希望是找周邊這個時間段內有沒有空車經過,而不是關鍵字進去匹配一個文本出來。
3、真正我們做城市計算的時候我們往往用到多個資料來源,而不是單一資料。比如說空氣品質預測的時候我們需要用到氣象、交通、地理資訊以及人的移動資料,怎麼樣把這些資料多元管理起來?這是一個難題,這個技術是缺失的。所以基於它的原因,現在已有的雲平臺並不能支援很好支援時空大資料。
受限於已有雲平臺的現實限制,微軟亞洲研究院去年在洛陽市落地了中國第一個城市大資料平臺。
它首先定義了六種資料模型,然後利用了現有微軟雲計算平臺的存儲資源。接著我們做了一層中介軟體,針對不同的資料結構設計了時空索引演算法,並針對不同資料設計了混合式索引演算法。然後把時空索引集成到Hadoop、Spark和Storm等分散式運算環境中。
這裡面不光有分散式運算環境,也有時空索引演算法,兩者的結合把資料的訪問和管理存儲變得非常高效。最後向上層的機器學習和人工智慧演算法提供API,使得我們的機器學習演算法能夠快速訪問下面的一些資料。想像一下,如果沒有這一層的話很多機器學習演算法根本不能上線,根本不能做大規模的訪問和應用。
下面幾個應用案例可以看到這個城市大資料平臺所產生的實際效應。
1.城市充電樁與看板佈局
通過城市大資料平臺在貴陽市決定應該在什麼位置放置充電樁,才能最大化覆蓋整個城市的車流量。最終選取出五個路口,使得覆蓋不同計程車的GPS軌跡數量最大化。
以前做這個工作需要一天。現在我們只需要2-3秒的計算結果。我們發現在商業應用中,我們部署一個東西除了需要資料科學支援還需要行業知識支援,不僅要考慮車流量最大化的問題,還是考慮周邊是不是商城,有沒有配套。車主充電的兩小時等待時間裡,周邊要有餐飲、娛樂機構供人休閒。
我們通過可視交互的分析方法實現人的智慧與人工智慧的結合。人工智慧先用簡單的規則,用演算法回饋一個初步結果讓行業專家判斷,行業專家認為這個點不合適可以刪掉,或者保留這個點再計算,實現了一個反覆運算式的交互挖掘。
這個案例體現了平臺的威力,性能的威力,也體現了真正把機器智慧跟人的智慧結合在一起。
除了充電樁,這個模型還可以分析商業門店選址、看板選址,這些案例體現出城市大資料平臺的資料管理威力。
2.房價評估
在我們的這個城市大資料平臺裡還有一個專門的資料分析層面,包含三個子層面:最普通的機器學習演算法,專門針對時空資料設計的機器學習演算法,以及多中繼資料融合演算法。
我們看一下這個例子,我們想對房屋價值進行相應的排序,並不是預測價格。也就是說北京同樣一個市場,如果漲的話誰漲的比較多,如果跌的話誰跌的相對比較慢?
在相同環境下,摒棄政策因素和環境因素。根據漲幅比將房子排序,排完序把房子排好12345等,一類房最好,五類房最差(漲的最慢,跌的最快)。李嘉誠說過,房子價值由三個方面決定,一是地段,二是地段,三還是地段。這三個地段其實可以用資料量化。
第一地段就是周邊各類設施配套水準,交通,商場,學校等等這些資料都可以從路網、POI學到。同樣是學區,重點學區和普通學校對房價影響非常大,好的商場比破舊的商場對這個地段的價值拉動差距很大。
所以有第二個地段:Popularity,比如人們出行規律非常重要。人們出行的規律已經刻劃了這個地方的價值,一個地段坐公交地鐵出去,另外一個地段基本上以開車打車出去,你覺得哪地段更高端一點,人的行為可以刻劃這個地段的形式。
第三個地段是房子所在的商圈,並不意味著每一個望京區域的房子都是好房子,而要用7-8種資料刻劃這個地段的價值。
從每一個資料裡面可以提取出來很多的特徵,再進行計算。比如說這個房子周邊有幾個公車站,離他最近的公車站多遠,離他最近的地鐵車站多遠,然後可以把它變成排序的問題。這裡面體現了不是一個簡單的演算法就可以解決的問題,很多特徵是冗餘性,並不是完全獨立的,相關性非常大,而且很多特徵不是線性的,因此我們要加很多的約束做這個事情。
怎麼做驗證呢?用2013-2014年的房屋資料預測2015年的排序,2015年過完之後自然知道這個結果怎麼樣。用搜房網解決這個事情準確率非常高。NDC基本上達到95%以上,這是一個非常好的結果。
這個技術還被應用到上海火鍋店的選址以及對城市綜合商業體的價值評估。中國一線城市的商業品牌,像萬達以及保利商場等等,這些綜合商業的評估是非常困難的,但用我們的方法來做是有價值的。2016年的資料已經顯示,北京100多個綜合商業體哪個漲幅最快,最值得投入,並且形成排序。這個排序也應用於銀行業信貸評估,幫助銀行業評估綜合商業體的價值,決定以後貸多少錢,抵多少錢,通過人工智慧評估長期價格增勢。
3.AI+共用拼車
滴滴以及摩拜,這兩個案例與AI聯繫非常緊密。
先講拼車,電召車行業做到拼車才是真正的共用化,所以拼車是最終目標。發明拼車的初衷是城市車輛過多與打車難之間的矛盾。在希望車輛總量不增加的前提下,出現了拼車的想法。為了保證用戶體驗,拼車必須保證滿足用戶希望什麼時間到達目的地的要求。
通過AI找到一輛車接這個人,並且他真正距離最小,這是一個最優的方案。但現在是不是還有別的車,可以滿足乘客的到達時間,同時也要徵求乘客的拼車意願?如果可以使乘客的到達時間稍微推遲五分鐘,但是可以省五塊錢,你願不願意?在拼車方案中,保證乘客在規定時間到達,這個是關鍵的。
通過對車輛距離、預期到達時間與價格之間的動態平衡匹配,最大化滿足用戶的需求,是一個很困難的問題。這些需求已經超過了人類自己思考可以實現,必須要人工智慧後面重新調度。
使用AI技術模擬,把計程車換成一個卡車,把一個人看成貨物,上車點是取貨地點,乘客下車地點是送貨地點。我們把這些應用于順豐合作,可以在不增加人員的情況把順豐的吞吐效率提高5%-10%。
實現了當下的優化以後,對未來的優化更加重要。這將涉及到深度學習。
以物流業為例,未來的物流一要看預測,二要看累計最優,三要加時空索引,這三個東西要加在一起。
假設我們把一公里分成很多格子,可以預測未來有多少人進有多少人出,可以預測未來有多少人請求摩拜,有多少人請求滴滴,有多少人訂餓了麼。我們在貴陽已經開始做這種預測了,在貴陽預測的是每個格子裡面有多少計程車進有多少計程車出。能夠預測出未來這個地方有多少人請求餓了麼的訂單。用這種資料來驗證我模型的正確性。
做深度學習預測人流、訂單量最開始的動機來自於上海市的踩踏事件。踩踏事件發生之後我很痛心地寫了一個微博,我說,這個事情可以通過人工智慧做預測提前避免,如果提前兩三個小時知道未來有多少人去那個地方,就可以從源頭分流,不要等到大家都去了去疏解。如果政府能夠提前預測量級,可以提前預備安全措施。
類似的公共需求也適用於北京地鐵,商業需求則適用於滴滴、摩拜和餓了麼等。
但是預測人流量是一個困難的工作,因為相關因素非常多。同時,時間空間資料不同于文本,空間有距離,有層次,時間有週期性,還有趨勢性。
比如說交通容量每天都有變化,我們一定要考慮到時間的週期、趨勢、臨近性,考慮到空間的遠近性,把不同的資料進行融合,以及不同的影響因數在不同層次融合。最後得到好的結果。這個資料在北京的計程車得到印證,在美國的自行車租賃系統得到印證,現在拿摩拜進行印證,效果都比以前的方法好很多。
4.城市計算在空氣品質領域的應用
微軟亞洲研究院曾經用大資料和人工智慧的演算法預測全國200多個城市的空氣品質。
因為空氣品質受很多複雜的影響,包括周邊的樓房密度,周邊的交通擁堵情況,周邊的擴散情況,導致整個城市空氣品質不均勻。
我們把京津冀、珠三角、長三角城市群資料放在一起,做大尺度的系列預測和分析。有了這個資訊之後,你會發現每次空氣品質從好變壞過程中,你就知道哪裡先變壞,哪裡後變壞,知道它的傳播過程。政府是明確需要知道非常細的空氣品質的資料,甚至要細到賓館級,因為有的時候我們領導人就住在某個賓館。
預測未來。我的預測是系列預測,空氣品質預測既要看天還要看人,是個很困難的事情。如果你要看細,細到西直門、東直門怎麼樣?這非常困難。還有空氣品質拐點的預測,我們知道當刮大風和下大雨時,空氣品質從500瞬間就變成了50,這個拐點的出現對政府來說是極關重要的。
可是,空氣品質的拐點為什麼那麼重要呢?舉例說明,政府曾經做了很多措施限流限行,關閉了河北的工廠,以北京為中心畫一個圓,把圓裡面所有的工廠全關掉,使得我們的空氣品質保持在100以下。但如果你知道明天是拐點,明天會下降幹嘛去關它?這一個決策就能夠幫國家避免上百億上千億的損失。
微軟亞洲研究院還在貴陽落地中國第一個交通流量圖。這個地方顯示的是車的流量不是簡單的速度,對政府的管理、規劃它一定要知道有多少車經過,即流量。有了流量之後就能算出速度、油耗,每個路段上面都可以算出來,進而可以看出來每個路段即時排放的PM2.5有多少,現在能把車的尾氣排放算出來,結合空氣中測點的讀數,我們知道空氣中尾氣排放和PM2.5結合在一起,我們就能夠正確回答空氣中汽車尾氣排放和PM2.5到底占多少,這個對政府的指導具有重要的意義。
5.做好真正智慧城市的四個關鍵
第一,要理解行業知識。如果我不懂環境,不跟環境學家交流,也不知道他們做了什麼東西,那麼他們行業裡面也無法接受大資料的分析結果。
最近我搞了兩年多環境,現在清華大學環境學院每年請我給他們環境學院的學生研究生上課,只有達到這個程度之後,才能跟別的行業融合。
第二,對資料的理解很重要。路面上的計程車交通軌跡不光反映了計程車交通容量,也反映了人們的出行規律。出行規律反映的是功能、經濟、環境狀況,如果這樣想的話,你會發現我們的資料永遠不缺,大資料時代我們不缺資料,缺的是心不夠開放。大資料的價值把多個資料融合在一起,做到1+1大於2的結果,這才是它的特點和魅力。
第三,深度學習。我們看到各種各樣的演算法不只是機器學習,有深度學習、機器學習、資料採擷還有資料庫,很多方法索引加學習加類比結合在一起,很多是把資料融合在一塊。
第四,資料科學家。資料科學家非常難培養,培養這個人至少7-10年,很多項目只要有了這一個人,就能把這一個東西傳到一塊,一個好的資料科學家站在雲平臺上面,看問題想資料觀模型,然後把模型部署到雲平臺上面,才能解決鮮活的問題,這才是資料科學家。
更多關於雷鋒網人工智慧升級傳統行業的文章,請關注雷鋒網AI商業化垂直微信公眾號:AI掘金志。