雷鋒網按:本文為「范式大學系列課程」第 2 篇文章:機器學習老司機:如何成為 ML-ready 的公司?
機器學習已經在商業領域展示了巨大潛力,那麼管理者如何將其納入日常決策和長期規劃?一個公司怎樣才能 ML-ready?
當你考慮在企業中應用機器學習技術時,很多問題就會出現。
我的業務是否適合機器學習模型?
我可以從機器學習模型中獲得什麼收益?
這是一個降低成本的問題,還是增加收入的問題?
我現在的資料積累足夠嗎,如果不夠的話該怎麼辦?
我需要什麼樣的人才説明我實現企業人工智慧的升級?
換句話說,如果你的企業想趕上機器學習的火車,現在應該怎麼做?
先給你一張資訊表,然後我們會從 6 個步驟詳細解析。
步驟一:定義問題
應用機器學習的公司一般有兩種:
一種是以機器學習模型作為企業核心業務的公司,例如今日頭條、News in Palm;
另一種是通過機器學習增強現有業務流程的公司,例如抱抱通過機器學習優化主播推薦。
對於後一種公司,清楚的定義問題會是第一個挑戰。無論是個性化推薦、增加活躍度還是降本增收,都應該收斂到一個點,即我們可以通過獲得正確的資料把任務變成機器學習可解決的問題。
例如,如果你想通過資料發現“高流失風險”的客戶,以此降低使用者的流失率,這就是機器學習可以解決的問題。你會擁有已經流失的用戶(這就是機器學習的標籤),流失行為背後相關的資料(例如社交媒體的活動、使用頻率等),那就可以通過機器學習演算法找到使用者流失和使用者行為之間的隱藏關係。 當然,這裡面更重要的問題是,當你知道這個用戶將要流失時,你準備做些什麼?機器學習可以告訴你使用什麼樣的挽留策略能拉回他。
另一個例子是提高用戶滿意度。用戶滿意度是一個主觀的指標,不同的人、場合對用戶滿意度的衡量標準都不一樣。如果要通過機器學習來預測用戶滿意度,最終的結果可能就會不理想。
定義機器學習的問題,最終可以落在兩個點上:
1、從業務出發,機器學習往往致力於解決標準商業邏輯和系列規則不能解決的問題。所以在考慮是否需要機器學習的時候,不妨問問自己,當你做決策的時候,有多經常是基於經驗假設而非清晰的分析論據?
2、從技術出發,機器學習往往需要客觀的預測指標,例如流失率、點擊率、停留時長等。同時你也需要考慮資料回饋的週期,例如在信用卡反欺詐的任務中,盜刷後被用戶發現並提交回饋的時間往往需要 1 周甚至 1 個月,那麼系統就要考慮到負面回饋的時間。
通過機器學習強化業務流程是一個非常廣泛的領域,我們可以在內容推薦、金融反欺詐、醫療健康等各行各業都看到它的身影。
步驟二:強化業務流程
當你建立了機器學習模型,下一步便是結合模型強化業務流程。一般來說會有三個層次:
1、描述
採集資料進行機器學習分析,通過圖表和報告描述現狀
2、預測
找到業務發展的模式,做出預測
3、行動
結合模型預測,給出不同的解決方案
麥肯錫曾經披露了一家國際銀行的故事,他們通過機器學習改進違約客戶相關的業務流程。通過機器學習模型,他們發現有一群平時白天使用信用卡的客戶,在晚上也在大量使用信用卡。機器學習發現該行為模式和違約風險緊密相關,在進一步的問詢後發現,這群人正在經歷某些緊張的時刻。銀行的解決方案是向這群高風險的人提供財務建議,並為他們建立新的信用額度。
步驟三:確保你的資料品質足夠好
機器學習是關於資料的科學,它從資料中獲得有價值的洞察。一般來說,使用機器學習輔助決策是避免偏見的好方法,但這比想像的更為棘手,因為它不能避免資料本身的偏見。例如 Google 最近陷入了一起爭議,在對男人和女人的廣告中,他們在男人的廣告中展示了更多高級崗位。Google 的資料科學家並沒有性別歧視,但演算法背後的資料是有偏見的,因為它是從社交網路的互動中收集上來的。
確保資料品質足夠好
基本可以說,你所擁有的資料品質,定義了演算法的品質。資料可能是嘈雜的、衝突的、有偏見的和缺失的,這會對問題解決有非常不良的影響。為了優化模型開發,你需要讓資料更匹配要解決的問題,所以在早期最好有熟悉業務的資料科學家支援,逐步開發和收集解決問題所需的資料。不過這裡需要注意的是,儘管業務決策者尋求的是具體建議和結果預測,但資料科學家往往只能提供相關的資料特徵。只有真正把資料投入到機器學習系統,才能知道最終的結果會怎麼樣。
確定最小預測準確度
我們需要定義最小的預測準確度。不同的業務會有不同的準確度要求,例如在涉及醫療的業務中,有些任務需要高達 95% 以上的預測準確度。而在一個預測飛機票價的演算法中,預測準確度高於 75% 就足以支援客戶的預定任務。
打破資料孤島,匿名化並共用資料
資料科學家小組經常面臨一個障礙,在專案的談判階段就需要獲取資料。對於業務人員來說,瞭解成本是決定是否開展機器學習業務的關鍵因素,但在看不到實際資料的情況下,幾乎不可能準確估計預測準確度水準和實施價格,這往往是談判癱瘓的原因。企業高管不能將商業敏感性資料交給技術公司,而技術公司在獲得資料之前幾乎無法給出明確的答案。
我們的解決方案是提供資料子集而不是整個資料庫,並將其匿名化。對於擁有資料科學家的公司,在不同的部門之間共用資料也是共同的管理挑戰。過度管制的資料策略,或者僅僅在各部門囤積資料,會大大減緩資料分析的進程。這就是為什麼要在更高層面給資料科學家和技術公司許可權的原因。
好消息:即便資料不夠好,它可以修復
即便你的資料集是淩亂的而非結構化,也有辦法獲得好的結果。今天,資料科學家已經準備好在起步階段應用一些方法,重組、清洗資料集,並進一步優化得到更好的建模效果。
但壞消息是,資料科學家可能需要相當長的時間完成資料清洗並進行到建模階段。如果你沒有專業知識,是否應該提前自己處理?一般來說是否定的,因為即便自己做了,最後的資料集也可能需要重新處理。
步驟四:彌合技術和商業願景之間的差距
如果你問資料科學家最喜歡的演算法,你可能會聽到決策樹、神經網路、邏輯回歸、Kernel 方法、主成分分析等。但是這些演算法如何和商業願景結合起來?你會需要一個懂得業務和基本資料分析知識的人,他能夠在業務流程中找到機器學習能夠起作用的指標,領導資料科學計畫,擴大機器學習應用場景的選擇,調整業務和技術的願景。
一般來說有四種方法:
1、建立機器學習團隊
機器學習科學家的價格要比普通程式師高很多。當你打算建立一個機器學習的團隊時,一定要給他足夠的支援,因為他需要創造性的工作才能發揮作用,而這往往會和很多組織的結構發生衝突。
2、公司內專家 + 機器學習平臺
你可以使用公司已有的業務專家,在 1-2 個資料科學家的説明下,就可以通過機器學習平臺解決問題。這些平臺往往擁有友好的介面,公司內部的業務專家可以通過短時間的培訓學習如何使用,這樣你就可以把資料計畫擴展到更大的專家組,解決更多的公司業務問題。利益相關,我們推薦自家的產品:第四范式先知平臺。
3、機器學習解決方案公司
現在市面上已經有一些機器學習解決方案公司了,但機器學習和傳統的程式設計不同,因為它需要克服信任的門檻。機器學習解決方案的任務面臨的挑戰是共用資料。根據擁有的資料類型,也許你需要以某種方法匿名化,隱藏敏感資訊,例如客戶連絡人和他們的位置。當然,當你匿名化的時候,你也要接受解決方案公司會難以使用外部資料來豐富資料集以得到更好的建模結果。
4、和大學院校、研究機構合作
大學院校、研究機構已經有很多資料科學的研究生和博士,他們大多擁有建立機器學習模型的能力。不過和高校研究機構合作的費用一般會比較貴。
步驟五:模型過時了,需要更新
大多數的機器學習模型是在靜態資料子集上開發的。一旦部署了模型,它們將會隨著時間的推移而變得過時,預測也會變得不準確。根據業務環境的變化,你應該在一段時間後更換模型,或者重新培訓,一般來說會有兩種基本方法:
A/B測試:一個新的模型會被引入和舊的模型競爭。當新的模型超過了舊的模型,舊的模型就會被替代。這個過程將會一直重複。
線上更新:模型的參數會隨著連續性的新資料流程而變化。
因此,如果你希望機器學習的分析保持在穩定的水準,一定要及時更新機器學習的模型。
步驟六:是否需要定制的演算法
定制的演算法會有一些好處,例如它能夠更匹配你的資料集和要解決的問題,訓練的速度也會更快。但相對應的,它的開發和進一步反覆運算都價格不菲。所以如果你是一個大型企業,你可以考慮採用定制演算法;如果你是中小型的企業,定制演算法會帶來嚴重的財務和管理負擔。
實際上,如果是常見的預測任務,那麼現成的演算法模型是可行的。通過一些成熟的演算法,集成好的機器學習軟體,你可以很輕鬆的部署機器學習系統,快速解決業務流程中的問題。
無論你最終是否決定定制演算法,我們都建議你先用成熟的演算法試一試。
參考文章:
Developing Machine Learning Strategy for Business in 7 Steps,altexsoft.
How to Make Your Company Machine Learning Ready,hbr.
「范式大學」由第四範式發起,致力於成為“資料科學家”的黃埔軍校。「范式大學系列課程」會和大家推薦戴文淵、楊強、陳雨強等機器學習領域頂尖從業人士的最新分享,以及由第四範式產品團隊推薦和整理的機器學習材料。