年薪百萬的機器學習專家,為什麼不產生價值?
雷鋒網按:本文為「范式大學系列課程」第 3 篇文章:年薪百萬的機器學習專家,為什麼不產生價值?
Part 1
一個朋友的企業,他們招聘了 2 名機器學習方向的資料科學家,加起來年薪百萬。
但一段時間的蜜月期後,他們發現機器學習專家沒有給公司帶來實際價值。高管們不知道他們具體做了什麼,業務人員每週都給他們提出預測需求,卻很少能在短時間得到回應。
不到一年,公司和機器學習專家們就不歡而散了。
Part 2
巧合的是,從他們公司離職的機器學習專家是我的朋友。
當我問他這個問題時,他說自己每天都忙得不可開交,卻得不到公司其他人的理解。他和我描述了自己的工作過程。
他花了很多時間搭建了機器學習需要的計算環境。
他花了很多時間做建模前的資料清洗和處理。
他花了很多時間做模型選擇和參數調整,以得到更好的結果。
他花了很多時間做即時預測的功能,為了達到毫秒級的延遲花費了大量心血。
……
實際上,要完成一個機器學習的模型要做很多事情。團隊人數本來就少,事情又多,他的興趣只能集中在模型本身上了。
至於這些模型對應的業務問題,例如怎麼定義問題,確定哪個指標?雖然也重要,但他覺得這些主要是業務人員去解決的。
(估計業務人員也覺得,這是屬於機器學習專家解決的事情)
Part 3
實際上,這個問題不是個例,大部分公司在引入機器學習專家後,都會面臨這樣的疑問。
來自 MIT 的機器學習研究員 Kalyan Veeramachaneni 曾經做過一次調查,在一個 150 個機器學習愛好者的小組中,他詢問說:“你們有多少人建立過機器學習的模型?”大約有 1/3 的人舉手。而當他進一步問:“有多少人使用這個模型產生價值並衡量它?”結果沒有一個人舉手。
換句話說,機器學習專家們把 90% 的時間都放在了資料準備、處理、特徵工程、建模、調參上,而背後的業務問題和商業問題, 很多時候沒有納入嚴格的考慮。
但是要讓資料產生真正的價值,就要把資料和商業價值聯繫起來,這至少要花費 50% 以上的精力。
Part 4
相比之下,更為理想的局面是建立機器學習工程和商業價值之間的平衡。一般來說有 5 個原則:
1.從最簡單的模型開始
邏輯回歸或者那些基於隨機森林、決策樹的模型,就足以解決大部分的問題。所以你的重點,應該放在縮短資料獲取和模型建立的時間。
2.探索更多問題
相比於通過一個難以置信的模型探索一個業務問題,你應該探索數十個問題,然後為每個問題都創造一個相對簡單的預測模型,並評估模型背後的商業價值。
3.用全部的資料和特徵訓練模型
過去機器學習的能力不夠,很多時候是依靠人力篩選出樣本資料和特徵進行模型訓練。但隨著計算資源越來越便宜,人力成本越來越高,你應該用全部的資料和特徵訓練模型,以得到更好的效果。
4.業務驅動模型
讓機器學習專家和業務人員有更多的配合。實際上,很多想法都來自於業務部門的設想,機器學習專家和他們一起探索出對公司有價值的解決方案。
5.專注於自動化
為了更快地獲得第一個模型,縮短探索問題的速度,公司要自動執行通常由手動完成的任務。我們發現在不同的資料問題中,背後都應用了類似的資料處理技術,無論是在資料清洗、準備階段,還是在資料建模階段,亦或是在模型上線階段。
Part 5
這 5 個原則說的是,如果說機器學習是一場戰役,過去強調的是戰士的能力和經驗,現在則更為強調軍火的選擇。
就像在伊拉克戰爭中,美國部隊強調的是每平方公里的彈藥投放量,最終投放了 60 億顆彈藥。雖然是一個不太恰當的比喻,但是機器學習未來的趨勢就是大規模機器學習平臺的出現,通過大規模計算解決具體的業務問題。大規模機器學習平臺,就是企業未來最重要的軍火。
所以對於機器學習專家來說,他也許不能一個人就把事情做完,但是給他工具就可以了。
Part 6
在我的介紹下,那位機器學習專家又回到了那家公司,1 個人,1 個月,完成了過去 1 年都沒完成的工作。
參考資料:
Why You’re Not Getting Value from Your Data Science
Data has no value if it lacks a purpose
The Missing Link in Why You're Not Getting Value From Your Data Science
「范式大學」由第四範式發起,致力於成為“資料科學家”的黃埔軍校。「范式大學系列課程」會和大家推薦戴文淵、楊強、陳雨強等機器學習領域頂尖從業人士的最新分享,以及由第四範式產品團隊推薦和整理的機器學習材料。