您的位置:首頁>手機>正文

資料諮詢師經驗之談:90% 的公司並不需要機器學習

編者按:掌握一件工具之前,首先要搞清楚用它做什麼。而本質是工具的機器學習,近年來逐漸演變成一股潮流。

在美國企業資料方案諮詢師 Eric Brown 看來,當下無數公司置其資料資本和實際問題與不顧,一窩蜂上馬機器學習,實在是荒唐可笑。他特地發文表達了對該現象的批判和反思。雷鋒網編譯。

Eric Brown

Eric Brown:資料科學家要用資料說話。從數據上來看:你,和你的公司,並不需要機器學習。

我是認真的。

或許你不同意,那麼聽我解釋。我說“從資料上看”,指的是對於當今世界的絕大多數公司,機器學習(ML)既非必要也無益處。各公司想要利用 ML 來處理的絕大部分任務,都是十分直接的問題——使用某種形式的回歸即可完美解決。後者或許不是你在高中代數課上學到的線性回歸,但仍會是某個回歸函數。雷鋒網瞭解到,著名經濟學家 Robin Hanson 最近發表了相同觀點,他在推特上說道:

“一個優秀的電腦專家會說:大多數公司以為他們需要先進的 AI、ML 技術,其實,他們真的只需要在乾淨的資料上做線性回歸。”

這句話中,“乾淨的資料“是重點。它極度、極度重要,但相當多的公司總是在處理資料時忘記、或者忽視這一點。若沒有合格的資料品質,以及到位的資料治理、管理流程和系統,有極大的可能性你會陷入垃圾資料陷阱——

“向模型輸入的是垃圾,輸出的也是垃圾”

。太多資料項目目如此,結果不了了之。

大多數公司並不知道資料管理是什麼

我並不是一個資料管理、資料品質方面的專家導師。但我對這個領域有一定的瞭解——足夠讓我清楚不合格、不到位的資料管理是什麼樣。況且我經常遇到這些情況。在我與公司客戶合作、説明他們開展新資料專案的工作經歷中(到現在已經變成了主要是討論 ML 和深度學習),

我問客戶的第一個問題永遠是:

“告訴我你的資料管理流程”

。如果對方不能合理地描述出這些流程,那麼很顯然 ML 並不合適——他們還沒有做好準備。

過去的五年裡,我估計有 75% 的情況下,客戶對我的資料管理問題的回答是:

“ 嗯……我們有一部分資料存在一個資料庫裡,其他資料存在有合法許可權的檔共用裡。”

這不是資料管理,是資料存儲。

如果你或你的公司並沒有高品質、乾淨的資料,幾乎可以斷定,你並不適合機器學習(機器學習也不適合你)。搞任何資料項目目,資料管理都是第一步。

如果你有搞資料管理

來找我的公司機構裡,有一小部分安排了合格的資料管理工作。他們理解對於好的資料、好的分析而言,品質、治理和管理有多麼重要。如果你的公司也是如此——恭喜你,在這方面你已經超過了絕大部分競爭對手。

但我要給你潑點冷水。僅僅因為有乾淨、高品質的資料,不意味你應該/需要搞機器學習。當然你可以搞,但大多數情況下真沒這個必要。

過去五年向我諮詢過的所有公司裡,我會說:

他們原本要用機器學習解決的問題,有 90% 最後只用了普通回歸方式就完美解決。

每當我推薦用簡單的回歸,來解決客戶眼中的“複雜、高深”問題(雷鋒網住:他們下定決心要研發多重 ML、DL 模型來對付),人們總是相當驚訝。我也總是不得不向他們解釋,他們可以走機器學習的路線,而且那樣做

或許

也有價值。但能搞清楚基礎建模、回歸能為你做什麼,ML/DL 是否在一些領域比基礎回歸函數更好,難道不是一件好事嗎?

你說:我鐵了心要搞機器學習

我還能說啥?那就大膽去做!沒什麼能阻擋你一直跋涉到 ML 和 DL 的深水區。畢竟機器學習有它的用處和舞臺。只是記住:

在充分瞭解你的資料,搞明白“經典”方法能為你要解決的難題做到哪一步之前,不要一股腦兒得栽進機器學習。

via 

Eric Brown

喜欢就按个赞吧!!!
点击关闭提示