淘新聞

一篇文章告訴你如何成為資料科學家

通常來說,年輕人都很容易立志成為什麼,例如成為一名科學家,然後又很快放棄。這一方面是因為擺在他們面前的誘惑太多,也因為成為一名科學家真的很不容易。

這一點放在資料科學上尤其突出。實際上,近年來隨著資料科學和機器學習的火爆,我們經常能遇到剛畢業的大學生立志成為資料科學家,但很快又放棄的例子。究其原因,我認為在很大程度上是因為要成為一名真正的資料科學家,需要掌握的專業知識實在是太多了:包括電腦科學、程式設計基礎、數學知識、機器學習演算法甚至商業洞察力等等。

看起來這些知識無窮無盡,而且還在不斷地發展和變化,似乎終其一生也無法完全掌握。但實際上並非如此,下文我們整理了成為資料科學家的四個關鍵因素,它們並沒有想像中的龐雜,而且正是由於不斷的發展和變化,因此對於新手來說通常只需要關注其中比較核心的基礎知識就可以了。

成為資料科學家的四個關鍵因素:

程式設計基礎

:例如 R 語言和 Python 語言,這兩種語言是資料科學家們最常使用的資料建模、資料清理和資料管理語言。

機器學習核心演算法

:例如回歸、樸素貝葉斯、支持向量機 SVM(Support Vector Machine)、隨機森林等,大部分面試官都希望面試者們能瞭解這些最基本的機器學習演算法。

在恰當的問題上磨煉自己

:對於資料科學家而言,優秀和偉大之間的一個重要差別就是:找准一個恰當的問題並為之鍥而不捨的能力。

能講述一個激動人心的故事

:這將有助於你說服客戶並讓他們最終採納你的意見。

下面我們圍繞這四點展開闡述。

程式設計語言

與精通一門或者一系列程式設計語言相比,資料科學家應該更關注程式設計的靈活性。即他們需要具備遷移學習的能力,將一種語言的程式設計技巧輕鬆遷移到當前專案需要的語言中,目標是找到解決問題的最佳方案。

為此,對新手來說最好的辦法是先學習一些應用廣泛的基礎性語言。例如專注於統計計算的 R 語言,以及更具通用性的 Python 語言。

一旦你熟悉了這兩種語言,那麼學習其他新語言就會容易得多,因為它們之間一定存在一些通用的特性和語法細節。

總之,作為一名資料科學家,程式設計語言只是一種工具,你並不需要成為程式設計領域的專家。但你必須熟悉它們,以便於利用這些工具解決一些現實的資料研究問題,以及一些簡單的編碼和調試問題。

機器學習演算法

這裡首先需要強調的是,在機器學習演算法中我們仍然應該專注於基礎知識,避免盲目追求最新技術。

這是因為沒有了基礎的支持,最新的技術成果也將變得毫無意義。一個資料科學家應該關注于技術核心,例如評估機器學習分類演算法的優劣,瞭解客戶更關心哪些分類錯誤等。畢竟,真實成本分析比準確率更有價值。

同樣,懂得各種機器學習演算法之間的差異,能夠為模型選擇最恰當的參數也非常重要。

一般基礎的機器學習分類器包括邏輯和線性回歸、樸素貝葉斯、隨機森林和 K 均值聚類等。

這裡需要強調的是:機器學習是一個不斷發展變化的學科,不要試圖一蹴而就。也就是說,作為資料科學初學者,你不應該把太多的精力放在機器學習和人工智慧上,而應該多考慮一些非技術的要素。

非技術性要素

認為技術要素是促成最終成功的最大驅動力,是一個非常常見的錯誤,對於資料科學家而言,我認為溝通技巧和解決問題的能力也許更加重要。

因為這些能力將有助於你取得諸多具有影響力的成果:包括增加公司收入、創新產品甚至改變整個行業的走向。最終你將從一名普通的 SQL 程式猿成長為一個值得信賴的商業夥伴。下面列出我認為最重要的三點非技術要素。

1.

我認為最關鍵的一個非技術要素就是“

資料直覺

”(data intuition),即結合領域內的專業知識和商業敏感性,提出最深刻的見解,並能夠快速決策的能力。資料直覺可以讓從業者以多種不同的方式理解資料,找出資料中的異常值,以及最不容易發覺的變化趨勢。

通常情況下我都會把處理資料問題視為一個檸檬,即隨著時間的推移,通過不斷努力,我究竟能從這顆檸檬裡榨出多少有價值的果汁。而這也是資料直覺的含義:為了找到最優的解決方案,你已經嘗試了所有可能的方法,從資料中發掘了所有有價值的資訊。

當然,培養自己的資料直覺需要時間,也需要實踐的積累。實際上,一個最有效的培養方法就是參與一些與自己的工作和生活息息相關的項目,例如買房子、或者買一輛新的山地自行車。另一個方法是處理與自己的愛好相關的資料。這種方法的優勢是:你對自己喜歡的行業已經有了一定的前期瞭解,另外你對該問題的結論也具有天然的熱情。最終,在這些項目中總結和積累的“直覺”將被應用於其他的資料分析場景。

2.

我認為第二點非常關鍵的非技術因素是解決問題的能力,也就是

將客戶的需求轉化為具體的問題,並將其分解成一系列可以切實執行的解決方案的能力

。以下是我在這方面的一些經驗總結,僅供參考:

深刻認識問題的內容和意義,只有充分認識了問題,才能解決問題;

找到可用資料,如果資料的格式有問題,找出解決辦法;

分析資料,並發掘其中決定性的變化趨勢,找到最能說明問題的變數或特徵;

研究哪種分析演算法和模型最高效,並預測、解釋結果;

將你的分析結果分享給利益相關者,並向他們徵求意見。

3.

最後一點非技術要素:認識到你的工作不僅僅是資料分析,它也包括向非技術人員提供大資料意見指導。因為大多數普通使用者並不會談論資料,他們只關心營收、銷售、推廣和產品。

將專業技術轉化為業務支援,這才是作為資料科學家的工作核心。

現在,請牢記上述四個關鍵點,向著資料科學家的目標奮勇前進吧,助你好運!

注:本文來源

medium

,原作者是 UCLA 統計學博士,雷鋒網編譯

雷鋒網(公眾號:雷鋒網)相關閱讀:

資料科學家=最佳職業?美招聘平臺將其評為全美最理想工作

一張圖看懂資料科學家、資料工程師和軟體工程師之間的區別

亞馬遜資料專家十年經驗總結:成為資料科學家的關鍵四步