免費!10 本機器學習和資料科學的必讀書籍推薦
雷鋒網按:Matthew Mayo 是知名資料科學網站 KDnuggets 的副主編,同時也是一位元資深的資料科學家、深度學習技術愛好者,在機器學習和資料科學領域具有豐富的科研和從業經驗。近日,他在 KDnuggets 上推薦了一份機器學習和資料科學相關的免費必讀書單,雷鋒網特來與大家分享。
需要提前說明的是,這份書單大致以由淺入深的順序排列:首先是關於資料統計,接著是機器學習,最後是一些綜合性的更宏觀的書籍。所有書籍均為英文原著,有中文譯本的我們也都給出了相關連結。
以下是書籍清單和簡單介紹:
Think Stats: Probability and Statistics for Programmers
作者:Allen B. Downey
本書中文名為:《
統計思維:程式師數學之概率統計
》。從書名就能看出來,這本書是為程式師群體量身定制的統計學內容介紹,具體內容基於 Python 語言。
本書著重介紹了許多可以用來探索真實資料集的簡單技術,同時還能利用這些技術回答許多非常有趣的統計問題。該書的樣例基於美國國家衛生研究院的真實資料庫,並鼓勵讀者基於真實的資料進行相關研究。
本書有中文譯本,目前英文原版也已經上線了第二版,連結如下:
英文地址:
http://greenteapress.com/wp/think-stats-2e/
中文地址:
https://www.gitbook.com/book/jobrest/statistical-thinking/details
Probabilistic Programming & Bayesian Methods for Hackers
作者:Cam Davidson-Pilon
本書中文名為《
貝葉斯方法:概率程式設計與貝葉斯推斷
》,以計算/理解為主,數學內容為輔,重點介紹了貝葉斯方法理論和概率程式設計。
作為推斷中最自然和常見的方法,貝葉斯推斷一般以晦澀難懂的數學分析理論為大家所熟知。按照一般的模式,在介紹貝葉斯之前,通常都要先介紹兩到三章的概率論的相關內容。等到概率論介紹完,又常常由於貝葉斯模型的數學複雜度太高,因此只能向讀者展示一些最簡單和粗糙的貝葉斯樣例,於是給讀者造成了一種“貝葉斯似乎也沒什麼用”的錯覺。本書則另闢蹊徑,以簡單通俗的講述開始,由淺入深地介紹了貝葉斯理論在駭客和概率程式設計中的應用。
中文購買地址:
http://dwz.cn/5Kedr9
英文地址:
http://t.cn/zQZ1p2m
Understanding Machine Learning: From Theory to Algorithms
作者:Shai Shalev-Shwartz 和 Shai Ben-David
本書中文名為:《
深入理解機器學習:從原理到演算法
》,書中從原理性的內容出發,介紹了機器學習的基本理論和演算法範例,同時給出了將這些基礎理論轉化為實際演算法的數學推導過程。介紹完這些基礎理論之後,本書又介紹了許多其他相關書籍很少涉及的核心內容,包括:模型訓練的計算複雜度,穩定性和凸性(convexity)的概念,隨機梯度下降、神經網路等演算法範例,以及 PAC-Bayes 和 compression-based bounds 等新概念。
英文地址:
http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/
中文購買地址:
http://dwz.cn/5Ke6ne
The Elements of Statistical Learning
作者:Trevor Hastie, Robert Tibshirani 和 Jerome Friedman
本書在一些通用概念框架的基礎上介紹了統計學的一些重要思想。雖然書中的許多方法都是基於統計學的,並提供了樣例說明和彩色配圖,但核心思想是在向讀者闡述概念和思想,而並非數學知識。除了統計學概念之外,書中還涉及了神經網路、監督學習、支援向量機、分類、預測和非監督學習等非常豐富的內容。適合於對行業資料採擷感興趣的統計人員和所有對新興科技感興趣的朋友。
中文地址:
http://www.loyhome.com/elements_of_statistical_learining_lecture_notes/
英文地址:
http://statweb.stanford.edu/~tibs/ElemStatLearn/
An Introduction to Statistical Learning with Applications in R
作者:Gareth James, Daniela Witten, Trevor Hastie 和 Robert Tibshirani
本書中文名為《
統計學習導論:基於R應用
》,書中以 R 語言為基礎,詳細介紹了統計學習的核心方法和應用,內容涉及線性回歸、分類、再抽樣方法、壓縮方法、樹方法、聚類、支援向量機等。同時,書中提供了大量基於現實資料的樣例,這些資料來自近 20 年來生物學、金融學、市場行銷學和天體物理學等諸多領域。本書主要面向非數學專業的高年級本科生、碩士研究生和博士生。
中文購買地址:
http://dwz.cn/5Ke5dE
英文地址:
http://www-bcf.usc.edu/~gareth/ISL/
Foundations of Data Science
作者:Avrim Blum, John Hopcroft 和 Ravindran Kannan
雖然電腦科學的傳統領域仍然非常重要,但是現在已經有越來越多的研究員開始著眼于如何使用電腦來理解和挖掘潛藏在大量資料中的有用資訊,而不僅僅是用電腦來解決實際的應用問題。本書詳細介紹了資料科學的基礎理論和應用,作者在前言中指出:“我們希望讀者可以從本書中學到在未來 40 年仍然有用的資料科學基礎知識,正如自動化相關的理論和演算法在 40 年前做的一樣。”
英文地址:
https://www.cs.cornell.edu/jeh/book.pdf
A Programmer's Guide to Data Mining: The Ancient Art of the Numerati
作者:Ron Zacharski
本書是一個以實踐操作為主的循序漸進式的程式設計參考,主要以 Python 代碼為基礎,面向資料採擷的相關使用場景。作者在介紹中表示:“我希望你能參考書中給出的代碼,積極參與資料挖據技術的實踐程式設計,當你完成全書的所有內容時,實際上已經為資料採擷技術奠定了堅實的基礎。”
英文地址:
http://guidetodatamining.com/
Mining of Massive Datasets
作者:Jure Leskovec, Anand Rajaraman 和 Jeff Ullman
本書中文名為《
大數據:互聯網大規模資料採擷與分散式處理
》,由斯坦福大學 CS246: Mining Massive Datasets 和 CS345A: Data Mining 課程的內容總結而成,主要關注極大規模資料的挖掘。主要內容包括分散式檔案系統、相似性搜索、搜尋引擎技術、頻繁項集挖掘、聚類演算法、廣告管理及推薦系統。大部分章節後都配有對應的習題,以及豐富的擴展閱讀推薦,用以鞏固所講解的內容。據官網介紹,本書的內容不涉及任何預備知識,任何人都可以直接學習。
中文地址:
http://bestcbooks.com/B009HEK8SO/
英文地址:
http://mmds.org/
Deep Learning
作者:Ian Goodfellow, Yoshua Bengio 和 Aaron Courville
本書為 Yoshua Bengio 和 Ian Goodfellow 等大神合著的深度學習教科書,該書主要分為三個部分:機器學習和數學基礎,深度學習的基礎實踐,深度學習的進一步研究。全書內容扎實、講解細緻、深入淺出,特別適合深度學習的初學者通過這本書正式入門機器學習領域的研究。
中文地址:
https://github.com/exacity/deeplearningbook-chinese
英文地址:
http://www.deeplearningbook.org/
Machine Learning Yearning
作者:吳恩達(Andrew Ng)
這是大神 Andrew Ng 的一本書,官網描述稱:
AI,機器學習和深度學習正在改變眾多的行業。但如何搭建一個真正的機器學習系統,首先需要解決如下幾個問題:
應該收集更多的訓練資料嗎?
應該使用端到端的深度學習嗎?
如何處理與測試集不匹配的訓練集?
等等。
此前,關於如何解決這些問題的唯一途徑是研究生課程或諮詢公司。現在我正在寫一本相關的書籍,希望能幫助各位朋友解決類似的問題,幫助大家更好地搭建 AI 系統。
英文地址:
http://www.mlyearning.org/
來源:
kdnuggets
,雷鋒網編譯
雷鋒網相關閱讀:
機器學習漫遊指南 最完整的入門書單(外文版)
原版教材太貴?這幾本機器學習好書其實不需要花錢
免費教材資源第二彈!這回側重資料科學