学习数据科学,到底应该看哪些书?
网络上的免费资源、书籍推荐让人眼花缭乱,东一榔头西一棒槌,不免让人心生从入门到放弃之感。
现在,福利来了:Medium博主Brenda Hali整理出了一份数据科学最佳免费电子书大合集。
25强选手,从数学到Python,再到数据挖掘、机器学习,应有尽有,任君挑选。
数学类
欲学人工智能,先要打好数学基础。数学类六强选手名单如下:
统计学习导论:基于R应用
书名:An Introduction to Statistical Learning
这本书由南加州大学马歇尔商学院院长Gareth James等人出品,主要面向非数学专业的高年级本科生,硕士生和博士生。
该书内容主要由R语言实现,并详细说明了统计学习方法在现实生活中的应用实例。
并且,人大统计学院王星副教授已将此书翻译为中文版。
地址:
http://faculty.marshall.usc.edu/gareth-james/ISL/
统计思维:程序员数学之概率统计
书名:Think Stats
这本书的作者是美国计算机科学家Allen B. Downey。《统计思维》着重介绍了一些简单的技术,读者可以用真实的数据集对其进行探索。
书中使用美国国立卫生研究院的数据进行了案例研究。还有配套的GitHub仓库,提供代码示例。
地址:
https://bit.ly/2Morui2
GitHub:
https://github.com/AllenDowney/ThinkStats2
统计学习基础
书名:The Elements of Statistical Learning: Data Mining, Inference, and Prediction
斯坦福大学数学科学教授Trevor Hastie等人出品。这本书强调的是概念而非数学本身,内文采用大量图表来展示范例。
本书涵盖的范围很广,从监督学习到无监督学习,均有涉及。
地址:
https://web.stanford.edu/~hastie/ElemStatLearn/
简明贝叶斯统计
书名:Think Bayes: Bayesian Statistics Made Simple
关于贝叶斯统计的大多数书籍都是用数学符号来表达思想。这本书则用Python代码代替了数学符号,并用离散近似替代连续。
此书同样附赠配套代码实现,还有人提供了IPython notebooks版本,可以在线修改、运行代码。
地址:
https://greenteapress.com/wp/think-bayes/
IPython notebook:
https://mybinder.org/repo/rlabbe/ThinkBayes
贝叶斯方法:概率编程与贝叶斯推断
书名:Probabilistic Programming & Bayesian Methods for Hackers
这本书旨在从计算/理解第一,数学第二的角度介绍贝叶斯推断。作为一本入门书籍,本门适合非数学专业、对数学没有那么感兴趣的贝叶斯方法实践者。
地址:
http://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/
计算机时代统计推断
书名:Computer Age Statistical Inference
同样来自斯坦福大学,由Bradley Efron和Trevor Hastie两位老爷子共同打造。从经典推理理论开篇,以对统计和数据科学未来方向的推测作为结尾,这本书回顾了1950年以来数据分析革命的始末。
生存分析、逻辑回归、经典贝叶斯、随机森林、神经网络、马尔可夫链蒙特卡罗方法……在这本书中,你都能找到。
地址:
http://web.stanford.edu/~hastie/CASI/
数据科学
介绍完数学,接下来正式进入数据科学部分。共有六本书推荐。
The Elements of Data Analytic Style
这本书侧重于传统统计学课程和教科书容易遗漏的细节,可作为数据科学或数据分析入门课程教材。
地址:
https://leanpub.com/datastyle
程序员数据挖掘指南
书名:The Ancient Art of the Numerati
这是一本入门向书籍,用于学习基本的数据挖掘知识。
大部分关于数据挖掘的书都着重于理论知识的讲解,虽然理论知识非常重要,但还是有些让人望而却步。如果你是一名程序员,想对数据挖掘做一些初步的了解,那么可以选择这本书。
本书采用“边学边做”的方式编写,作者强烈建议读者动手实践每一章结尾提供的练习题。
地址:
http://guidetodatamining.com/
中文版:
https://github.com/yourtion/DataminingGuideBook
社交媒体挖掘
书名:Social Media Mining: An Introduction
本书将社交媒体、社交网络分析和数据挖掘集成在一起,为相关从业人员提供了一个方便的平台,以了解社交媒体挖掘的基础和潜力。
这本书适合作为高年级本科生、研究生课程,以及专业短期课程的教材,内含难度系数不等的练习,可以帮助读者加强理解。
地址:
http://dmml.asu.edu/smm/book/
数据科学的艺术
书名:The Art of Data Science
本书介绍了分析数据的过程。作者是约翰霍普金斯大学生物统计学教授Roger D. Peng和UT奥斯汀教授Elizabeth Matsui,他们在数据分析方面具有丰富的经验。
地址:
http://bedford-computing.co.uk/learning/wp-content/uploads/2016/09/artofdatascience.pdf
数据科学手册
书名:The Data Science Handbook
这本书是25位杰出数据科学家深度访谈的汇编。其中,有来自领域专家的见解、故事和建议。
地址:
https://www.thedatasciencehandbook.com/
数据科学对话
书名:Conversations On Data Science
约翰霍普金斯大学生物统计学教授Roger D. Peng,以及Stitch Fix数据科学家Hilary Parker的对话实录,主题是数据科学及其在现实世界中是如何发挥作用的。
地址:
https://leanpub.com/conversationsondatascience
Python
人生苦短,我用Python。学习人工智能,总是绕不开Python这一趴。
Python面向对象编程
书名:Object-Oriented Programming with Python
此书针对Python 3面向对象编程,是一本简明、权威的指南。语言简明,概念清晰。适合已经对Python有所理解的中级学习者。
地址:
https://leanpub.com/PythonOOP
Python编程快速上手:让繁琐工作自动化
书名:Automate the Boring Stuff with Python
本书是一本面向实践的Python编程实用指南。不仅介绍了Python语言的基础知识,作者还希望通过项目实践,教会读者如何应用这些知识和技能。每一章的末尾都有习题和实践项目,附录部分提供了参考答案。
适合编程基础薄弱的初学者。
地址:
https://automatetheboringstuff.com/
中文版:
https://bit.ly/2PUo0Wx
Python数据科学手册
书名:Python Data Science Handbook
Python科学计算必备资料。
这本书非常适合作为解决日常问题的参考书籍,包括:处理、转换和清除数据;可视化不同类型的数据;使用数据建立统计或机器学习模型。
地址:
http://shop.oreilly.com/product/0636920034919.do
Learn Python, Break Python
这本书由浅入深,从对编程的简要介绍开始,一步步引入更复杂的程序元素。面向初学者。
地址:
https://learnpythonbreakpython.com/
Python自然语言处理
书名:Natural Language Processing with Python
本书对自然语言处理进行了易于理解的介绍。从中可以学习到如何编写适用于大量非结构化文本的Python程序。
地址:
https://www.nltk.org/book/
产品中的数据科学
书名:Data Science in Production
从初创企业到价值数万亿美元的大公司,数据科学正在最大化数据价值方面发挥着重要的作用。本书面向希望在多个云环境中构建数据产品,并开发应用数据科学技能的分析从业人员。
地址:
https://leanpub.com/ProductionDataScience
数据驱动
书名:Data Driven
介绍了Google、Linkedln和Facebook如何利用自身数据,以及沃尔玛,UPS和其他公司是如何在大数据时代到来之前,就充分利用了数据资源的案例。
地址:
https://www.oreilly.com/library/view/data-driven/9781491925454/
机器学习
接下来,进入机器学习书籍的推荐环节。
Scikit‑Learn与TensorFlow机器学习实用指南
书名:Hands-on Machine Learning with Scikit-Learn and TensorFlow
通过具体的示例,最少的理论和scikit-learn、TensorFlow这两大工具,作者将构建人工智能系统的概念和工具直观地展示了出来。同样由浅入深循序渐进,从简单的线性回归开始,一路深入到神经网络。
地址:
https://github.com/ageron/handson-ml
深入理解机器学习:从原理到算法
书名:Understanding Machine Learning: From Theory to Algorithms
本书讨论了学习的计算复杂度、凸性和稳定性、PAC-贝叶斯方法、压缩界等概念,并介绍了一些重要的算法范式,包括随机梯度下降、神经元网络以及结构化输出。
适合有一定基础的高年级本科生和研究生学习,也适合作为IT行业从事数据分析和挖掘的专业人员以及研究人员参考阅读。
地址:
https://www.cse.huji.ac.il/~shais/UnderstandingMachineLearning/toc.html
强化学习简介
书名:Reinforcement Learning: An Introduction
本书对强化学习领域的关键思想和算法进行了简明清晰的说明。
地址:
http://incompleteideas.net/book/the-book.html
深度学习
书名:Deep Learning
Ian Goodfellow,Yoshua Bengio和Aaron Courville共同撰写。旨在帮助学生和从业人员全面了解机器学习,尤其是深度学习。
地址:
http://www.deeplearningbook.org/
Machine Learning Yearning
吴恩达出品。本书的重点不在于机器学习算法本身,而是如何让机器学习算法工作。
地址:
https://www.deeplearning.ai/machine-learning-yearning/
https://github.com/amusi/machine-learning-yearning-cn
数据可视化D3 Tips and Tricks
最后推荐一本关于数据可视化的书籍。
D3 Tips and Tricks介绍了如何利用d3.js这一工具,实现数据可视化。其中包含50多个可以下载的代码示例。
地址:
https://leanpub.com/D3-Tips-and-Tricks
那么,书单在手,快点学起来吧~
博客链接:
https://towardsdatascience.com/the-best-free-data-science-ebooks-b671691e5231
— 完 —
量子位 QbitAI · 头条号签约作者
վ"ᴗ" ի 追踪AI技术和产品新动态