快好知 kuaihz

一本接地气的数据分析教程

一本接地气的数据分析教程

■武夷山

(发表于2020年12月10日《中国科学报》)

2021年1月,英国剑桥大学出版社即将推出一本教材,题目是Data Analysis for Business,Economics,and Policy(本文作者译为“面向经管和政策应用的数据分析”)。

本书有两位作者。Gábor Békés是中欧大学(由美国纽约州教育局授权、纽约州大学董事会管理的教育机构,它有两个校区,分别位于奥地利首都维也纳和匈牙利首都布达佩斯,其颁发的学历同时被美国、奥地利和匈牙利三国所认可)经管系副教授,也是匈牙利科学院经济研究所的资深研究员。他给研究生讲授数据分析和经济地理学课程已有8年。他还为欧盟做过政策咨询,为金融企业、商务智能企业和房地产企业做过咨询。

另一位作者Gábor Kézdi 曾在中欧大学担任经济学教授14年,现为美国密歇根大学社会研究所的科研副教授。2002年以来,他一直讲授从本科生层次到博士生层次的数据分析、计量经济学和劳动经济学课程,还指导过多名硕士生和博士生。他也有为政府部门和非政府部门进行咨询的经历。

匈牙利人的数学很棒,所以我对这两位匈牙利人撰写的数据分析教材充满期待。

本书为未来的数据分析师提供了工具、方法和技巧,帮助他们回答现实生活中的相关问题,也帮助他们在回答相关问题时选择适当的方法,并对分析结果给予可视化展示和解释,以更好地支撑工商管理、经济和公共政策领域的决策。教材全面介绍了数据整理和探索、回归分析、基于机器学习的预测和因果分析,也叙述了相关方法何时管用、为何管用及如何管用,交代了各种方法的相互关系。

传授数据分析方法的最有效方式是案例,故本书呈现了47个案例。每个案例都是先提一个具有产业意义的问题,然后利用现实生活中的数据和本书介绍的工具和方法来回答该问题。

为了巩固学习效果,本书提供了360多个实际问题,还有110个数据练习题。配合书中内容有一个专门的网站,那里提供了本书所有分析用到的原始数据和清洗过的数据,以及为清洗数据、获得分析结果、制图制表而采用Stata、R和Python软件所撰写的代码。这样,读者可以尝试各种软件代码,比较不同软件的运行结果有何差异。

两位作者强调,数据分析是一个多步骤的过程。第一步是形成问题,收集合适的数据,或是评估现成的数据是否有助于回答问题。下一步是数据清洗和组织,这一步很乏味但是至关重要。

笔者对这一看法举双手赞成,我曾多次说过,“做文献计量研究,数据清洗怎么强调都不过分!”而文献计量研究就是一种特殊的数据分析。

本书作者说,数据清洗和组织这一步对分析结果的影响,抵得上数据分析过程其他任何步骤的作用。探索性数据分析的任务是给最终结果提供语境,帮助确定所用分析方法的细节。主体分析的任务是,选定回答问题所需方法并加以实施,并开展鲁棒性检验。再往后,对结果的正确解释和有效展示是至关重要的。仔细设计的数据可视化有助于概括数据分析的发现,传递关键信息。最后一步是回答最初提出的问题,指出潜在的限定条件和未来的探究方向。

本书分为四个部分,共24章。第一部分,数据探索。数据来源;为分析而准备数据;探索性数据分析;比较与相关性;根据数据进行外推;检验假说。

第二部分,回归分析。简单回归;复杂模式和混乱数据;回归结果的推广;多重线性回归;为概率建模;基于时间序列数据的回归。

第三部分,预测。预测框架;面向预测的建模;回归树;随机森林和提升方法;概率预测与分类;基于时间序列数据的预测。

第四部分,因果分析。因果分析框架;实验之设计与分析;基于观察数据进行回归与匹配;双重差分法;面板数据方法;面板数据的合适对照组。

作者认为,本书对于修习应用统计学和经济计量学、定量方法、数据分析等课程的研究生是特别合适的。本科生也可利用此书,但该教材要求的作业量超出多数本科生的日常工作负荷。本书亦可作为数据分析实践者的操作手册来使用。

在大数据时代,我们特别需要像本书这样接地气的数据分析教程。

《中国科学报》 (2020-12-10 第7版 书评)

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:一本接地气的数据分析教程  一本  一本词条  接地  接地词条  数据分析  数据分析词条  教程  教程词条  
观点

 [转载]2020年高考及化学的考...

2020年高考的考查重点考向1:基础性:强调基础扎实高考关注主干内容,关注今后生活、学习和工作所必须具备、不可或缺的知识、能力和素养,因此要求学生对这一部分内容...(展开)