如果要一句话概括数据科学的本质,那就是:
如果你是一个初学者,那么这将对你正在运营的新项目帮助极大。如果你是一个有经验的数据科学专家,那么我想你已经懂我在说什么了。
然而,当我向人们给到此类建议时,他们通常会反问我——那我可以在哪里获取到数据集进行练习呢?可能有的同学们还不太了解,现在有很多数据集是开放的。
如果你现在也需要大量的数据集进行练习,那么本文就可以解决你现在的困境,你可以利用这些数据进行练习,甚至可以利用它们创建自己的项目,甚至是产品。
如何利用这些资源?
对于数据的应用来说,是无止境的。如果在这里提供了具体的应用方法或者使用方式只会限制你的创造力。
我想最简单的方法就是使用她们来创建自己的“数据故事”,并将其发布在自己的博客里。这不仅可以提高你的数据可视化技能,还可以提高你的结构化思维。
另一方面,如果你正在考虑或者已经在运营一款数据产品,本文中的这些数据集将可以为你提供额外的新的数据源。
在本文中,我将这些数据源基于应用将其分为不同的类别。首先从简单通用且容易处理的数据集开始,然后最后是大量的或行业相关的数据集。接下来我们再来为特定的需求来进行为本挖掘、图像分类等等。
如果你还想到了其他的数据集资源,请在评论中与我分享哦~
简单&通用的数据集——for 初学者
data.gov(https://www.data.gov/)——这是美国政府公开数据源的站点。Data.gov提供各种数据及标准数据接口,方便用户下载数据,参与政府事务,提供反馈意见和建议,消除政府和公众之间的信息不对称问题。这个站点上有多种领域的数据,包括气候、教育、能源和金融等等。
data.gov
data.gov.in(https://data.gov.in/)该站点为印度政府的公开数据网站。在该站点上你可以找到各种行业的数据,类似气候、健康等等。
data.gov.in
World Bank(http://www.shihang.org/)从该网站上你可以获取到世界银行的公开数据。该站点提供类似数据目录、DataBank和微数据这样的数据工具可供你在线使用。
World Bank
RBI(https://rbi.org.in/Scripts/Statistics.aspx)该站点为印度央行的公开数据。你可以在该站点中查看到类似货币市场业务、国际收支以及一些产品的使用等等。如果你身处印度的BFSI(Banking, Financial services and Insurance)行业,我想这是一个你必去的网站。
RBI
Five Thirty Eight Datasets(https://github.com/fivethirtyeight/data),该站点中的每一个数据集中都有大量的数据,以及一个对数据进行解释的字典。如果你正在学习如何创建数据故事,那么。这将是你最好的选择。
Five Thirty Eight Datasets
大数据集——难度提升!
Amazon Web Services (AWS) datasets(https://aws.amazon.com/datasets/)亚马逊提供了一些大数据集,你可以在他们的平台或者本地计算机上使用。
Google datasets(https://cloud.google.com/bigquery/public-data/)作为BigQuery的一部分,Google提供了一些大数据集,该站点上的数据集包括婴儿名字,GitHub的公开数据等等。
Youtube labeled Video Dataset(https://research.google.com/youtube8m/)几个月前,Google Research Group发布了Youtube的数据集。其中包括800万Youtube视频ID和相关标签。
预测模型&机器学习数据集
UCI Machine Learning Repository(https://archive.ics.uci.edu/ml/datasets.html)UIC机器学习库显然是最著名的数据存储库。这通常是你寻找数据集相关的第一个机器学习库。在这里有各种数据集,从泰坦尼克相关数据到最近的空气质量和GPS数据等。存储库中有超过350种分类。你可以利用这些分类过滤器来确定自己需要的数据集。
Kaggle(https://www.kaggle.com/datasets)该站点是一个可以让人们捐赠自己的数据集的地方,同时其他的成员可以对其进行使用和优化。他们有超过350个数据集。这个站点的另一个优势在于 ,你可以看到其他成员的提问和他们写的脚本等信息。
Analytics Vidhya(https://datahack.analyticsvidhya.com/contest/all/)你可以从该站点下载数据集,但是该站点的数据量级相对较小。
Quandl(https://www.quandl.com/)该站点提供经济、金融以及其他各种他们通过自己的网站/API获取并整合的公开数据源。在该站点上的数据源分为公开版和高级版。你可以免费使用公开版的数据源,但是需要支付一定的费用才可以访问高级版。
Past KDD Cups(http://www.kdd.org/kdd-cup)KDD Cups是ACM Special Interest Group组织的竞赛,每年举行一次,有关发现和数据挖掘。获奖者可以使用其中的大部分资源。
Driven Data(https://www.drivendata.org/)Driven Data发现数据科学可以用来对社会产生积极的影响。然后他们通过运行在线建模竞赛的方式让数据科学家可以开发最好的模型来解决这些问题。
图像分类数据集
The MNIST Database(http://yann.lecun.com/exdb/mnist/)该站点是最受欢迎的手写数据图像识别数据集。这个站点上有6万个训练案例和1万组练习集。这通常会是新手使用的第一个图像识别训练数据集。
The MNIST Database
Chars74K(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/)该站点上是图像识别的下一个阶段,如果你已经掌握了手写图像数据,在该站点上你可以得到很多关于自然图像识别的数据集。在该站点上包含了74000张图片。
Chars74K
Frontal Face Images(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html)如果你已经对前两个站点的项目有一定的了解,那么这个站点就是下一个挑战——人脸识别。图片是由卡内基梅隆大学和麻省理工大学整理收集,分别存放在4个文件夹下。
Frontal Face Images
ImageNet(http://image-net.org/)现在要为大家介绍一些通用的资料。图像数据集是根据WordNet的层级来组织的。
ImageNet
文本分类数据集
Spam – Non Spam(http://www.esp.uem.es/jmgomez/smsspamcorpus/)这是一个对垃圾信息标记收集的研究站点。
Spam – Non Spam
Twitter Sentiment Analysis(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)该站点中包含1,578,627个已经分类的推特状态。每一条都被标记了是积极情绪还是消极情绪。数据是基于Kaggle和Nick Sanders的调研结果。
Twitter Sentiment Analysis
Movie Review Data(http://www.cs.cornell.edu/People/pabo/movie-review-data/)该网站提供了有关电影评论的集合文件,用正面或者负面情绪以及主观评级将其标注。
Movie Review Data
推荐引擎数据集
GroupLens(http://grouplens.org/)该站点通过对真实的个人创建深度分析系统,来改进社交计算的理论和实践。同时在GroupLens Research中,收集了MovieLens中的网站数据集,根据数据集的大小,在不同的时间段收集数据。
GroupLens
Jester(http://www.ieor.berkeley.edu/~goldberg/jester-data/)这是一个有关线上笑话评论系统的数据集。
Jester
其他数据源网站
KDNuggets(http://www.kdnuggets.com/datasets/index.html)在KNDuggets上的这个页面一直是人们寻找数据集的一个页面。但是有一些数据源已经不再提供数据集,所以建议在下载或者使用时谨慎按需选择。
KDNuggets
Awesome Public Datasets(https://github.com/caesar0301/awesome-public-datasets),这是一个GitHub上的数据集分类综合列表。在这个列表中数据集被分为各种种类。
Awesome Public Datasets
Reddit Datasets Subreddit(https://www.reddit.com/r/datasets/)因为这是一个社区论坛,可能你会觉得这个网站又短混乱。但是,你可以通过人气对数据集排序,来查看最受的欢迎的数据集是哪些。同时在这个站点上你可以发现很多有趣的讨论。
Reddit Datasets Subreddit
小结:
希望以上资源对于大家学习数据科学有所助益。对于初学者来说,这绝对是个实战练习的绝佳资源。如果你还有其他的数据科学练习资源,欢迎在评论区和大家分享~!
本文为头条号作者发布,不代表今日头条立场。