做为一名研究生,回想两年的时光,似乎都在孕育论文中度过。期间体验过各种滋味,有毫无思路的烦躁,有绞尽脑汁的痛苦,有搜不到数据的苦恼,当然也有idea迸发的狂喜和找到数据的喜悦。伴随着每一篇论文的诞生,自己收获很多,也积累了一些经验。其中感触很深的是: 论文需要资源和数据的坚实支撑。在搜集资源和数据这方面,我走过很多弯路,浪费过很多时间,经过不断摸索和学习,我终于从一个只会找度娘的小白,成长为拥有一些搜集技巧的论文党。总之,作为一枚研究生,绕不开的就是论文;而写论文绕不开的就是搜资源。掌握一些权威资源网站和搜集技巧,不仅给我写论文带来很大帮助,而且对学习、生活都有很积极的影响。
下面分享一些我收藏的常用开源网站,它们有一个共性——权威和全面,希望可以帮助大家更加快捷、有效的找到自己想要的数据。以下几个网站包含几乎所有行业的数据集,包括经济、社会、自然科学等领域,而且可以找到各个行业的报告资源。
政府数据
国家数据
http://data.stats.gov.cn/index.htm
数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖。
美国政府公开数据源
https://www.data.gov/
美国政府公开数据源,里面有农业,气候,消费,教育,能源,金融,健康,政府,制造业,海运,海洋,公共安全等领域的数据。数据以数据集方式提供,支持csv,json, xml等格式,并且每个数据集均有用户点评,方便筛选数据。
行研资源
氧分子平台
https://o2.credoo.com/cust/O2sCust/index.html
氧分子大数据平台上推出系列庞大的免费资源,包含各行业研究报告、城市研究报告、市场监测报告等,内容涉及微信公众号,p2p网贷,单车租赁,二手车交易,陌生人交友等各行各行业报告。报告分季度和全年。除此之外,拥有多个权威认证网站链接,以供大家使用。
数据中华
http://www.allchinadata.com/
数据中华在线数据库,包括企业、行业、产品、宏观、海关五大模块,提供数据在线查询分析。
财经数据
CEIC
http://www.ceicdata.com/zh-hans
最完整的一套超过128个国家的经济数据,能够精确查找GDP, CPI, 进口,出口,外资直接投资,零售,销售,以及国际利率等深度数据。
wind(万得)
http://www.wind.com.cn/
万得被誉为中国的Bloomberg,在金融业有着全面的数据覆盖,金融数据的类目更新非常快,据说很受国内的商业分析者和投资人的亲睐。
科学数据
亚马逊aws
https://aws.amazon.com/cn/datasets/
来自亚马逊的跨科学云数据平台,包含化学、生物、经济等多个领域的数据集。包括1000个基因组工程,试图建立最全面的人类遗传信息数据库和美国宇航局的卫星图像数据库。
github
https://github.com/caesar0301/awesome-public-datasets
包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,做研究和数据分析的利器。
图像数据
The MNIST Database
http://yann.lecun.com/exdb/mnist/
非常受欢迎的手写数据图像识别数据集。这个站点上有6万个训练案例和1万组练习集。这通常会是新手使用的第一个图像识别训练数据集。
ImageNet
http://image-net.org/
图像数据集是根据WordNet的层级来组织的,里面有丰富的各类图像数据,以供分析。
文本分类数据集
Twitter Sentiment Analysis
http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/
该站点中包含1,578,627个已经分类的推特状态。每一条都被标记了是积极情绪还是消极情绪。数据是基于Kaggle和Nick Sanders的调研结果。
Movie Review Data
http://www.cs.cornell.edu/People/pabo/movie-review-data
该网站提供了有关电影评论的集合文件,用正面或者负面情绪以及主观评级将其标注。
推荐引擎数据集
GroupLens
http://grouplens.org/
该站点通过对真实的个人创建深度分析系统,来改进社交计算的理论和实践。同时在GroupLens Research中,收集了MovieLens中的网站数据集,根据数据集的大小,在不同的时间段收集数据。
综合导航
搜数网
http://www.soshoo.com/
已加载到搜数网站的统计资料达到7,874本,涵盖1,761,009张统计表格和364,580,479个统计数据,汇集了中国资讯行自92年以来收集的所有统计和调查数据,并提供多样化的搜索功能。
199IT大数据导航
http://hao.199it.com/
以大数据产业为主,大数据工具为辅,汇集超1000 款全球优质数据工具平台。
当然以上网站提供的都是“得来全不费功夫”的数据,但是有些资源,尤其是网络数据,无法从以上途径获取。比如,有次我要写一篇以“海淘商品”为主题的论文,需要一些商品的网上销售信息,此时发现无法直接获得该数据。在搜数“无路”的时候,有朋友建议我“爬虫”。于是,我尝试学习python,有种相见恨晚的感觉,惊叹于爬虫高度的自由性、自主性。通过爬虫我获取了满足自己需求的数据,对论文带来很大的帮助。利用爬虫我爬取了一些从其它渠道获取不到的数据资源,做了一些感觉很有意思的事情,比如抓取租车类网站的租车信息,长期跟踪租车价格及数量等信息;抓取分类信息网站,抓取招商加盟的数据,对定价进行分析。
总之,我们可以利用爬虫获取很有价值的数据,用于个性化的分析研究。比如你需要获取某音乐网站的音乐资源,但是人工查找汇总实在太麻烦,那么利用爬虫你可以快速地进行抓取,并可以根据曲风、演唱者、年份等信息进行分类存储。面对如此丰富的数据,有没有很兴奋,如此便可以施展自己的分析技能。
转自:炼数成金论坛
http://f.dataguru.cn/thread-741528-1-1.html