对一位朋友论文稿的意见
武夷山
2013年1月26日
我觉得此文探索性很强,值得投稿试试。以下几点可商榷:
1. 我印象中,大数据不仅指数据量大,还指:数据来源的极其多样化,数据库异构,数据来自多种媒体,等等。你查查是不是有这样的说法。此稿未提及。
2. 对因果性(包括该概念的缺陷)的讨论由来已久,以下链接(http://www.thefullwiki.org/Causality)只是一个例子。因此,似乎不宜将这一点与大数据挂钩,依据不足。
3. 用5%的网民人数来例释5%相伴概率可能不合适,因为不是讨论样本大小。
4. 你隐含了一个观点或假定:大数据时代,数据备有状况是完备的。其实不是这样。大数据时代,数据完备性在各领域的分布也是高度偏斜的。商业领域数据拥有量可能最大。我们搞科学计量学的需要数据的时候,经常是要什么没什么。假定数据已经完备,就放心地去放手分析,好比丢了钥匙后只在路灯下找。
5. 大数据基本服从正态分布?待斟酌。引文这个大数据的分布就显然不是正态分布。我猜测,长尾现象是永恒的,不会随大数据时代而改变。
6. 附件是鲁索去年10月在武大邱均平教授那里做的报告改写的论文,说大数据与信息计量学的关系。虽然他这篇文章不是说与经济学的关系,但我觉得你要认真阅读此文并引用,一是因为他掌握的文献总是很全面,二是他不说过头话,观点比较稳健。