大数据与电影票房的预测 博客记事 2019年7月9日 北京 阴、雨
上次说到:AI“诗人”(或者叫“作诗机器”)作诗已经几近乱真。清华“九歌”作诗系统曾经和北大、清华、复旦才子才女反复比试,均无敌手。只是比起李杜这种高手,还差在“灵性”和“意境”上,比起王维、岑参、王昌龄这些人,也差得挺远。
为什么?无他:高手太少,佳作更是有限,如果限于高手的几首佳作来机器学习,数据量不够。构不成大数据,就玩不转机器学习。所以大数据最重要的标志是临界性——需要达到能产生认识飞跃的临界数据量!
在展示一下另一组的pre: 关于《电影票房预测研究》
早期的预测,基于这样的回归方程式:
Y(票房收入)=-28.482×106+7.232×106(顶级导演)+14.846×106(明星)+11.818×106(科幻)+13.858×106(续集)+24.932×106(奥斯卡提名)-4.966×106(剧情)+6.972×106(影评)+3.814×106(大发行公司)
问题在哪里?一是变量不够,二是变量的定量标准。什么是顶级导演?难以定量。文无第一嘛!即使是公认的顶级,甲导演和乙导演的“输入值”能一样吗?要定量的话,还要一大堆参数,更多的数据。
这种经济、社会科学问题,难就难在复杂性——变量和影响变量的因素太多,所以做AI分析,需要的数据就特别多:不仅量大、而且种类多。大数据时代的到来,为解决这类难题提供了solution!
这是大数据研究最重大的科学意义和实际价值。