大数据与电影票房的预测博客记事 2019年7月9日_观点_爱国

大数据与电影票房的预测博客记事 2019年7月9日北京阴、雨

上次说到：AI“诗人”（或者叫“作诗机器”）作诗已经几近乱真。清华“九歌”作诗系统曾经和北大、清华、复旦才子才女反复比试，均无敌手。只是比起李杜这种高手，还差在“灵性”和“意境”上，比起王维、岑参、王昌龄这些人，也差得挺远。

为什么？无他：高手太少，佳作更是有限，如果限于高手的几首佳作来机器学习，数据量不够。构不成大数据，就玩不转机器学习。所以大数据最重要的标志是临界性——需要达到能产生认识飞跃的临界数据量！

在展示一下另一组的pre: 关于《电影票房预测研究》

早期的预测，基于这样的回归方程式：

Y（票房收入）＝-28.482×106+7.232×106（顶级导演）+14.846×106（明星）+11.818×106（科幻）+13.858×106（续集）+24.932×106（奥斯卡提名）－4.966×106（剧情）+6.972×106（影评）+3.814×106（大发行公司）

问题在哪里？一是变量不够，二是变量的定量标准。什么是顶级导演？难以定量。文无第一嘛！即使是公认的顶级，甲导演和乙导演的“输入值”能一样吗？要定量的话，还要一大堆参数，更多的数据。

这种经济、社会科学问题，难就难在复杂性——变量和影响变量的因素太多，所以做AI分析，需要的数据就特别多：不仅量大、而且种类多。大数据时代的到来，为解决这类难题提供了solution!

这是大数据研究最重大的科学意义和实际价值。

快好知 kuaihz