生活在我们这个时代的人恐怕大多听说过算法。打开微信,我们经常会看到定向发送的广告;在网店买书,后面会有一系列向你推荐的相关图书;打开网页,最显著位置是推荐给你的阅读链接。这是一个数据时代,大数据时代,也是算法时代。
《被算法操控的生活》的作者是来自英国、定居瑞典的一位数学教授,策划编辑知道我是数学科班出身,而且从事金融科技研究,所以请我帮忙看看。数学家写科普书,本身就是个卖点,我印象中除了数学教材,很少有读过数学教授写的畅销书。这本书有很多有趣的例子,有些观点值得我们思考。
个人数据涉及个人隐私,对个人数据的分析同样会暴露个人隐私:消费者画像和广告定向投放是合法的吗?我认为这取决于个人数据分析到底能够达到什么效果。这类算法一般是采用主成分分析和回归分析,这两种方法本身并不是非常尖端,很多社交网站都在使用,比如脸书、推特等,主要用来对用户进行分类。我们日常上网的各种活动其实都属于个人行为数据,在网站都留下了记录,如实反映了我们的生活状态。比如我们发布的内容、点赞、信息分享等,都与个人行为、观点、喜好、智商和个性有关联。利用算法和这些累积的海量数据(22.190, -0.20, -0.89%),可以从最冷静、最理性的角度审视每一个人。
我们大脑也会对别人形成看法,但是大脑只能处理最多3个维度,而计算机依靠算法则可以快速在数百个维度上对每个人进行分类。理论上,人的行为数据可以用来追踪我们的每一个情绪,并在消费选择、人际关系和工作机会等方面进行预测,这类数据越多,分类越可靠。社交网络收集和分析用户的这些数据,目前还没有法律方面的清晰规定,在伦理层面上是有争议的。一个大家关注的案例是剑桥分析公司操纵选举事件。该公司被指控用网络定向营销和小范围民意调查数据影响选民。2019年7月,脸书就此事缴纳了50亿美元罚款,是迄今全球最大规模的隐私违规罚款。
各类市场研究和数据分析公司和几十年前研究人员采用的方法并没有区别,就是用精心设计的算法在每个维度计算排序或概率,只是现在使用的数据量要大得多,甚至是采用大数据。在这种规模下,人们不得不借助电脑和算法进行分析。比如脸书的回归算法对近2万人的点赞数据进行分析,在9次里有8次成功预测了个人的政治立场,准确率和可靠性非常高。比如一个喜欢Lady Gaga,星巴克和乡村音乐的人更有可能是共和党人。这样共和党人为了赢得支持,就应该把关注点放在喝星巴克咖啡的人身上。
收集用户的社交网络数据,根据目标人群的个性特点定制符合特定受众观点和喜好的内容进行投放,进而引导目标人群改变行为,如果算法发展到这个水平,显然会侵犯到个人权利范围。定向投放信息包括广告,既可能对特定受众有益,也可能让对方感到不安全甚至被冒犯。当算法利用个人数据能够对个人行为和喜好做出准确度高达85%的预测情况下,个人数据的使用是否合理合法就变成了突出问题。我个人认为基于搜索算法的这种商业模式必须先征得个人同意。
数据算法对大部分人是“黑箱”,其实目前人工智能发展的阶段也存在同样问题,比如深度学习,很可能无意中将人类社会普遍存在的各种歧视问题引入算法之中。算法歧视会使社会差距拉得更大,严重影响社会公平。书中给出很多算法缺陷的例子,以选举预测为例,人工进行的抽样调查要比算法更接近实际结果。盖洛普民意调查美国总统选举的误差,从1940年代到2020年前,一直在降低,现在基本在5%以下。而算法所做的预测的最差情况和黑猩猩扔飞镖相近,最好也只能达到60%左右。数据算法也有被人钻空子的时候,比如在图书销售方面,利用一些搜索优化算法漏洞排在榜单前列的图书,确实提高了销量,但是结果却可能是读者反馈评分越来越低。同样方法可以提高学术论文的引用量,将这个指标作为考核学术成果的唯一标准,必然会造成学术界的反向激励和逆淘汰现状。我们应该了解其中可能存在的问题,避免被误导或操纵。
编辑 ∑Gemini