搜索引擎,可以通过联想词使得人们在使用时更加的便利,但是与此同时,也带来了一些麻烦。人类有固有的思维盲区,让他们在设计算法和流程的时候,实在是难以预料用户会出现什么样的不当使用行为,导致什么奇葩的结果。
有媒体报道,通过搜索引擎,可以找到一些“相约自杀”的QQ群、微信群等,成为有些年轻人自杀的诱因。搜索引擎方面自然对这种联想词功能的问题责无旁贷,然而媒体和公众花样翻新的测试,总是让产品设计者防不胜防。
为了让我们更方便的使用搜索,联想词是必然要加入的一项功能。而对人们的意图进行联想和预测,也是未来人工智能语音助手变得更好用的基础前提。但是,人类固有的思维盲区,让他们在设计算法和流程的时候,实在是难以预料用户会出现什么样的不当使用行为,导致什么奇葩的结果。
往往只有在媒体曝光,公众关注以后,他们才能知道运算的结果如何,然而此时,错误已经铸成。
一、为您推荐
年轻人在网上相约自杀的行为,中外都有。在中国,主要的网络平台载体就是QQ群、微信群等地。几天前《法制晚报》报道,又有三名青年通过QQ群“相约自杀”成功。
看到孩子遗体的父亲在悲恸欲绝之余,还质问网络平台说:
“聊了那么久,网站看不到吗?网络平台没有审核么?不承担任何一丁点的责任么?”
不管事实上看不看得到,从公司主观层面,腾讯当然都要说看不到用户的聊天记录。这一点可能不会遭遇什么异议,你当然也不希望自己在群里刚说了一句话,五分钟后就有警车呼啸而至什么的吧。
不过,在《法制晚报》的报道中,记者在百度上搜索“自杀群”关键字,就能非常容易地找到很多QQ群的号码。公开展示的信息,和私密的群聊是两码事。
报道称:结果页面不仅有聊天记录截屏。相关新闻报道,而且每次点击结果后,都会通过联想词自动“为您推荐”一些关键字,包括“约死微信群2018、2018相约死亡群、2018想死扣扣群”等。
笔者小时候曾经帮不太懂电脑的同学和家长找过资料,时常被询问“为什么我这么半天搜不出来,你一搜就有了”,这实在三言两语很难讲清楚。
但是,很显然百度的这些关键词联想功能,给了一些可能不太熟悉搜索引擎语法的用户机会,让他们可以获得更精准的结果。
二、防不胜防
记者向百度反映之后,百度已经修正了相关检索结果。现在你再搜索“自杀群”时,就不再显示带有具体群号码的讨论,基本上看到的都是相关事件的新闻,持续十几二十几页都是这样。
而且,让航通社感受颇深的是,跟“相约自杀”有关的搜索结果清理工作,在今天(6月26日)持续一整天都在不断进行。
今天上午,航通社测试在百度贴吧搜索框当中打“相约自杀”,并选择“全吧搜索”,还会发现带着QQ群号码的一些帖子;“相约烧炭”“烧碳”等一些变种也有帖子存在。但到了下午4点左右再测试,这些页面刷新之后基本都被清理了。
然而,媒体曝光的问题修改起来总是容易的。进一步操作的话就会发现,还有一些“高危”的短句搜索结果未作处理。
在贴吧搜索“相约烧炭”,旁边的“大家都在搜”提示了“烧炭多久可致人死亡”、“车里烧碳”、“烧碳如何确保必死”、“2017有烧碳死的吗”这些短语。
笔者相信它们的形成机制,和报纸记者测试出现的“约死微信群2018”等是一样的,机器不太可能无中生有地造出这些排列组合。每一个关键字的后面,很大程度上都可能有不止一个真人亲自打出过这些词。
只要简单想想,就令人后背发麻。
三、是不是有专门的员工盯着
在知乎,有关于百度的三个“经典问题”:
“百度作了哪些恶?”
“为什么有人说百度以一己之力全面降低了中国互联网体验?”
“为什么老师说‘百度搜索不是什么正经的东西’?”
在这些问题下的数千个回答中,有些提到的现象现在再看,已经无法重现。而有时在某个回答成为热门之后很短时间,其中提到的不妥当的搜索结果就会被清理。
笔者一度怀疑,有专门的百度员工盯着这些“招黑”的帖子和媒体报道。不过有自称的百度员工回帖说,一般他们都是路过看到,顺手贴进内网论坛,也通过这一渠道报了很多Case。
实际上,面对一部分搜索结果的Bug(特别是和盈利不明显挂钩的问题),百度并不是毫无作为,同时也乐于将一些搜索结果的改善大举宣传,作为企业履行社会责任的一部分表现。
具体到“自杀”问题,百度和国内其他搜索引擎,均已和国内相关的心理干预机构建立了合作关系。在一些比较容易想到的词语,比如说:“自杀”,“我想自杀”这类关键词结果页,都会出现求助热线电话号码,以及求助方式,基础知识等等。
至少有一部分人选择自杀时,并不是经过深思熟虑的,只是一时间想不开。与此同时,他又没有接触过关于自杀的一些基础知识,包括死亡的代价,寻死的疼痛,无法挽回和来不及后悔的具体含义。
也许,如果他们有机会了解到相关的知识,那么他可能就会被吓到,或者被劝阻,从而重新认真的思考自己这一决策是否合理。
但是,这个关键字提醒功能,并未涵盖“自杀群”、“相约自杀”等词,也没有覆盖所有的“死法”,比如:“上吊”、“跳楼”有,但“烧炭”、“安眠药”没有。
这很显然与百度的分词策略有很大关系,“自杀”关键字的相关页面无疑是人工干预的结果,而产品经理头脑风暴以后想不到的一些词,就只会由系统自动展开联想。
具体到“自杀群”这个词,因为在近一两天产生了大量新闻和转载,全国转载媒体达到几十家,所以这可以组成一个自动的新闻专题。我相信记者写稿时看到的结果页肯定不是这个样子,但是已经没有办法去查证了。
当“自杀群”关键词被系统认为是新闻热点的时候,在页面右侧的推荐结果当中,就会提示“相关人物”——最近有什么名人自杀了,以及其中包含的“知名演员”。
虽然看不到具体的QQ群号,但是显示的是有多少名人和自己一样,也选择了自我了断,这可能对有自杀念头的人来说,并不是一个非常正面的激励。
此外,也有网友指出,百度虽然对“自杀”实施了干预,但对造成后果同样很严重的“自残”却没有干预。现在(6月26日下午4点)搜索“自残”,第二条结果是有人问“为什么自残会觉得很舒服”。
四、盲区如何形成
如此看来,搜索引擎联想词惹出的麻烦,恐怕不能靠产品设计上事先根治,多数情况下是发现一个整改一个,跟打地鼠一样。是什么导致了这样的结果呢?
首先,与“自杀”相关的这一系列词语,可以说在整个搜索处理流程中,并没有达到一个极端重要的优先级,换句话说就是还没有成为“敏感词”。
因为如果将“自杀”也设置为不可触碰的最高等级词语,你会发现自己连发消息,甚至发谐音字火星文代替都很困难。如果很多人自杀念头只是一闪念,看这么麻烦,也许就偃旗息鼓了。然而,这样做会很大程度上影响我们的日常交流,给人们带来的不便,已经超出了封禁可能带来的好处。
但更重要的是:我们寻求结果的过程,从事后来看可以说是非常简单,但是事前想要从零开始去想,那就非常困难。
这就像我们去阅读一篇构思精巧的侦探小说一样。没有经验的读者,不知道这种小说会有什么样的套路,面对谜题的时候会是一头雾水的。但是当最后真相终于揭晓的那一刻,我们再把它还原回去,就会感觉一切线索原来都预先设置好了,草蛇灰线的埋伏都是在情理之中的。
那么,为什么我们这么笨,就没有想到呢?
其实不是我们笨,而是一些我们日常可能思维形成的惯性或者定势,对我们造成了误导。
小时候,老师用一个“棉花糖实验”,教给我们做事要忍耐,要有毅力,抵御诱惑的道理。好像在有些地方,也被误传为“棒棒糖实验”什么的。实验内容是给一些孩子们每人一块棉花糖,如果他们忍住15分钟不吃掉糖,就能再吃一块。当然,马上就吃也没关系,但是不会有奖励。
大多数小孩都忍不住吃掉了,或者搞小动作吃了一点点,自以为没被发现,最后能坚持15分钟没吃糖的孩子只有一小部分。然后呢,这一小部分孩子长大后果然坚毅勇敢有耐心,走上人生巅峰。
然而,《大西洋月刊》杂志最新刊登的一篇文章介绍了纽约大学和加州大学一项共同研究的结果,让人大跌眼镜——这项原本进行于1990年的“棉花糖实验”的结论可能有误。
确实有少数孩子比其他孩子更能坚持15分钟,以拿到双份的棉花糖,但这并不是因为他们更有毅力——而是因为他们家境较好,小时候就能经常吃到好东西,所以并不认为棉花糖是一个稀罕物。
我读到之后既震惊又奇怪,为什么之前我只是被动的接受了老师指定的结论,或者是“标准答案”?为什么我都没想到从另外的角度去看,或者怀疑它?
我想,对于百度的工程师和产品经理们来说,他们显然也不是全知全能的。说到给关键字添加温馨提示,他们只能是想到“自杀”,以及“我要自杀”、“我想自杀”,沿着这样的路径去联想。
他们不可能想到,“自杀”后面还可以跟着“QQ群”,或者是“相约”,或者是细致入微地采用自然语言询问怎么自杀最快且不痛苦。
五、人人都是义务测试员
历史上,搜索引擎因联想功能而受到的抨击,简直是举不胜举。
2009年6月,国家有关部门批评谷歌中国存在“大量淫秽色情和低俗信息”,使“大量境外互联网上的淫秽色情信息通过该网站传播到我国境内”。
在《焦点访谈》节目中,有关部门演示了谷歌网站联想词搜索存在提示黄色信息的问题。例如:在谷歌中国中输入“儿子”,下面却出现了例如“儿子母亲不正当关系”等十几个选项。
事件成为谷歌宣布退出中国业务运营的直接导火索,此后有网友指出,在报道播出前几天,相关词汇的搜索量异常骤增,导致该词汇成为热门关键字,因此可以进入联想词列表的前列。
直到现在,谷歌、Facebook、Twitter等网络平台所遭遇的跟关键词、自动联想推荐功能有关的无妄之灾,也依然是层出不穷。
2016年12月,在谷歌搜索框输入“犹太人是”时,会显示“犹太人是邪恶的”联想词。
2017年11月,在YouTube搜索“how to have”时,会显示“how to have s*x with your kids”(如何与你的孩子发生*关系,原文就有*号)。
2018年2月,谷歌搜索会提供这样一些联想词:“伊斯兰主义者不是我们的朋友”、“希特勒是我的英雄”、“女权主义者是性别歧视”、“白人至上是好的”、“全球变暖是假的”。
媒体展开了愤怒的质问:
为什么像我们记者这样的普通用户,都能一眼就发现的东西,你们谷歌有那么高明的技术手段,却迟迟不能发现?
如同上面我们说过的一样,虽然算法是普遍存在的,然而人的思维是有盲区的。所以,算法优化的方向也是由人来指定的,那么它也只会把一个已经知道的位置去扫描得事无巨细,却完全管不到它和它的设计者可能想象不到的地方。
自动推荐是机器学习最典型的应用,而这个“黑箱子”里面一向以人们不能掌握其具体运转机制而著称。就算欧盟通过GDPR立法,逼迫厂商公开算法细节,恐怕那公开出来的,也是没人看的懂的天书。
长远来看,解决混沌的方法必须是还以混沌。也就是说,用机器学习去对抗随机Bug,是解决所有未来这些联想问题的唯一一个看起来可行的途径。
具体到搜索关键字联想,应对不当联想的方法,除了人工标记——就连谷歌在回应媒体报道时,都只能说用到这个方法——可能就是要采用类似神经网络翻译的手段:通过分拆和描述一个关键词、短句的具体特征,计算某类词汇(以及其错别字变体)跟另一些词一同出现的概率,并尝试通过人工抽样检查等方式下判断来训练机器。
如果机器学习实在到不了这种程度,一个非常简单的方式就是一禁了之。
例如:任何出现QQ群号码的帖子——也就是“QQ、秋秋、V信”等词语,后面加上九位或十位数字——或者是手机号这类的信息,如果和“自杀”、“烧碳”连缀的话,我们根本就不让它出现在百度搜索结果里,可不可以?
还是说起来容易,做起来难。全面禁止容易“误伤”,为用户带来不便,而且出了问题以后,对系统改动的断点越多,查找问题源头时就越麻烦,最后可能越改越糟。
我愿意从比较善良的角度思考,相信百度、谷歌等这些提供算法推荐的企业,并没有因为出现时有发生的负面消息,而一口气关闭推荐功能,初衷是进一步改善和优化搜索结果,以至于让它不断的接近人类的思维可以达到的理想境界。
在这种改善产品的过程中,搜索引擎事实上推出了一个不完美的“半成品”,把所有使用这个功能的用户、媒体等等,都当成是其测试部门的“编外”工作人员。每一次搜索异常,都是在向开发者反应一个错误的测试结果,或者是示范一种计划之外的错误的用法。
对于程序员来说,他们可能学到的很多项重要的道理当中,其中一条就是,永远不要去试图规范用户该做什么,不该做什么,他总能找到你意想之外的使用方式。
然而,如果你试图把所有的用户当做不花钱的测试员,这样做的结果就是你必须要付出金钱之外的代价。
当媒体以及社会舆论发现你这些错误,并且在社交渠道广为流传的时候,这就不是你能够靠给媒体们发工资能解决的问题了——可能很多年之后,关于这个搜索引擎各种不靠谱的印象,还是会继续流传。