用户们对被摄像头“读脸”这件事如临大敌,担心自己的隐私被泄露;而这却并没有影响科技公司攻克心情识别技术的一片“初心”,积极攻克摄像头心情识别技术难关。矛盾之下,如何双赢?
摄像头早已与人们的生活密不可分,AI相关的技术也是赫赫有名。但如果有人告诉你,开发者们能调用电脑或手机上的摄像头识别你的面部情绪,你是会为更多人/机器了解你而感到刺激和开心,还是油然而生一种抗拒和不安全感?
反正我是后者。
毕竟互联网公司或者黑客利用摄像头获取用户隐私的事故,多的足够写好多本“科技恐怖故事会”,连起来绕地球几周了。不过,用户们对被摄像头“读脸”这件事如临大敌,却并没有影响科技公司攻克心情识别技术的一片“初心”。
一、初心易得,始终难守:用户与摄像头的对决
最近,视频播放器Bitmovin 上线了观众感知功能。
在播放视频的时候,它会打开摄像头,观察正在看视频的观众。通过面部表情来分析、衡量用户对广告内容的情绪反应,如果用户对产品布局表现出积极的面部反应时,就显示广告;如果用户正沉浸在痛苦或不适中,就不显示特定的广告。
看起来似乎还挺人性化的。
不过,心情识别技术早就不是什么新鲜事了。之前The Sync Project 、emo 就以此方式来推荐音乐,可口可乐也曾用检测表情的办法做过营销活动。除了商业用途,还有不少有意思的应用场景。
比如:卡内基·梅隆大学的研究人员,就用IntraFace来进行分心状态检测。一旦驾驶员在开车时去哄孩子、接电话等,就会遭到软件的警告。
那么,这个神奇的“读脸”技能究竟是怎么实现的呢?
简单来说:就是调用摄像头,实时监测画面中人物的面部位置,采集眉、眼、鼻、嘴和面部轮廓的变化数据,然后通过机器学习训练出实时更新的算法模型,进而判断出他们的情绪状态。
在Bitmovin的视频感知功能中,系统在完成判断之后,还会驱动各个功能模块进行动作,比如播放调整、控制广告等等。
尽管心情识别技术看起来是如此有用,但似乎很少有人会认为,情绪感知是一个未满足的需求。通过很多其他的解决方案或者技术路径,似乎都可以做到差不多的预测用户喜好的水平。
为此迎来一个连表情都被实时监控的世界,实在有点得不偿失了。尤其是商业组织进行“读脸”,会更强烈地引起不适。问题的关键在于,企业通过摄像头对用户的表情进行收集和分析,本质上是一种单向消耗。
只有企业自身从这一行为上真实地获得了大量收益,比如推荐更多更精准的广告,引诱用户进行消费。
对于用户而言,网上冲浪的体验并没有因此变得更好,甚至可能更糟,又凭什么要求大家用“脸”买单呢?
二、世上哪得双全法:摄像头心理战,有没有“双赢”的解法?
当然,这么说对科技公司来说也有点过于刻薄了。毕竟很多负责任的公司都为之做出了不少妥协和努力。
比如:允许用户选择在使用应用时才能访问相机,或者在状态栏显示摄像头活动状态,在拍照或摄像时发出提示音,有的手机在摄录时摄像头还会自动浮起来……尽管效果看起来都不尽如人意吧,但至少人家努力了啊!
要从根源上解决用户与企业围绕摄像头展开的拉锯战,让“读脸”这件事显得不那么冒犯,还是要在消耗用户和服务用户之间,找到一个“双赢”的最优解。
幸好,心情识别技术的应用范围非常多,绝不是只有互联网世界才可以讨论。所以我们不妨思考这样一个可能性,如果让现实世界里的摄像头具备感知能力,能不能激发更大的想象。
答案显然是值得乐观的。
最近特别火的无人零售,就需要生物识别来帮助AI系统了解消费者。
比如天猫的无人超市,就曾推出过“Happy购”情绪营销。货架上的摄像头能够及时捕捉用户的表情,并根据情绪幅度,快速计算对商品的偏好程度,进而给予不同的优惠折扣。
在另一类商业场景中,也非常需要能够看懂表情的摄像头,那就是线下娱乐。
娱乐消费的盈利模式,就是依靠调动受众的情绪进行内容变现。通过摄像头感知用户的情绪变化,进而调整商品或服务,埋藏着不少让人惊喜的“彩蛋”。
简单举几个例子,比如鬼屋/密室逃脱等娱乐项目。
为了保证玩家在封闭体验区的安全,摄像头本来就是标配,而通过感知玩家的情绪变化,可以及时反馈来迭代游戏体验。一些自以为很恐怖,结果大家内心毫无波动还有点想笑的项目,就别拿出来丢人了。
还有,就是电影试映会或分级制,可以通过小规模的观影活动,借助摄像头来实时收集真实的观众反馈,减少“人情分”“看完忘了”“被营销号带节奏”之类的无效操作。
哪些作品比较受大众喜欢,哪些镜头会引起儿童不适,都可以通过情绪识别进行量化分析,告别“拍脑袋”决策。
还有就是一些文娱演出场所,比如京剧、相声、音乐会、话剧等等,这些剧目最需要观众的临场反应来调整和迭代演出内容。但传统的“人肉统计”显然有点落后了,摄像头完全可以代劳。
可以看出:情绪识别技术的应用场景是多种多样的,横亘在丰满理想和残酷现实之间的,说到底还是企业与用户的利益之争。要改变“读脸”人人喊打的现状,一是让用户也能在技术融合中真实受益;二是企业通过应用告知、合理授权、数据脱敏等方式,赢得公众的信任。
让摄像头读懂喜怒哀乐,或许并不宏大看到这里,想必优秀的小伙伴已经发现了一个问题——既然摄像头感知在现实中有诸多用处,为什么还没有普及开来呢?
我来抢答一下:“读心术”只是摄像头进化的第一步,想要大规模应用,情况就复杂地多了,只能先从小打小闹开始。
1. 有限的终端算力
目前常见的智能摄像头大多还在从事监控、安防之类的基础工种。要对复杂场景进行多目标的实时识别和分析,终端算力还无法支持。当然,也可以将视频送到云端去处理,这样又会带来高延迟和数据安全性的问题。
因此,心情识别技术想要大规模应用,还为时过早。
2. 跨地域的隐私授权
如今各个地区都在加强隐私建设,以“史上最严”的欧盟隐私法案(ePR)为例,要收集必要的用户数据之前,必须征得画面里所有用户的同意,否则将被禁止处理该数据。试想一下,在人流量密集、流动性强的区域去完成这样的授权工作,几乎很难被执行。
当然,这些问题正在不断地被技术和企业们解决。比如集合了云端计算、边缘计算、端侧计算的一体化部署方案,能解决摄像头算力不足的难题。而对隐私敏感的用户指责,则可以通过主动限制释放“读脸”技能来规避。
比如前面提到的:只在小型场景、知情的情况下进行情绪读取。只要面临“用还是不用”的道德纠结,果断选择不用,总是更加稳妥。
亚马逊的无人超市Amazon Go,就没有国内无人便利店、盒子常见的拍脸环节,用户只需扫码就能进入。而店内的100多个摄像头也只是捕捉身体动作的视觉线索,判断分区和动线是否合理。
总而言之:摄像头的心情感知能力,固然可以化“自私”为“双赢”,但大规模应用还是很遥远的事情。而且在新的规则完善之前,还是得把它关在笼子里。
爱,即是克制——这或许是让人类与摄像头之间建立信任最快的捷径。