阅读理解能力是人类智能中最关键的能力之一,AI阅读理解技术有着十分广泛的应用前景,可能那还很远,也可能很近,但比起超越人类,AI应该更有可能成为人类帮手。
“三长一短选最短, 三短一长选最长,参差不齐C无敌。”
还记得上学期间流传在“学渣们”之间的所谓阅读理解的“做题法宝”吗?
当然,这只是学渣们给自己的心理安慰。阅读理解作为一道考察学生理解能力、思辨能力的题型,绝不仅仅是一道口诀就能解决的,它需要大量的练习与不断地揣摩。
不管如何,相信大家都有一个共识:阅读理解这件事当然是人类的专项。
然而事实上,近日,在美国斯坦福大学发起机器阅读理解领域顶级赛事SQuAD中,阿里巴巴开发的人工智能模型获得了82.44的高分,超过了人类平均值82.304的分数。这是机器首次在此类测试中获得超过人类的分数,而微软的AI模型获得了82.650的分数,排名首位。
智能体在阅读理解领域开始“跑分”,AI能够进行全文理解,已然成为了AI界的大事件。此时,我们首先要面对的问题就是,当AI已经能够比人类更快速、更精准地对文本中的信息进行回答时,AI究竟是人类的替代者还是帮助者呢?AI阅读理解在未来又会如何落地呢?这些问题看似简单,却有很多值得讨论的地方。
AI阅读理解技术之思
整体来说,我们认为至少可以从这两点思考。
1、AI阅读理解只是自然语言处理(NLP)的进化
虽说AI阅读理解近期才进入人们的视线,但AI阅读理解技术究其根本还是继语义分析、语音识别后的又一在自然语言处理技术中取得的突破。
(图来自亿欧网)
自然语言处理发展得很早,计算机刚刚发明之后,人们就开始了自然语言处理的研究。机器翻译是其中最早进行的NLP研究。那时的NLP研究都是基于规则的,或者基于专家知识的。而阅读理解技术是怎么发展而来的呢?在图像识别和语音识别领域的成果激励下,人们逐渐开始引入深度学习来做NLP研究,于是阅读理解技术应运而生。
这类技术也面临很多挑战。具体来讲,包括:
如何跟知识学习——有效地把知识包括语言学知识、领域知识用起来;
如何跟环境学习——通过强化学习的方式提升系统的性能;
如何跟上下文学习——利用上下文进一步增强对当前句子的处理能力;
如何利用用户画像体现个性化。
每个环节若出现偏差都有可能导致结果的不准确。
2、AI阅读理解缺乏真正的思考
让我们先来看一道语文考试中常见的阅读理解题目——
老师提出问题:为什么作者描写的“窗帘”是蓝色的?
学生答:“因为窗帘是蓝色的。”
老师说:“错!蓝色的‘窗帘’具有愁绪的意味,表达作者当时困郁的心境……
这种类型的阅读理解,大家都很熟悉吧。目前,AI在中文阅读理解的简答题型方面表现如何还没有具体的数据可以说明(值得一提的是,百度即将筹办中文阅读理解比赛,竞赛将于2018年3月1日正式开启报名通道)。但是针对这类题型,人类早已总结出了一套答题技巧,更何况是收集了大量数据文本的机器呢?在为AI建立模型时,完全可以达到以某个词汇来刺激AI作出相应答案的程度。比如上文中的“蓝色”对应“惆怅,困郁”,再如“书信”对应“思念”等等。但是,这种操作下,AI阅读理解在做题时用的不是“理解”,而是“套路”;因为机器没有“思考”,只有“运算”。
为什么这么说呢?我们大概能在AI阅读理解的做题流程中找到答案:
Embedding Layer(相当于是人的词汇级的阅读知识):一般采用的都是在外部大规模数据上预训练的词向量(例如Glove等),以及基于循环神经网络或者卷积神经网络的从字符到单词的词向量(表示),这样就可以得到问题和文章段落里面每个单词的上下文无关的表示。
Encoding Layer(相当于人通览全文):一般采用多层的循环神经网络得到问题和文章段落的每个词的上下文相关的表示。
Matching Layer(相当于带着问题读段落):得到问题里面的词和文章段落词之间的对应(或者叫匹配)关系。基本是采用注意力(attention)的机制实现,常见的有基于Match-LSTM和Co-attention两种,这样就得到文章里面每个词的和问题相关的表示。
Self-Matching Layer(相当于人再读一遍进行验证):在得到问题相关的词表示的基础上再采用self-attention的机制进一步完善文章段落中的词的表示。
AnswerPointerLayer(相当于人综合线索定位答题):对文章段落里面的每个词预测其是答案开始以及答案结束的概率,从而计算文章段落中答案概率最大的子串输出为答案。
所谓一千个读者有一千个哈姆雷特,我们人类在理解一篇文章的时候往往会带上自己的主观色彩,每个人都会生成自己的看法。而AI呢?在做题之外又能否对文章生成不一样的看法?
AI疯狂“跑分”,其结果是成为人类更好的帮手
之所以大家都认为AI阅读理解超越了人类,是因为从技术原理来讲,AI阅读理解超越人类是一件非常合理的事情。
首先,AI“阅读”的能力正在一天天提升,自然语言处理技术的突破,很可能取代人类的“理解力”。其次,深度神经网络模型能够模拟人类在做阅读理解问题时的一些行为,包括结合篇章内容审题,带着问题反复阅读文章,避免阅读中遗忘而进行相关标注等。于是,自然语言处理技术和深度神经网络模型相结合,使得AI可以进行超乎人类的阅读理解,似乎就成为了顺理成章的一件事。
于是很多人开始思考,AI阅读理解是否会替代由人工完成的规则、对话、服务信息类的相关理解工作?事实上,这种想法仅仅是理论上成立,但在实际应用时还有很多问题。
首先是把阅读理解这件事过分简单化了。阅读理解的题目分为精准匹配和模糊匹配,前者是硬性的阅读理解,即看到一段文字提取对应的信息,并进行简单的加工处理得到直观的信息;后者则是通过一段文字或一篇文章,结合文字背后的背景信息以及现实世界中的社会、人文背景以及读者的阅历等诸多方面,经过逻辑和“感性”的思考得出的理解和感受。换句话说,阅读理解是包含了语境理解、人文理解以及对内容熟稔之后的综合工作。这些显然是AI无法替代的。
再者,AI阅读理解的“跑分”结果是有着前提约束条件的,比如在确定的题库和测试时间,并且只是成年人平均理解水平。而要进一步推动阅读理解技术的发展,就得跟无人驾驶汽车分级测试一样需要设定问题的难度,逐级增加难度,对每一个级别建立训练和评测集合。
总之,拥有超越人类的理解力,还是今天的AI所无法做到的。这也意味着,AI更合适成为人类帮手,而非替代者。二者结合最好的方式,应该是AI进行基础处理,人类用AI来提升工作效率。这种人机交互的关系,其实在大部分“可能被AI替代的工作岗位”中都能找到。
我们认为目前这两个方面AI阅读理解能大展拳脚:
1. 贴近真实需求,助力人机交互
在购买家电时你是非为那些枯燥无聊的“使用手册”感到十分头痛?在各种软件下载中的“用户协议”上你只能傻傻地点击“我同意”?有了AI阅读理解技术,这一切都有了更好的解决办法。
例如智能客服中,可以使用机器阅读文本文档(如用户手册、商品描述等)来自动或辅助客服来回答用户的问题。
在搜索引擎中,机器阅读理解技术可以用来为用户的搜索(尤其是问题型的查询)提供更为智能的答案。目前R-NET的技术已经成功地在微软的必应搜索引擎中得到了很好的应用。我们通过对整个互联网的文档进行阅读理解,从而直接为用户提供精确的答案。同时,这在移动场景的个人助理如微软小娜(Cortana)里也有直接的应用。
在办公领域,机器阅读理解技术也有很好的应用前景,比如使用机器阅读理解技术处理个人的邮件或者文档,然后用自然语言查询获取相关的信息。
2. 友好嵌入环境,“技术”成为“助手”
此外,机器阅读理解技术在垂直领域也有非常广阔的应用前景,例如在教育领域用来辅助出题,法律领域用来理解法律条款,辅助律师或者法官判案,医疗领域理解医疗信息,帮助病人咨询,以及在金融领域里从非结构化的文本(比如新闻中)抽取金融相关的信息等。
正如阿里巴巴研究院自然语言处理首席科学家司罗在一份公告中所说的一样,对于像“天为什么会下雨”这样的客观问题,机器给出的答案准确率会很高。公告称,其中的技术可以逐步应用于诸如客服、博物馆指南、在线解答患者医疗问题等广泛的实际应用领域,从而以一种前所未有的方式减少人力投入的需求。
更甚者,机器阅读理解技术可以做成一个通用的能力,释放给第三方用来构建更多的应用。
总结
微软团队负责人周明老师曾在访谈中说到,
“超越人类不能作为媒体的报道噱头,我们在看到技术进步的同时,更应该冷静思考模型的不断完善和技术应用落地。这是一个生态,需要所有业界同仁一起健康竞争,把现阶段面临的难题攻克,而非停留在比赛第一这样的阶段性喜悦中。”
阅读理解能力是人类智能中最关键的能力之一,AI阅读理解技术有着十分广泛的应用前景,可能那还很远,也可能很近,但比起超越人类,AI应该更有可能成为人类帮手。即使它在许多人类制定的规则项目中“赢”了人类,真正“超越人类”的还是人类自己。