近期中国计算机学会(CCF)举办的第六届自然语言处理及中文计算大会(NLPCC 2017)在大连成功举办。作为国内 NLP 领域首个面向国际的大会,NLPCC 无论从会议的形式、参会的人数、还是报告的质量,都展现出了一副朝气蓬勃的气象,欲有引领中国 NLP 走向国际之势。
为深入了解中国当前 NLP 的发展状况及前景、CCF 在 NLP 方向的努力,以及 NLPCC 会议的发展情况,AI 科技评论对 CCF 中文信息技术专委会主任、微软亚洲研究院副院长周明(同时他也是中国中文信息学会(CIPS)的常务理事和国际计算语言学会 ACL 的候任主席)和 CCF 中文信息技术专委会秘书长、北京大学赵东岩教授(将随后报道)进行了专访。
本文主要内容为周明博士站在 CCF 中文信息技术专委会角度对 NLP 研究进展及中国 NLP 发展现状及前景的深入介绍。他的开场白是这样的:
目前各国政府(包括美国、德国、日本、中国等)都在制定一些人工智能的规划,但中国对人工智能的规划最为清楚。结合《中国人工智能发展规划》(2017 年 7 月)和《十九大报告》(2017 年 10 月)相关的内容,可以看出,中国把人工智能的发展规划为两个阶段,第一个阶段是 2020 年进入世界先进水平,第二个阶段是 2030 年达到顶尖水平。
我们国内的自然语言处理,跟国家对人工智能的规划基本上是同步的。也就是说,我们到2020年进入到世界先进水平,期待着在2030年达到世界顶尖水平。
先进水平跟顶级水平有什么大的差别呢?先进水平是你追随世界最发达的国家,你也掌握所有的关键技术,但是你不是关键技术的提出者,也就是你不是领跑者;顶级水平实际上是你在领跑,你告诉全世界往哪个方向走,你提出了关键的理论模型,而别人在follow你。差就差在这一点。
在NLP领域,我们中国现在是很好的追随者,国际上(主要是美国)一旦出现任何技术,我们马上就学习掌握,而且快速应用起来,应用的比美国都不差。现在差就差在我们不是最先提出这个技术和方法的。所以我们CCF 中文信息技术专委会认为现在我们也可以说基本上在世界先进水平了, 三年后即2020年将全面达到世界先进水平。在此基础上,我们期待2030年达到世界顶级水平。这是我们的愿景。
以下为周明博士的深入讲解,AI 科技评论根据采访内容作了不改变原意的精简和编辑,以飨读者。
一、NLP是认知智能的核心
问:NLP在整个AI领域中处于什么样的位置?
周明:近年来,人工智能由于大计算、大数据、算法模型(以深度学习为代表)以及落地场景四大要素的齐备,进入了一个高速发展的时期。其主要发展方向:感知智能和认知智能。
所谓感知智能,即视觉(图像)、听觉(语音)等的感知能力。大家都知道感知智能突飞猛进,像图像识别的 ImageNet 的评测,语音识别的 Switchboard 评测等,它们都已经达到了甚至超过了人类在该测试集的水平。这方面的研究进展也推动了很多应用的发展,例如安防、人脸识别、物体检测,以及语音识别在手机、智能家居等设备上的应用。
认知智能,通俗讲就是「能理解会思考」。认知智能有很多东西,其内核包括语言智能、知识图谱、用户画像等。在此基础上,支持几个方面的应用,例如智能写作、聊天对话、诗歌创作、文本生成、游戏博弈等。有的做的很好,比如 AlphaGo 为代表的博弈系统;但有的还差强人意。目前认知智能相对于感知智能总体上来讲在引入深度学习方面落了半拍,但目前处于奋起直追的状态。比如,神经机器翻译的质量越来越好,聊天系统、人机对话也越来越好。
自然语言理解是处在认知智能最核心的地位。它的进步会引导知识图谱的进步,会引导对用户理解能力的增强,也会进一步推动整个推理能力。在此基础上,聊天、解题、翻译、对话等也都会得到进步。认知智能一旦进步,加上感知智能的进步,整体的人工智能就会进一步发展。
比尔·盖茨曾经说「语言理解是人工智能皇冠上的明珠」,沈向洋博士也说过「懂语言者得天下」,都是在强调 NLP 的重要性。自然语言处理的技术会推动人工智能整体的进展,从而使得人工智能技术可以落地实用化。
二、NLP未来五到十年发展
问:NLP在未来五到十年将会如何发展?
周明:大致有这么几个方向:1)问答和阅读理解的进步会使得搜索引擎更加精准;2)语音识别和神经机器翻译会使得口语机器翻译会完全实用;3)由于用户画像的精准和实时性的提高,推动信息服务和广告更加自然、友好和个性化;4)聊天、问答和对话技术提高,推动自然语言会话达到实用;5)由于对话技术和知识图谱的进步,使得智能客服与人工客服更加完美结合,从而大大提高客服效率;6)由于自然语言生成技术的进步,使得自动写诗、作曲、自动生成新闻甚至小说会流行起来;7)人机对话的进步推动语音助手、物联网、智能硬件、智能家居的普及;8)最后是 NLP+,就是 NLP 在金融、法律、教育、医疗等垂直领域得到广泛应用。
以搜索引擎智能化为例。以前的搜索引擎,输入关键词返回来一堆东西,你需要自己去看。随着自动问答、阅读理解等能力的提高,现在的搜索引擎,你可以问个问题,句子长一点也不怕,它能够分析这个问句,把答案从浩如烟海的文档中找出来;甚至不只是给你一个文档链接,它还能够把答案直接给你,搜索引擎的结果也越来越精准。
问:未来NLP研究需要关注哪些方向?
周明:我个人比较关心以下几点:1)通过用户画像实现个性化服务;2)通过可解释的学习洞察人工智能机理;3)通过知识与深度学习的结合提升学习效率;4)通过迁移学习实现领域自适应;5)通过强化学习实现不断进化;6)通过无监督学习充分利用未标注数据;7)多媒体和多模态之间的理解、问答、转换。
三、中国NLP研究稳居世界第二
问:中国目前在NLP领域的发展处于什么样的状态?
周明:中国 NLP 的发展有两个方面,一个是科研水平、一个是产业化。在 NLP 产业化方面,中国做的不错,比如搜索引擎、电子商务、新闻网站、机器翻译、智能音箱的技术体系中,NLP 居核心地位。我下面重点介绍一下中国 NLP 的科研水平。
以 ACL 为例,ACL 是世界上自然语言处理领域最高级别的学术会议。大概 20 年以前,中国没有一篇 ACL 文章。在 1998 年,清华大学黄昌宁教授课题组发表了第一篇 ACL 文章。那时候中国在 NLP 方向的研究基础薄弱,日本、韩国,甚至中国的台湾、香港地区都比中国大陆在 ACL 上发表的文章多很多。
微软中国研究院(注:后改名为微软亚洲研究院)在 1998 年 11 月成立之后,大大地带动了 NLP 在中国的发展。历届院长都号召大家要走向国际,鼓励研究院的研究员们跟高校和有关学会合作,大家一起努力推动中国的研究水平。微软研究院通过联合实验室、暑期学校、实习生计划帮助中国培养了大批 NLP 人才。
同时 CIPS、CCF 等学会组织各类讲习班、学术会议,引进国际先进的理论和技术,大大地促进了本土 NLP 的提高。在文章发表方面,中国 NLP 人士也不断努力提高在 ACL 的影响力。中国政府在 NLP 领域通过自然科学基金、863 和 973 等计划加强了投资和引导。通过各界的努力,经过过去 20 年左右的快速发展,中国已经成为 ACL 里排名第二的国家。
近五年来中国在 ACL 上的文章数量(包括长文和短文),稳居第二位,仅次于美国。长文方面,跟美国的距离大概在 20 到 30 篇;同时远超其他所有国家,包括日本、韩国、德国、英国等,原来中国是不能望这些国家的项背的。如果未来中国 ACL 长文数目持续增长,就有可能在三年内赶上美国。由于中国 NLP 发展势头良好,这是一个可以期待的目标。
若以华人的文章来算,2014 年华人第一作者的文章占 ACL 总文章数的 36%,之后逐年提高,今年是 40% 这里面除了中国本土的人士,很多是中国留学生。
从以上的数字看,中国的 ACL 文章确实已经跃居世界前列了。这是非常惊人的一个结果。20 年以前中国只有一篇 ACL 文章,而如今已经稳居世界第二。
除了文章数量外,中国 ACL 文章的质量也有很大提高。比如 2017 年 ACL 的 22 篇杰出论文中,来自中国的五篇文章入列。
在国际活动的参与中,中国也越来越活跃。例如 ACL 执委会有 13 位执委,其中 3 位是来自中国,中国大陆有我和百度的赵世奇;我是 ACL 侯选主席(注:将于 2019 年上任),赵世奇是秘书长,来自台湾的张景新是首席 IT 官。
另外,来自中国的赞助总数和赞助商的数目也接近美国;从参会人数上看,我们也是位居第二。
NLP 领域其他重要的会议,比如 COLING 或者 EMNLP,情况也大致类似。
所以中国是当之无愧的 NLP 第二强国。
CCF 在这里面做了很多贡献。CCF 中文信息技术专委会组织了 NLPCC 这样的学术大会,组织了 ADL 讲座,组织了多次走进高校活动。在 NLPCC 大会上还专门组织了学生 workshop,讲授如何做研究和写论文。CCF 还跟 CIPS 紧密合作轮流主办语言与智能峰会。这个峰会有效地促进 NLP 领域发展,提升它在社会上的影响力。
当然我们目前也有一些问题仍待改进。这表现在:1)在中国举行的 NLP 领域的国际会议或活动较少;2)来自中国的 ACL 的会员比较少;3)在国际 NLP 大会中,来自中国的特邀报告、最佳论文、SIG 主席、workshop 主席、tutorial 讲者等较少;4)来自中国的论文,虽然数量居第二,但是很多文章多多少少有追随别人的味道,期待将来来自中国的文章可以更多地体现引领的趋势。
四、中国NLP迅速崛起的原因
问:是哪些因素导致我国NLP迅速进展?
周明: 第一,整个国家在上升的趋势发展,无论是工农业,还是国民经济或者综合国力等。第二,我们跟国际接轨越来越好,比如我们的 NLPCC 大会的工作语言是英文,大会主席、程序委员会主席和各个领域主席,都设两位共同主席,一位来自国内,一位来自国外。第三,中国的高校和公司通过培养和引进,吸纳了大批优秀的 NLP 人才。
尤其要提一下外企和国内互联网企业对 ACL 的贡献。比如,微软亚洲研究院跟国内和亚洲地区很多高校全方位的合作包括暑期学校联合实验室联合培养博士生、实习生计划等等,培养了大批 NLP 人才。比如 18 年来微软研究院培养的 NLP 领域的实习生已经有 450 人之多。这些人来自全国各地,经过在微软实习锻炼后,又回到各个高校,然后加入公司或者学校任职,成为领军任务,又带动下一波人才的成长,不断推动这个领域的发展。
应该指出的是,百度、阿里、腾讯、京东、今日头条等大型互联网公司,以及很多新锐公司(比如出门问问、国双、奇点机智、小牛翻译、思必驰、新华智云等许多公司)也在各方面对国内 NLP 发展做出了非常大的贡献。我代表 CCF,非常的感谢这些国内外企业对 NLP 领域的发展和取得的进步做出的贡献。
问:NLP领域日、韩等国比中国发展的更早一些,为什么现在相对中国它们会落后很多呢?
周明:我认为有几个因素。第一个因素就是互联网时代中国抓住了中国互联网的发展和机遇,很多其他国家在互联网方面(尤其是移动互联网、电子商务、搜索等方面)相对落后。举个例子,很多国家没有自己的搜索引擎,而中国有很多,像百度、搜狗以及微软本地化的必应。搜索引擎对自然语言的推动作用非常之大,因为它对问题理解、文章理解、问答、翻译的需求,促进了相关 NLP 技术的发展。同时它的巨大经济价值,也吸引了很多人在这个领域投资做研究,做产业化。一个国家没有搜索引擎,NLP 方面自然就会落后。
另一个因素是数据。中国拥有世界上最大的数据,有 8 亿多移动互联网用户,有大量的电子商务数据,这些数据会帮助研究和技术的发展。
第三是政府在这方面的作用。国家在世界经济链条中的地位,会导致在互联网和移动互联网的时代,尤其是现在的人工智能时代所拥有的地位。中国现在由于是 GDP 第二大国,在互联网时代赶上了这个潮流,尤其在移动互联网时代中国甚至引领了潮流。中国政府制定相关的规划,支持并引领技术和产业的发展。所以期待在人工智能时代中国能够超越其他国家,成为顶级的人工智能发达国家。跟人工智能有关的研究也会得到相应的带动,包括 NLP。
问:除中、美外,NLP领域哪些国家做的比较好?
周明:如果按 ACL 算,美国、中国、英国、德国、日本、韩国、加拿大都有自己的特色。英国的爱丁堡大学、牛津大学他们在自然语言研究方面有很好的特色。
NLP 在加拿大也有很好的发展。虽然它从事自然语言的人相对较少,中国仅北京地区搞 NLP 的人就远比整个加拿大从事 NLP 的多很多,但是它提出了很多引领世界的方法,比如用于神经机器翻译、机器阅读理解的新方法。在理论创新方面值得中国学习。
五、如何成为NLP强国
问:中国下一步该如何提升自己在NLP方向的研究或者应用?
周明:这要从几个方面来说。
首先,我觉得要抓住中国发展的良机。1)数字化转型。现在中国讲究数字化转型,各企业、各行业要数字化,有了数字化你才能有人工智能。但很多企业连数字化都没有做好,所以这里孕育着很多机会。2)AI 热潮。AI 热潮带动市场投资需求,人才、数据进一步发展,这是一个非常好的良机,所有搞 NLP 的人应该乘势而上。
其次,要抓好普及。虽然我们国内有很多搞 NLP 的高校,但是有很多学校还属于相对落后,对最新的技术理解不够,很多高校(尤其西部高校)基础相对薄弱,所以我们要搞好普及。CCF 专委会专门有一个工作小组,叫「走进高校小组」。响应 CCF 的号召,我们自然语言学者也走进高校。我们已经去了很多高校(例如西藏大学),去讲授人工智能、自然语言的发展、最新的的技术等,呼吁更多的学生学习人工智能和自然语言。
第三,拔尖人才的吸引和培养。首先,吸引国际拔尖人才到中国来,通过回国参加会议或者合作,了解中国的发展现状,加强和国内高校和企业的交流,最终希望能有一部分人才被国内的发展机会吸引从而留下来。另外更加重要的是,通过学校的学位培养模式,同时利用公司的实习渠道,来培养更多具备扎实的理论基础和实战经验的优秀人才,甚至高水平的领军人才。
第四,促进我们中国的研究走向国际化。包括 CCF 办的 NLPCC。过去几年都是在中国举办,未来我们也会考虑到新加坡、日本、韩国,甚至美国去开会,把我们中国原生的研究带到全世界去,尤其是要引领在国际中文计算领域的潮流。
第五,加强创新。包括 1)理论创新。例如发展无监督的机器学习算法,利用上下文和用户画像来增强 NLP 任务建模,综合知识和数据来提升 NLP 系统的能力等等;2)开辟学科交叉的新领域,比如 NLP 和图像和视频的交叉。还有深入研究 NLP 在重要的垂直领域的广泛应用;3)产品创新,通过软硬件结合,结合具体场景,提升用户体验。
第六,要注重数据和工具共享,注重评测。CCF 以及我们的中文计算专委会目前已经专门成立了数据工作组,把数据分享给大家来使用,做训练、做评测等。比如 NLPCC2017 所组织的词汇语音关系识别、短文本分类、单文档文摘、问答和用户画像吸引了很多学校和公司参加。
第七,促进产学研大协作。通过 CCF 以及其他一些平台,吸引工业界的人士加入到我们的研究过程中,通过各种合作来促进公司的产业发展,也同时促进高校的学术发展。
最后,就是中国要考虑在国际会议和组织中发挥更大的影响力。包括多组织和承办国际一流会议,多争取担任国际一流学会的执委会委员、大会主席,程序委员会主席和领域主席,把中国的影响力更多地发挥出来。
需要指出的是,虽然中国 NLP 发展势头良好,但是我们还面临很多困难。需要政府、学校、科研机构、公司、有关学会还有社会各界人士继续努力。尤其是加强理论创新、探索学科交叉和垂直领域的新机会,才能逐步从跟随者到引领着过渡。我相信,如果所有这些措施都能够很好地落实,下一步中国的 NLP 一定会稳步地向更高的目标发展,最终一定会跻身于世界 NLP 的顶尖水平。