主题报告环节,中国科学技术大学机器人实验室主任陈小平教授为我们带来了《从封闭性到非封闭性:2020到2035年智能机器的机遇和挑战》的精彩演讲。
陈小平
中国科学技术大学机器人实验室主任、教授
以下是陈小平教授的演讲实录:
非常高兴有这个机会进行中、新学术交流。本报告包括四方面内容。第一,关于人工智能(简称AI)的两种类型,一种是Thinking machines;另一种是Intelligent machinery。它们之间有比较大的区别,智能机器人属于后者。第二,用人工智能的观点来看机器人领域,我们认为核心挑战是降射,英文是grounding,但是我对“降射”给出了不同于文献中的其他定义。第三,在这样一种挑战下,现有人工智能技术有没有可能大规模产业应用?这是有争论的。有人认为是不能应用的;我们的观察是:在满足封闭性条件的场景中,现有人工智能技术已经可以大规模应用了。第四,封闭性要求是比较强的,有些应用很难满足封闭性要求,所以存在另一个挑战:如何超越封闭性?我会和大家分享中科大机器人团队在过去10 年中为超越封闭性所做过的一些尝试,主要有开放知识和融差性原理这两方面的研究。
关于两类人工智能,这个观点是图灵提出来的。图灵在1950年的文章中提出图灵测试,这是非常重要的。可是在1948年图灵还有一篇文章,我觉得更加重要,这篇论文始终没有正式发表。这篇手稿的标题就叫做Intelligent machinery(智能机器)。图灵提出,智能机器就是“用机器替代人的每一个部分”,而且举了具体的例子——无人驾驶汽车。所以无人驾驶汽车是图灵设想过的。但是他分析后认为,在当时的技术条件下,是没办法研究Intelligent machinery 的,所以提议先研究没有感知和行动能力的thinking machines( 思维机器)。图灵测试就是针对Thinking machines 的,他还建议了一些具体的研究课题,包括围棋、语言学习、机器翻译等。所以,实际上图灵考虑了两类人工智能——思维机器和智能机器。
我把两类AI 的根本区别总结在图1里。事实上,人工智能涉及三层空间——现实层、数据层和知识层。如果只考虑上面两层,即数据层和知识层,这就是思维机器;如果同时考虑全部三层,就是智能机器。它们之间最重要的差别是:智能机器要涉及感知和行动,而思维机器则不涉及感知和行动,至少不涉及行动。机器人自然属于智能机器,要同时涉及三层空间。
在过去的六七十年时间里,人工智能有三次浪潮。我们回顾一下,主流的研究有两大类,一类是训练法,包括深度学习;还有一类是强力法,包括推理和知识系统。强力法是第一、二次浪潮的主力,现在关注的人较少,但强力法并没有消失,只不过换了一个赛道,我称之为“大知识”,国际上流行的术语是Knowledge technologies。
2017年AlphaGo Zero 获胜,我认为这标志着第三次浪潮的结束和第四次浪潮的开始。我们是这样看待当前和未来人工智能发展态势的。
关于第四次浪潮,其他的学者也有类似的看法,比如深度学习团队,从2017年开始就在多次演讲中提到他们的深度学习2.0计划。在2020年8月29日中国人工智能大会的特邀报告中,Y.Bengio 教授给出了一个更加完整的DL2.0方案。值得注意的是,该方案中他们计划研究的目标功能,居然都属于强力法!与强力法途径不同的是,他们想用深度学习来实现这些功能。
强力法有模型、推理机/ 搜索算法和优化三个主要成分,其中模型是关键。对于思维机器来说,模型就是知识库,存储的是抽象知识;对于智能机器来说,模型包含知识库和模型降射两部分,其中模型降射是知识库到现实世界的对应。
图2中有一个推理机(推理程序),还有知识库+ 降射。假设想让机器人在就餐过程中帮助我们,就需要编写一个知识库,描述就餐的相关知识,比如“餐具可以盛食物”“米饭是食物”等。写了这些知识之后,就可以向推理机提问,比如:“碗能不能盛米饭”?这个问题在知识库里是没有描述的,但经过推理, 强力法AI 会回答yes。再问“碗能不能盛汤?”推理机回答yes,问“碗能盛什么?”回答“能盛米饭、汤……”。一般而言,凡是知识库在逻辑上隐含的所有碗能盛的东西,推理机都能找出来,所以编写知识库不需要写出全部知识;还可以向推理机提问更复杂的问题。上述这些都是思维机器研究的内容,可以不涉及降射。
对于智能机器人来说,只有知识库不够,还必须考虑降射。知识库里的每一个符号所代表的现实世界中的对象,都要通过降射对应起来。比如,知识库中的符号bowl 代表现实世界中的碗,这个对应就要通过降射来实现,否则机器人只知道一个空洞的符号bowl,却在现实世界中找不到碗,于是也就无法完成用户交给它的相关任务(比如“盛饭”“盛汤”等)。表面上看,这件事情很简单,其实包含着很大的难题。比如有一个碗,看起来像盘子,但其实是宋代的汝窑碗,所以也是碗,也要在降射里把它和bowl 对应起来,这样机器人才能够找到这只碗。
更有挑战性的是下面这个例子:破碗是不是碗?通常认为,破碗也是碗,于是我们在降射中把破碗也和bowl 对应起来。这么做的结果是什么?刚才看到了,推理机推出的一个结论是:碗能盛汤,而且这个推理和降射无关,所以现在推理机仍然会推出“碗能盛汤”,但现在碗实际上是包含破碗的,所以机器人可以用破碗盛汤,这显然是错误的!由此可见,不适当的降射可导致知识库出大问题,因此破碗不能在降射中与bowl对应,这样破碗就变成一个未知变元。一般情况下,AI 设计者能不能预先想到所有未知变元?这就是著名的“知不知”(How to know unknown)问题,是一个非常难的问题。
再看训练法。在一个图像分类比赛中,一个神经网络只要用带标注的数据训练好了,能以很高的准确率识别1000类对象,其中一类是卫生纸。下面我们问:脏的卫生纸是不是卫生纸?如果卫生纸是拿来用的,而不是仅仅要求分类,那么脏的卫生纸就要和卫生纸区别开,这就意味着:被分类的对象不是预先设计好的1000类,而是1001类。这是降射问题在训练法中一种表现,我们在训练法中同样遇到了“知不知”问题:能不能提前想到所有未知变元?如果想不到,如何收集相关的数据,训练出合适的神经网络?所以,训练法(包括深度学习)并没有给出降射问题的解决方案,同样面临着降射挑战。
一般地说,降射挑战背后的原因是场景变异无尽性:人们通常只想到典型场景和一部分非典型场景,其他没想到的可能场景到底有多少、有哪些,是不知道的。而这些无法提前想到的场景往往与想到的场景有所不同,即出现某种“变异”,而变异场景往往包含着未知变元(如破碗或脏卫生纸),它们的出现可导致已经建好的AI 模型(知识库和神经网络)失灵。
由此我们得到一个一般性的观察:在正常情况下,任何AI model,无论是强力法还是训练法的模型,都会丢失一些变元。由于目前强力法和训练法都不能有效处理未知变元或丢失变元,所以都无法胜任存在场景变异无尽性的应用。这是目前人工智能遇到的一个根本性挑战。
面对这个挑战,现有人工智能技术是不是就无能为力了?也不是,有一个简单的办法——封闭性准则:把典型场景和一部分非典型场景选出来,把它们封闭化,而其他场景都被排除,可以不考虑。这里的“不考虑”不是简单的忽略,而是通过采取具体措施,保证不考虑的场景即使出现了,也不会产生致命的后果,不会影响应用。这套方案叫做封闭性准则。
我发现,阿尔法狗也是符合封闭性准则的。我把第四代阿尔法狗的工作原理总结成一张图,说明它在围棋博弈树上下棋的原理。围棋棋盘有361个落子,另外还有一个特殊的落子pass,所以黑棋的第一步棋总共有362 个落子,第四代阿尔法狗直接选其中胜率估计最大的那个落子。白棋的第一步棋也是类似的,但是少一个选项,只有361个落子可选。如果是第四代阿尔法狗走棋,它也是选择胜率估计最高的那个落子走。之后黑棋和白棋的决策原理是一样的,总是选择当前可选落子中胜率估计最高的那个落子走。
由于围棋博弈树上总共有大约10300种不同的棋,太多了,落子的胜率估计没办法实际计算出来。第四代阿尔法狗用蒙特卡洛树搜索,自己和自己下了2900万局棋(自博),从这些自博数据中反推出了所有落子的胜率估计,保存在一个深层残差网络中。之后,它下棋就是按胜率估计的进行决策,根本不考虑不同的对手的下棋策略有什么不同。实验结果是,四代以100比0战胜了三代,而三代战胜了所有人类围棋高手。阿法狗四代没有和人下过,因为它的博弈水平远远超过了人类。
阿尔法狗第四代有哪些核心技术?他们2017年的论文里说得非常清楚,只有四项核心技术,其中前两项是强力法,后两项是训练法,而且有一个重大创新,就是简化的决策论规划模型。为什么简化模型可以成为重大创新?论文里没有说,我帮它说清楚了,这个重大创新就是遵守了我提出的封闭性准则。
封闭性准则对强力法有三个条件,对训练法也有三个条件,我发现阿尔法狗四代都是符合的。
阿法狗的成功及它之前的相关研究表明:虽然强力法、训练法和它们的结合都解决不了围棋问题,但是把围棋问题封闭化之后,用强力法和训练法的结合就可以战胜人类,并远超人类。这是人工智能第三次浪潮取得的重大突破,是人工智能发展史上的一个新的里程碑。
在《智能系统学报》2020年1期的文章中,我提出现有人工智能技术的一个可行应用模式:将应用场景封闭化,根据需要应用强力法、训练法以及它们的结合。这个模式是我从过去5 年的产业调研中发现的,适用于这个模式的场景非常多。这个模式中的封闭化包含完全封闭化、半封闭化和柔性化,需要企业研发人员根据应用的实际情况展开,所以他们是未来15年人工智能产业落地的主力军。
最后简单提一下超越封闭性的问题,过去10年里,中科大机器人团队做过一些尝试。这张图里是我们的“可佳机器人”,它的预期目标是在家庭环境中当机器人保姆。我们使用了强力法和训练法,但仍然有一些问题不能解决,所以提出了“开放知识”和“融差性”原理。应用这两种办法,可以让可佳机器人在非封闭性场景中更好工作,比如完全自主地操作微波炉加热食品。最初版本在2010年就实现了基本功能,但环境一旦发生改变,机器人可能就无法正常完成任务。去年我们得到一个改进版,人可以给机器人捣乱,破坏机器人工作的条件,这是体现环境变化的一种方式,在实际应用中也经常发生。在这种情况下,可佳机器人依然可以正常完成任务。我们还研制了一种柔性手爪,它不需要获得准确的信息,就能抓很多不同形状、大小和硬度的东西,比如能“一视同仁”地抓木块和豆腐。其中的主要原理就是融差性。还有情感交互机器人“佳佳”,也是在非封闭性条件下工作的。现在的一项主要研究是要识别非关键词意图,这种用户意图是用关键词无法表达的。
最后对未来15年做一个展望。首先是大规模产业应用,根据封闭性准则,只要对应用场景做封闭化,现有人工智能技术就能成功应用。所以,大批企业无需等待更强大的人工智能技术的出现,就能实现很多行业和产业部门的转型升级。
第二点展望。在未来15年中,人工智能的发展模式会发生一个重要的转变,过去完全是基础研究驱动的,而未来15年中大规模产业应用将成为主要驱动力,而且中低端产业是驱动力的主要来源,因为中低端产业是和用户的需求直接挂钩的,是最能反映用户需求的改变。同时,基础研究将在AI 的更深层次展开探索,从而为2035年之后的产业应用奠定基础。
第三点展望是关于人工智能伦理的,这也是当前的一个重大课题,同时也是未来战略竞争的一个新维度。过去的竞争是产业竞争,后来变成产业+ 科技,现在正变成产业+ 科技+ 伦理。