这一领域在其发展方向和原因上存在分歧。
自上世纪50年代以来,人工智能一再言过其实,却未能兑现其承诺。尽管近年来,由于深度学习,人工智能出现了令人难以置信的飞跃,但今天的人工智能仍然很狭隘:它在面对攻击时很脆弱,不能泛化以适应不断变化的环境,而且充满偏见。所有这些挑战使得该技术难以被信任,并限制了其造福社会的潜力。
3月26日,在《麻省理工学院技术评论》(MIT Technology Review)的年度EmTech数字活动上,两位人工智能领域的杰出人物走上虚拟舞台,讨论该领域如何克服这些问题。
加里·马库斯(Gary Marcus),纽约大学名誉教授,Robust.AI公司创始人兼CEO,是一位著名的深度学习批评家。在去年出版的《重启人工智能》(Rebooting AI)一书中,他认为人工智能的缺陷是这种技术固有的。因此,他认为,研究人员必须超越深度学习的范畴,将其与经典人工智能系统结合起来。经典人工智能系统可以编码知识,并具有推理能力。
丹尼·兰格(Danny Lange)是Unity负责人工智能和机器学习的副总裁,他完全属于深度学习阵营。他的职业生涯建立在这项技术的前景和潜力上,曾担任优步(Uber)的机器学习主管、亚马逊(Amazon)的机器学习总经理,以及微软(Microsoft)专注于大规模机器学习的产品主管。在Unity,他现在帮助DeepMind和OpenAI等实验室构建虚拟训练环境,教它们的算法感知世界。
活动期间,每位演讲者都做了一个简短的陈述,然后坐下来进行小组讨论。他们表达的分歧反映了该领域内的许多冲突,突显出一场持久的理念之战对技术的影响有多么强大,而该技术未来的发展方向又有多么不确定。
为了清楚起见,下面对他们的小组讨论进行了精简和略加编辑。
加里,你利用你在神经科学和心理学方面的专长找出了人工智能目前缺失的东西。你认为是什么原因使得传统的人工智能系统适合与深度学习相结合呢?
加里·马库斯:我要说的第一件事是,我们可能需要比深度学习和传统人工智能更复杂的混合体。我们至少需要它。但可能有一大堆事情我们甚至还没有想到过。我们需要保持开放的心态。
为什么要把经典的人工智能加入其中呢?嗯,我们在世界上根据我们的知识进行各种推理。深度学习并不能代表这一点。在这些系统中,没有办法来表示一个球是什么,一个瓶子是什么,以及这些东西对彼此有什么影响。所以结果看起来很好,但它们通常不是很普遍。
而这便是经典AI所擅长的。例如,它可以将一个句子解析为它的语义表示,或者了解世界上正在发生的事情,然后做出推断。但经典AI也有自己的问题:它通常所能覆盖的范围并不够,因为它有太多的人为定义等。但至少在原则上,这是我们所知道的唯一的方法,来建立一个系统,它可以对抽象的知识进行逻辑推理和归纳推理。这不意味着它是绝对正确的,但它是迄今为止我们拥有的最好的。
还有很多心理学上的证据表明人们可以做某种程度的象征性表征。在我之前的生活中,作为一个认知发展学领域的人,我对7个月大的婴儿做了实验,结果表明这些婴儿可以概括符号知识。如果一个7个月大的婴儿就能做到这一点,那么为什么我们要摒弃我们先天的优势来构建人工智能呢?
GM:在我写的一篇名为《人工智能的下一个十年》[1]的文章中,我列出了最近20个不同的项目,这些项目试图将一些有深度学习和一些表征知识的混合模型组合在一起。一个大家都知道的例子是谷歌搜索。当你输入一个搜索查询,有一些经典的人工智能试图消除有歧义的词。它使用谷歌知识图谱试图找出当你谈论“巴黎”时,你是在谈论帕丽斯希尔顿,巴黎,德克萨斯,还是巴黎,法国。然后,它使用深度学习来做一些其他的事情——例如,使用BERT模型[2]来查找同义词。当然,谷歌搜索并不是我们最终希望实现的人工智能,但它是一个非常可靠的证据,证明这不是一个不可能的梦想。
丹尼,你同意我们应该研究这些混合模型吗?
丹尼·兰格:不,我不同意。我对经典人工智能的看法是,它试图在非常深刻的意义上模仿人类的大脑。这让我想起了,你知道,在18世纪,如果你想要更快的交通,你会建造机械马而不是发明内燃机。所以我非常怀疑试图通过模仿人类大脑来解决人工智能的问题。
深度学习不一定是灵丹妙药,但如果你给它提供足够的数据,并且你有正确的神经网络架构,它就能够学习我们人类无法理解的抽象概念,这使系统在解决众多广泛任务时非常有效。
听起来你们俩对人工智能的目标有分歧。
GM:有点讽刺的是,去年12月,我与约舒亚·本吉欧(yobengio)进行了一场辩论。本吉欧说,深度学习必须以神经学为基础。所以我从深度学习中听到了两个相反的极端。这有点奇怪,我认为我们不应该对这些论点太当真。
相反,我们应该说:“经典AI中的符号知识能帮助到我们吗?”答案绝对是肯定的。世界上几乎所有的软件都是建立在符号基础上的。然后你不得不说,“从经验上讲,深度学习的东西能达到我们想要的效果吗?”“到目前为止,问题是它没有模型。Vicarious(一家以人工智能为动力的工业机器人初创公司)展示了一款非常受欢迎的雅达利(Atari)游戏学习系统[3]。但是当Vicarious将球拍移动了几个像素后,整个游戏就崩溃了,因为它的学习水平实在是太浅了。它没有球拍、球、砖头的概念。而符号算法可以很容易地弥补这些缺陷。
研究人类的原因是,人类在某些方面做得比深度学习系统好得多。这并不意味着人类将最终成为正确的模型。我们想要的系统有一些电脑的属性,也有一些从人那里学来的属性。我们不希望因为人的记忆力差所以人工智能系统记忆力也差。但是,由于人是自然界中唯一能够对某件事产生深刻理解的模型——确切地说,是我们所拥有的唯一模型——我们需要认真对待这个模型。
DL:对,世界上的编程语言都是以符号为基础的,这是事实,因为它们是为人类实现自己的想法而设计的。
深度学习不是人脑的复制。也许你可以说它是受到了神经学的启发,但它只是一个软件。我们还没有真正深入到深度学习。到目前为止,我们只有有限的训练数据。我们有有限的结构和有限的计算能力。但关键是深度学习的学习概念,学习特征。这不是人类设计的东西。我认为Gary的方法和我的方法最大的区别是人类工程师是给系统提供智能还是系统自己学习智能。
丹尼,你提到由于数据和计算的局限性,我们还没有真正看到深度学习的潜力。既然深度学习效率如此之低,我们难道不应该开发新技术吗?为了开发新的深度学习能力,我们不得不大幅增加计算能力。
DLs:深度学习的问题之一是,到目前为止,它实际上是基于一种传统的方法:你生成一个大的训练数据集,然后把它输入。一件可以真正提高深度学习的事情是有一个积极的学习过程,在这个过程中,网络被训练来优化训练数据。你不需要输入大量的数据来改善学习过程。可以不断调整训练数据,以针对特定的领域。
加里,你指出了深度学习在面对偏见和对抗性攻击时的弱点。丹尼,你提到了合成数据是解决这个问题的办法,因为“没有偏见”,你可以运行数百万次模拟,以消除对手的弱点。你们对此有何回应?
GM:仅仅依靠数据还不能解决问题。合成数据无法帮助解决贷款中的偏见或工作面试中的偏见等问题。真正的问题是,这些制度有一种倾向,会使那些由于历史原因而存在的偏见永久化。与建立足够复杂的系统来理解我们试图取代的文化偏见相比,人工数据显然不是解决方案。
对抗性攻击是另一回事。数据可能有助于解决其中的一些问题,但到目前为止,我们还没有真正消除许多不同类型的对抗性攻击。之前我的文章中有提到棒球它被描述为浓缩咖啡。如果有人事先想好要在模拟中用意式浓缩咖啡做棒球,然后仔细地给它们贴上标签,那很好。总会有一些没人想到的情况。一个纯粹由数据驱动的系统将继续受到攻击。
DL:不管你做什么,现实世界的数据都是有偏见的。你在特定的环境中收集数据,比如自动驾驶汽车,可能有90%的成年人和10%的儿童在街上。这是正态分布。但是一个机器学习系统需要训练足够多的数据以避免撞上成人或儿童中的任何一个。有了合成数据(模拟数据),如果你小心的话,基本上就能平衡和避免偏差。这并不意味着你不能制造新的偏见。你得小心点。当然,还解决了隐私问题,因为任何训练数据中都没有真实的人或真实的孩子。
至于对抗性的例子,它们的问题是,它们基本上是在弱计算机视觉模型的基础上开发的——这些模型已经训练了1000万或2000万张图像,比如来自ImageNet的图像。这远远不足以概括一个模型。我们需要大量的数据集和大量的领域随机化来概括这些计算机视觉模型,这样它们就不会被愚弄。
你对人工智能的未来最感兴趣的是什么?
GM:去年确实出现了向混合动力汽车发展的趋势。人们正在探索以前没有的新事物,这很令人兴奋。
DL:我认为这是一个多模型系统,是由许多不同的感知和行为模型组成的系统,用来解决真正复杂的任务。
参考:
1. The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence. arXiv:2002.06177
2. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805
3. Schema Networks: Zero-shot Transfer with a Generative Causal Model of Intuitive Physics. Vicarious website.