一项新的数据集揭示了人工智能在推理方面的糟糕程度,并表明一种新的混合方法可能是最好的解决方法。
问题:名为“CLEVRER”的数据集包括2万个合成视频短片和超过30万个基于视频中事件的问答配对。每个视频都展示了一个简单的玩具物体的世界,它们在模拟物理中相互碰撞。在其中一个实验,一个红色的橡皮球撞到一个青色的橡胶圆筒上,青色的橡胶圆筒继续打在一个金属圆筒上。
这些问题可以分为四类:描述性的(例如,“与青色圆柱碰撞的物体是什么形状?”)、解释性的(“是什么导致了灰色圆柱与立方体的碰撞?”)、预测性的(“接下来会发生什么事件?”)和反事实的(“没有灰色物体,哪个事件不会发生?”)。这些问题反映了孩子们在探索周围环境时很早就学会的许多概念。但后三种需要因果推理才能回答的类别,往往会阻碍深度学习系统。
失败:由哈佛大学、DeepMind和MIT-IBM沃森人工智能实验室的研究人员创建的数据集旨在帮助评估人工智能系统的推理能力。当研究人员用数据集测试了几种最先进的计算机视觉和自然语言模型时,他们发现所有这些模型在描述性问题上都做得很好,但在其他问题上却做得很差。
新旧结合:该团队随后尝试了一种结合深度学习和符号逻辑的新人工智能系统。在20世纪80年代末被机器学习取代之前,符号系统曾经风靡一时。但这两种方法都有各自的优势:深度学习在可扩展性和模式识别方面更胜一筹;符号系统更擅长抽象和推理。
这个复合系统被称为神经符号模型,它利用了这两方面:一方面使用一个神经网络来识别物体的颜色、形状和材料;另一方面使用一个符号系统来理解物体运动的物理性质和它们之间的因果关系。它在所有类型的问题上都优于现有的模型。
重要性:作为孩子,我们学会观察周围的世界,推断事情为什么会发生,并预测接下来会发生什么。这些预测帮助我们做出更好的决定,驾驭我们的环境,保持安全。在机器中复制这种因果理解同样会使它们以更智能的方式与世界互动。
参考:
CLEVRER: CoLlision Events for Video REpresentation and Reasoning.
http://clevrer.csail.mit.edu/#Dataset