与师生谈人工智能4：图灵测试_观点_爱国

学：学生，教：教师，李：李晓榕

教：人工智能大牛马文·明斯基说：像“情感”“意识”这样的“手提箱”词汇之所以难以定义，是因为其内涵太丰富了，只要我们把它切块细分，就能很好地把握。我想，“智能”大概也是如此，应该也能由此得以界定。给定义就讨论，我们浑身不自在。

李：明斯基在《情感机器》一书中确实这么说，书中确有独到之见。他说的是科学的一种基本方法——分而击之，我们早先详谈过，见谈科学之弊的多个部分。这一方法虽然强大，但并非普遍适用、普遍可行或普遍有效。举例来说，“人”的概念十分有用。比如，由此我们可以有“人性”的概念，以区别于物性、兽性、神性等诸多概念。分而击之只关注“人”的多个分解概念，它虽有助于加深对“人”这一概念的理解，但这些分解概念的总和并不能代替“人”的整体概念，因为整体并非部分之和，而且“人”是作为一个整体与外界及内部交互的。“智能”概念也一样。所以，智能基于分而击之的定义，会缺乏对智能的整体把握。对于其他复杂对象，的确已有不少这样支离破碎、缺乏整体把握的定义。

学：关于智能，我们不是有图灵测试吗？它让人任意提问，来鉴别是在与人交谈，还是与机器交谈。如果区分不了，就说测试通过，有智能；通不过，就说没智能。

李：难以精确定义智能而又想划界，图灵测试就是这么一个权宜之计的二元判决，而非量化测试，它至多只能在没有更好更简便的办法时，权且一用。比如，现在互联网上用于鉴别人与机器的简单测试，就可以说是它的一个大大简化的版本。图灵测试染有典型的本质主义和行为主义现代病：总要把复杂多维的东西简化还原归结为某个“本质”单维一元（本质主义），这儿就是把智能化归为书面交流；总是只专注于输入输出之间可观测的外部行为（行为主义），这儿还仅限于言语。让我们谈谈这些问题。

①极度复杂难言的“智能”，怎能用一个本质单维来整体（遑论全面）把握？又怎能简单地测试？智商测试、民意测验等1也都是这样片面失真不可靠，它们真能正确反映智力水平和民意？同为测试智力智能，智商测试和图灵测试也不和谐。2011年人工智能产品“沃森”在百科知识问答赛《危险边缘》中战胜两位人类冠军之后，IBM推销它是“各类问题的通用智能解决方案”。而当时的“沃森”其实只会玩《危险边缘》，不会做任何其他事，它缺乏理解，并无多少通用智能可言。2013年就有一款人工智能产品在智商测试中得分140以上，远高于常人。清华大学的写诗机器人“薇薇”在2016年通过了社科院等唐诗专家的“图灵测试”。

②存在无穷多个（智能的和非智能的）系统能以任意精度满足任何有限个这种书面交流（即图灵测试中的问答）的输入输出关系，而这种关系不足以反映智能的众多其他方面。真会用兵决不是纸上谈兵或沙龙里的夸夸其谈。正如当代西方大哲维特根斯坦坦承的，“务必保持沉默”而“不可言说”的远比可言说的更重要、更有价值。无数智者说不清道不明的“智能”就有这种难以言说的核心内容，它无疑超越任何仅依赖于书面交流的测试。连是否会弹钢琴这种简单技能（或者其他依赖于默会知识而非外显知识的技能）都无法用这类测试来准确判断，何况更博大高深神秘的智能？可见，图灵测试把智能简化为言语体现，因而测试的其实不是智能，更是便于操作的“能否惟妙惟肖地模仿人做书面交流”的能力，而这与智能大有区别。要是允许这样以偏概全，那么说笑话需要智能，为什么不靠“说笑话”来测试智能，只要无法区分被试对象和人在说笑话方面的差异，就认为被试对象是智能的？上述“说笑话”也可换成讲故事、做作业、对对子、玩游戏、唱歌、下棋、打牌或者测定脑电波等数不清的其他方式。

③图灵测试有赖于人类裁判，因而无法完全客观，很明显裁判不能太傻，得足够“智能”。这样，对“智能”的判定有赖于高级“智能”本身，这在深层上其实犯了循环定义的大忌。而且，仅靠书面交流的“分辨率”很低：一般人很难较好地区分人和机器，即便机器其实比人差远了，仍如此。

对智能来说，能通过图灵测试既无必要，也不充分。一方面，连图灵本人都说，只要对人类智能或书面交流了解或模仿不够，高级智能就通不过测试，因为人们易于区分他们和人。譬如著名物理学家霍金会因为反应太慢而通不过测试。另一方面，能通过图灵测试的未必是智能的，只要被测对象与人在书面交流上的差别不大，而书面交流难以有效体现智能的众多方面，例如创造力、判断力、感知能力、探索能力、实践能力、生活能力。人除了“言语智能”外，还有生存本事、办事能力等众多其他方面的智能，特别是东方重视而西方轻视“只能意会，不可言传”的高级智能。加德纳（Howard Gardner）著名的多元智能理论把智能明确分成语言、逻辑、空间、音乐、自然、身体、人际关系、内省、生存等几大类。这与上面提到的明斯基的分而击之观点相通。一款模仿13岁乌克兰男孩的人工智能Eugene Goostman于2014年首次通过了图灵测试。然而，这并不被认为它证明了智能机器已经出现，倒反而可以说是对图灵测试的证伪。因为，人们并不（按图灵测试照理应该）以此认定，Eugene Goostman是智能的，相反，究竟能否造出智能机器，仍是见仁见智，并无任何改变。用大数据培训一个专门的深层人工神经网络，并不难通过图灵测试，但是它难以胜任其他需要高级智能之事。

教：有人说，图灵测试跟古希腊的大哲学家苏格拉底所擅长的问答法一脉相通，是很好的鉴别智能的方法。

李：的确，苏格拉底是古希腊划时代的大哲学家。哲学史上最先出现的问答法，是其步步进逼、层层追问的问答法，这也是他当年与人探讨哲学和人生问题的主要方法，但这又怎么能说明它是判定是否有智能的好方法呢？

其实，图灵从未正式提出任何形式的智能测试。事实是，在行为主义风行的年代，他认为“机器能思考吗”这个问题太含糊，建议代之以考虑“与之密切相关”后来以“图灵测试”著称的这个更明确的“模仿游戏”。他坦承对于这一替换“无法从肯定的角度作出非常有说服力的论证”，而只能“列举反面观点中的错误”。尽管他由前期不信而转变为后期相信强人工智能，但他与朋友谈及这个模仿游戏时，称之为propoganda（有忽悠之意，多带贬义，明显比当下中文的“宣传”一词更负面），看来并不十分看重它。后人或多或少误解曲解其意，拿着鸡毛当令箭，当试金石，当照妖镜，当科研神器。

图灵意在强调机器智能研究应重视可观察的外部行为及其在观察者眼中的表现。这一脉相通于行为主义：回避直接研究心智、意识、意志，而代之以研究刺激-反应的外部可观察行为。心理学中的行为主义在1910年代由华生（John B. Watson）等人创立兴起，不久后就如日中天，统治心理学、社会学半个多世纪，但今天业已过气失势。而且，华生把思维归结为语言，认为言语是“大声的思维”，思维是“无声的谈话”。在20世纪上半叶现代哲学经历了以分析哲学为代表的语言学转向，其旗手、早期维特根斯坦认为，超出语言描述范围的东西是无法思考的：“我的语言的界限意味着我的世界的界限。”（《逻辑哲学论》）

这些学术背景都对图灵在1950年提出“模仿游戏”以及把它限于言语交流，恐怕至少有启发和支持作用，由此可见图灵测试（乃至图灵对强人工智能的信念）的行为主义色彩。在行为主义以及“语言先决于思维”这一当年流行的强论题被否定后的今天，图灵测试的局限更明显了。图灵始料未及的是，“图灵测试并没有真正激发人工智能研究人员去研发更优秀的会话者，却导致欺骗讯问者的技巧越来越多。”（莱韦斯克《人工智能的进化》）若不是图灵测试有此严重缺陷，又怎会如此？

教：我也见过有人反对图灵测试，比如塞尔的“中文屋”理论。

李：的确，其中最著名的是认知哲学家塞尔（John Searle）基于“中文屋”思想实验2的论证，其实质是说它“虽能不懂”：即便能，也不懂，只是貌似有智能，其实没有，即模拟不等于复制。我不认可他这种反驳。假设我们把图灵测试中的书面交谈测试改为对全部言行举止的测试，只要把语言交流改为全部言行，塞尔“虽能不懂”的论证还成立，甚至不论这种测试是有限或无限的。然而，如果在全面而无限的测试上无法区分，那说明（以概率1）模拟是完美的，被试对象其实不懂（“貌似懂”）与真懂，对其外部而言毫无差别因而等价，从外部无法区分。所以它到底懂不懂，无从判断，无法区分，区分也就毫无意义。而且，纵然限于有限测试，若模拟能达到任意精度，则与复制并无实际区别。但是，如果像图灵测试那样只限于书面言语交流，即使是通过无限测试的完美模拟，也只是片面的完美模拟，谈不上是整体的完美复制。

塞尔反驳图灵测试的实质是说“强人工智能”不可能。他认定，计算只是形式上的符号操作，不是理解，只有语法没有语义，产生不了意向性，机器没有精神生活，而精神生活与行为无直接关系，尽管人脑产生了精神。其论证藏有一些未经证实的假设，它有助于一个人弄清自己到底信什么，但说服不了一个相信“机器可以是智能的”之人“倒戈”。

______________________________

1. 这类简化测试会忽悠误导大众，简直是“针对门外汉的密谋”（萧伯纳语）。对智力的定性把握至今尚且严重不足，而百年前就提出的“智商测试”尽管明显很片面，但人们急于量化智力而“饥不择食”，把它广泛用于定量测定智力水平，甚至进而给出知名定义：智力就是智商测试所测的东西。这样以鹿为马的偏颇专横在对复杂事物的还原论研究中屡见不鲜。与此类似，“意识”究竟是什么至今仍相当茫然，但有人依赖意识的整合信息理论，提出将所谓“整合信息”（integrated information）作为“意识”程度的度量。这都植根于一味追求量化的偏执。

2. 简言之，这一思想实验说：你不懂中文，但配有由完备的形式规则构成而不懂语义的指令手册，据此你能跟只懂中文之人用中文交流，但其实你不懂中文（这难以反驳）。不过，塞尔认为，即使把手册放入你脑内，内化为你的一部分，你也只是模仿了中文，其实并不真懂，因为手册和原来的你都不懂中文。这就见仁见智了。

正在出的博文系列：

与师生谈人工智能：

1.智乎哉？ 2. 奢求精确之误 3.精确定义之病 4.图灵测试

与师生谈现代化之弊

1：崛起的代价 2：发展必好无疑？ 3：发展的恶果 4：科技进步果真进步？ 5：科技的罪责

6：开发进步善哉恶哉？7：现代化恶果之因 8：现代化恶果之因2 9：资本主义与个人主义 10：资本主义的修正与回潮

11：全球化的好歹 12：全球化的好歹 13：西化、现代化、全球化 14：现代化的本质 15：文化全球化？

16：妈的奶贼腥 17：多元优越 18：四大主义 19：“化私为公”的隐形手 20：进步的魔咒

21：进步的陷阱 22：进步的后果 23.成功的反噬 24：进步的残酷 25: 进步到恶神末日

26：自造成恶神

与师生漫谈科研文化

1：我有科研之才吗？ 2：我该做科研吗？ 3：逻辑推理的作用 4：人生价值 5：生命的延续

已出博文系列：

与师生谈科学之弊

1：线式因果思维1 2：线式因果思维2 3：线式因果思维3 4：螺环之奇妙 5：幻化的因果

6：不牢靠的因果推理 7：分析还原病 8：还原论教条 9：基因未必基因 10：割根裂本

11：强拆硬分 12：科学的领地 13：科学的致命伤 14：科学的致命伤2 15：逻辑之可错

16：逻辑可错之源 17：“脚踏实地”的逻辑？18：逻辑：真理焉？宗教焉？ 19：想不清原理 20：想不清原理2

21：逻辑教的改革 22：逻辑教的改革2 23：精确性的终结 24：科学哲学 25：务外逐物

26：科学六弊 27：科学之弊总结

与师生谈科研选题：

1：科研的战略、战术和战斗力 2：选题三准则：趋喜避厌 3：选题三准则：如何培养兴趣 4：选题三准则：择重舍轻，扬长避短

5：得题之关键 6：如何应对新潮 7：选题四建议 8：总结：选题好比找对象

与师生谈研究策略：

1：科研四要素 2：突出重围的法 3：人人信之而善忘的黄金法则 4：孤胆方是英雄，独创才有真才 5：大道至简，科学之魄

6：弃繁就简 7：以特制胜 8：综括 9：反行众道，改形换状 10：迷雾中的灯

11：技穷时的上策 12：驾驭时间之术1 13：驾驭时间之术2 14：保质增产之法 15：类比、联想、猜测、推证

16：评估 17：总结与回顾

与师生谈学习门径：

1：广度与深度 2：增加深度的窍门1 3：增加深度的窍门2 4：增加深度的窍门3 5：增加深度的窍门4

6：增加深度的窍门5 7：增加深度的窍门6 8：如何培养直觉和想象力？ 9：基础不好，死路一条？10：阅读策略1

11：阅读策略2 12：博览之术 13：增强记忆1 14：增强记忆2 15：如何听讲

16：最佳捷径

与师生谈科研输出：

1：论文写作五要点 2：论文的结构、条理和语言 3：标题、摘要、引言、结论 4：作学术报告四建议 5：与编审人员打交道

与师生谈科研道德：

1：何谓弄虚作假 2：何谓剽窃？ 3：何谓自我剽窃？ 4：版权

5：谁该当作者？ 6：署名顺序怎么定？ 7：其他学术不当行为 8：总结

快好知 kuaihz

与师生谈人工智能4：图灵测试

小提琴的一些艺术等问题（4）：...

量子力学几率假设与数理统计的正态...

人造皮肤的说法确切吗？

最新