到底什么是人工智能?人工智能不能做什么?为什么接下来20年人工智能不会有一个巨大的加速发展?
三年前, 开启了人工智能时代,“它能做的事越来越多,几乎所有的事都可以做”,这是一种普遍的看法。
但是任何时候,如果一个事物当所有人都觉得它能做时,都有两个可能性:一是这个事确实太厉害了;再一个可能也发展到头了。
因为所有人都看到的事,红利未必还能继续存在。这时恰是需要一个冷静的思考。换个角度来看,就是人工智能不能做什么。
很多时候当一条路走不通,最简单的办法就是直接回到原点,问题就清楚了。
人工智能基于计算机,人工智能的极限取决于计算机的极限,计算机的极限取决于计算的极限。
什么能算以及不能算要搞清楚。这种本源问题反而是我们很多人忙忙碌碌不会思考的,而这决定了你做事大方向的对和错。
1. 图灵的思考:计算和机械运动的关系
计算机科学之父是艾伦•麦席森•图灵,那么,他的老师是谁?他的想法又是从哪来的?有两个人对图灵在计算机发展上提供最大帮助,我们称之为精神导师。
分别是冯诺伊曼(著名匈牙利裔美籍数学家、计算机科学家、物理学家和化学家,曾执教于普林斯顿大学)和希尔伯特(二十世纪上半叶德国乃至全世界最伟大的数学家之一)。
冯诺伊曼当时写了一本书对图灵很有启发,图灵给出了一个很难证实但是觉得对的一个看法,就是人的意识。
人的意识是由不确定性决定的,但是计算机和更早期的牛顿力学,以及可预测的机械运动有关。
这是图灵当时朦胧的想法,就是人的意识是由不确定决定,计算等价于机械运动。这确定了什么可以计算,什么不可以计算,他觉得边界划分就清楚了。
希尔伯特在1900年巴黎数学家大会上提出了23个最重要的问题,就是著名的”希尔伯特23个问题”。其中三问是他自问的,分别是:
① 数学是完备的吗?
完备是说数学能够涵盖我们任何要解决的问题吗?你可以感觉到不能,数学家哥德尔也曾证明不能。
② 数学是一致的吗?
什么叫一致?
举例来说,今天3+5等于8,明天算下来3+5还等于8。
但是物理学是一致的吗?不是!今天量出来的尺寸和明天量出来的是不一样的。今天烧开这一壶水是99.8度,明天可能是100.1度。
物理学是不一致的,而数学是一致的!
③ 数学是可验证的吗?
物理学可以验证,数学可以验证吗?不知道!
希尔伯特23个问题中第10个问题就是关于该问题,里面讲了一个特例。
有任意多未知数的方程,各个未知数可以变,有各种各样的结果,是一个不确定的方程。
你是否能有无数解,或者是否有一种方法在有限时间内可以判定该方程有无数解,无限的时间判定对我们日常生活没有意义。
举例来说:
X²+y²=z²有整数解。
X²+y²=z²是否有整数解,不知道!直到后来有英国数学家证明没有整数解,这个过程花了几百年的时间。
那么,我随便给你一个方程有没有整数解?不知道!可能有,也可能没有。先不说找到整数解,有没有一个办法能够判定这件事有没有解,这就是希尔伯特第十问题。
直到上世纪七十年代,前苏联有数学家证明说不可判定。对这个问题,没有人能够在有限的步骤内知道它到底有解还是没解。
你要是连它有没有解都不知道,你就一定解不出来。
数学不是万能的,计算机就不是万能的,人工智能也不是万能的,这是我们的出发点。
图灵当时虽然不知道这个问题的答案,但他的直觉是应该很多数学问题我们不知道有没有答案,于是他就用一个特殊的机械装置把数学问题一分为二,这个装置就是图灵机。
(图灵机)
计算机是图灵机的一种,更新后的装置。该装置能够在有限时间内判断哪一类问题能够在有限的步骤内计算出来。
但是还有很多数学问题通过这样的装置在有限步骤内是解决不了的。
在计算机科学和数学上有一个新的概念,叫计算机可解决的问题,还有大量的是不可以计算的。
今天的计算机甭管多复杂,从数学上就等价于图灵机。甭管深度学习还是云计算,等效于这样一个简单的机械装置。
这个简单玩意儿完不成的事,“太湖之光”超级计算机用上再聪明的算法也完不成,这是从本源上来讲。
我们把世界的问题进行划分,中间有一类叫数学问题。刚才讲数学不是完备的,有一些问题不是数学问题。
数学问题中有一些叫做可判定问题,我知道它有解或者没解,但还不知道解在哪。
例如,你出一道难题问你的儿子,儿子做不出来。问题的答案是有的,但是他做不出来,这就是可判定问题。
里面有一个很小的集合是有答案问题,你知道有没有答案之后才能找到答案。
可判定问题是知道有没有答案,有一些数学问题不知道有没有答案。
图灵装置把有答案问题又一分为二,里面很小的一部分叫做可计算问题。
可计算问题对于图灵来说是指有限步内可以计算,有限步也可能会有很长时间,到宇宙毁灭了还没有算完也叫有限步,只要不是无限步就是有限步。
(世界问题的分类)
在工程上,如果刷门禁卡,你识别一秒钟把门打开了这是有意义的,算了三天才放你进去就没有意义,这类问题叫做工程可解决问题。
算三天就是工程上不可解决问题。工程上可解决问题里面很小一部分是我们今天讨论的人工智能问题。
我们讨论人工智能,首先要清楚它的边界在哪,清楚边界才知道什么事需要由人工智能解决。
在讲人工智能能干什么以前,我先说它不能干什么,我们不要把原本不需要用人工智能解决的问题去用人工智能解决。
二、人工智能到底是什么
未来十年人工智能是什么样的,20年后发生什么事很难有人预测出来。人们常常会高估三五年内发生的事,低估十年后发生的事。
比如有人觉得无人驾驶汽车会马上上路,你是高估了这件事。
1. 未来10年:整个城市是一个大“机器人”
某漫画家画了一个漫画,世界上所有的东西都连起来了,花盆都连起来了。花盆为什么要连起来呢?因为要浇水。
前一阵子看到国家新出用水说明,看了农业用水量达到62%,以后农业要用滴灌(降低用水浪费)。
新疆只能用滴管,否则全挥发了。每一株植物都跟互联网连起来了,这是比较大胆的一个假设,未来可能就是这样。
假如这是(上海)徐家汇附近某地区,信息的流动全画上去就是密密麻麻的样子,类似于地球电磁场。密密麻麻带来的好处就是万物互联。
万物互联之后,马上就有出现一个紧迫的问题。
坦率来讲,现在的4G恐怕是不够用的。为什么5G这件事能成?5G来了之后网速更快。针对当下需求,目前的网速是足够的。
要上5G只有一个可能性,就是我突然上网的设备数量要增加10倍、100倍才行。
什么时候增加10倍、100倍?如果一株植物要上网的话,这个事就大了,所以这是有可能的。
这么密集的网络就是说数据量太大了,人工处理不了,需要借助人工智能,这是很重要的一个原因。
当我们的城市是密密麻麻数据,现有的单一计算机,或者说一个公司的数据中心很难完成这样的功能。
我们需要超级的分布在全市或者全国的计算设施,已经不仅仅是计算机了,这里面的程序也很复杂,所以需要智能。
2. 人工智能(机器智能)的本质
那么,什么是人工智能,确切讲什么是机器智能?
那么,如何判断机器是否有智能的标准呢?因此,能不能做这样一个客观的判断方法,这就是图灵测试。
如果在屏幕背后有一个智能机器,另外一个屏幕背后有一个人,我问一个问题让他们回答,天为什么是蓝颜色的。
然后让你们判断哪个问题是机器回答的,哪个问题是人回答的。当判断不清楚的时候,这时候我就说机器和人有同等的值。
因为它是等价基础上的定义,并不是说机器需要像我们人这样思考,这是人工智能的本质。
3. 人工智能的理解误区
提到人工智能,大家有时候就想到脑科学,是不是把认知思维搞清楚了,人工智能就能做的比别人好?不是这样的。
人工智能是从结果上判定是否与人一样好,不是从做事方式上来判定。
举个例子,前两年慕课公开课很流行。美国一所学校大量使用计算机教学,课上常常有TA,TA有些时候到课堂上帮助教授答疑。
这所大学会评全校最好的10个TA,有一年评了一个TA,就叫他约翰吧。但是没有人知道约翰其实是一个机器人,大家并没有见到他,这是十个最好的TA之一。
TA做的事情是一个限定问题。比如说就辅导宏观经济学这一门课,约翰做的不比人做的差。
也就是说,宏观经济学这门课方面,约翰和人具有同样的智能,但是它未必是像人一样思考。这是帮助我们理解人工智能的一个很重要的特点。
三、人工智能的历史发展阶段
第一阶段:传统人工智能
人工智能是1956年提出来的。美国一所私立大学10个教授思考机器智能的问题。
这10个科学家后来得了五个图灵奖,还有一个诺贝尔奖。他们当时就在想怎么让计算机能够有人的智能,那时候是人工智能一个初期阶段。
当时,大家的思维方式有点像今天中国说的“民间科学家”,什么意思呢?人类认识一个事物的时候,一开始都是一个直觉。
举例:鸟飞派 vs 空气动力学派
大家看《全球科技通史》里面会看到人类对飞行的认识,最早的时候就是模仿鸟飞,后来才知道要搞出空气动力学的一套理论。
今天飞机飞的方式和鸟是完全不同的,但是从效果上来讲比鸟飞得快。人工智能一开始也是这样的,大家一开始都让它模仿人。
举例:猴子摘香蕉
学过人工智能课的人可能知道一个经典问题叫猴子摘香蕉。天花板上放一个香蕉猴子够不着,房间里面有可移动的桌子、椅子。猴子通过移动桌子,把椅子再放上去把香蕉摘了。
人工智能开始做这件事时,先让它有猴子的智能可能不难,但是有人的智能就比较难了。
科学家们搞了十几年搞不下去了,其中有一个人马文•明斯基开始反思这个问题为什么解决不了。他就找到一个反例告诉大家说我们这些人都走错了路。
什么反例子呢?就是两句英文话:
① The pen was in the box;② The box was in the pen。
在英语里pen三个英文字母还有另外一个含义就是小孩儿玩的围栏,你要把pen理解成围栏第二句话就解释通了。
这件事对人来说不难理解,但是对计算机就非常费解,无法判定这个时候pen是钢笔还是围栏,为什么呢?原因很简单。
第一,我们知道小东西要放在大的东西里,你是怎么知道的?这是常识。
第二,如何判定钢笔有多大?我一说钢笔你们马上就能想到多大,你不会想到汽车这么大。
计算机怎么知道钢笔多大?即使让它像人类似的那样分析语法,分析语义等等也得不到这种知识。
今天发现计算机能够做一些特别难的事情,例如下围棋等等做的比人好多了。
Google其实后来不再开发AlphaGo了,觉得已经跟人类差距太大了。相当于一个专业选手跟业余选手下围棋,你没有办法下围棋了。
但是你让今天最好的机器人上街打一瓶酱油,你们家3岁孩子都可以干这件事,它却干不了。人工智能开始的定义是有特定范围,不能拿最不擅长的比人擅长的。
比如,一个很简单的人类常识,计算机是做不到的。
再举个例子,大家觉得今天的大江无人机很厉害,但是你让无人机像苍蝇一样飞就飞不了。
苍蝇大概有10万个神经元,但是无人机不到能干这么多事。这是人工智能的缺陷。
这就是我为什么在开始的时候讲计算机的边界。你让计算机去模拟一只苍蝇很困难,说明你走模拟这条路走错路了,我们要找一条别的路。
第二阶段:数据驱动
那么人工智能开始进入第二阶段,即以数据驱动的人工智能解决方案,提出者是莱德里克.贾里尼克。
1972年,贾里尼克到IBM 华生实验室做学术休假,无意中接触了语音识别实验室,两年后他选择了留在IBM。
在那里,贾里尼克组建了阵容空前绝后强大的研究队伍。IBM从六十年代开始做一些语言识别,但是都不成功,到七十年代让贾里尼克负责语言识别等课题研究。
因为贾里尼克是一个通信专家,所以他不把语音识别问题当做人工智能问题,而是当成通信问题。
其实又把语音识别问题拉回到原点,看看通信是什么。我把意思表达给你,你来理解我的信息。
我把想法在脑子里变成一串文字,这叫做信息的编码。
编码信息通过声音说出来,然后耳蜗把接收到的信息解码还原成电信号,电信号通过接收者大脑进行解码,接收者就知道对方的传递信息,这是信息解码的过程,是标准的通信的模型。
既然是标准的通信模型,就可以用通信的方式解决它。他用信源编码和信道编码两个模型来描述语音识别问题。
如果要把数学模型的参数算清楚就要用大量的数据去算。为什么这事在IBM能做成了呢?因为全世界当时只有IBM有数据。
IBM是商用机器公司,它是为各大公司提供计算机,大公司之间用计算机发电传,发传真。因此,IBM拥有大量商业电传文本,所以它做成这个事了。
换了一个思维方式解决问题以后得到了什么结果呢?在整个六七十年代,语音识别能识别十个数字,再加上几个简单的英文单词。
IBM最早想做一个语音控制的计算机,能够实现自动接线系统,连接、断开、转接、付费等等。
但是,当时识别不超过100个英文单词,错误率30%,没有办法用。
转换思路,用数据驱动方法解决问题能识别22000个英文单词,错误率从30%到下降到10%,就在短短几年间实现。
这就是工作方法和思维方式的重要性,思维方式常常比技术本身更重要。你沿着原来的老路用技术再走,也走不到前面去,就是一个死胡同。
但是当时的数据也仅仅只能解决语音识别的问题,不能解决图像处理问题,图像处理问题数据的绝对数量是语音识别的100倍。
所以当时是不可能的。后来,贾里尼克手下一个人提出机器翻译的模型,这个人叫彼德•布朗(Peter F. Brown)。
当时英语的翻译思路是走得通的,但是由于没有数据,翻译效果不好。
在没有互联网的情况下,世界上能找到的数据只有2个,一是各个国家都有的圣经,另一个是联合国几个官方语言之间的文件数据,数据都非常少。彼德•布朗的模型在当时没有得不到很好的结果。
很有意思的是彼德•布朗的论文是今天做机器翻译引用最多的论文,引用的高峰不是在九十年代刚刚发表论文的时候,而是在2000年以后当数据量大的时候。
那么,彼德•布朗是什么人呢?世界上最牛的投资基金叫文艺复兴,彼德•布朗原来是文艺复兴科技公司IT总监,现在担任文艺复兴的副总。
所以他后来就去预测股票了。由于缺乏数据,因此八九十年代人工智能进入了低谷。
到了2004年、2005年,人们看到一点曙光了。最先让大家觉得很兴奋的事机器翻译的水平基本上可以达到人的水平了。
Google有一个团队参加了美国国家标准化和技术研究所的测评,相当于中国标准化局的一次评测。
这一次评比的结果赢的是Google,跟第二名大概差5个百分点。
全世界科学家努力一年大概能提高0.5%,提高5%差不多10年。今天技术相差十年你们俩不在一个水准,差一代。
Google是第二个做这个事情的公司,凭什么一下子成为世界第一,而且是远远的第一名呢?
原因也很简单,Google把原来世界上做机器翻译最好的一个科学家请到了Google去。
为什么跳个槽,结果就提高了5个百分点呢?因为他用了别人一万倍的数据,就这么简单的一件事,算法没有变。
这就是为什么叫数据驱动的方法,也就是在这之后深度学习开始慢慢热门起来了。
基础的算法在七十年代已经奠定了,现在用了当年一万倍的计算资源,但是怎么用这些计算资源是一个本事。
我讲这些想是想告诉大家人工智能和我们人脑的智能完全无关,是一种基于数据驱动的机器学习方法。
如同鸟是振动翅膀来飞行,飞机是不振动翅膀飞行,实际上飞机飞行跟鸟类飞行没有太大关系。
飞机飞上天是人类对空气动力学的研究,而不是对鸟类的飞行进行研究。
今天了解人工智能是思考怎么让计算机这些钢铁等材料组成的盒子在回答问题的时候能超过人,而不是说研究人脑的结构。
有一个简单的方法判定人工智能是真还是假。如果说这个人工智能和认知科学有很深的关系,这是骗你的。
如同说发明了一个飞机,翅膀是可以振动的,是一样的道理。如果跟你讲有数据驱动的,数学模型怎么好基本上是真的。
四、人工智能发展的好消息和消息
人工智能发展到今天,好消息是说它得到了全世界的认可,LeCun、Hinton、Bengio得到了图灵奖。
坏消息是说从人类找到数据驱动方向的时候,人工智能用光了40年技术积累的红利,之所以今天有这个结果,是40年前的人在给你栽树, 40年前栽的树在今天开花结果了。
大家不要觉得人工智能突然发展这么快,会不会接下来20年又有一个巨大的加速?我告诉你不会的。
为什么?因为20年后产生巨大加速的事情,可以在今天的学术界预测。今天学术界所做的一些研究课题没有太多新的。
当今的科学家们比较努力,人数也多,大概也要20年才能积累出一个让人感觉非常兴奋、非常惊喜的理论基础。
好的是什么呢?因为这40年的成果在一些领域被证实了可以开花结果。
AlphaGo用它下棋可以用,彼德•布朗用它可以在股票上挣大钱,现在包括无人驾驶汽车,语音识别、机器翻译、医学影像识别,人脸识别等都做的很好。这些成果证明这项技术已经成熟到了我们可以把它们用到各行各业去。
任何一次技术革命,掌握核心技术的可能是2%的人,但是剩下来得有无限应用它的可能性。
五、人工智能的发展水平
1. 弱人工智能
比如美图秀秀,这是一个非常好的人工智能的应用,虽然你没有觉得它很聪明,其实它在图像处理方面蛮聪明的。
华为手机(P20以上)里面加入了很多图像识别功能,不仅是人脸识别,还能识别各种各样的物体。大部分人可能关注的是华为手机把颜色调的很亮丽,把人照的年轻一点。
你们愿意的话,还可以测试华为手机目标识别的功能。比如,你们去(上海)陆家嘴,用华为手机照一张大楼(低处往上拍摄),然后保存原文件,大概40M大小。
然后你查看照片发现楼是直的,这是不对的。因为从下往上看应该有一个倾斜角度,说明手机做了大量目标识别和后处理工作。
这其实就是人工智能的应用,虽然你可能不觉得那么聪明。
2. 强人工智能
你们常想到的聪明的人工智能,例如人工智能下棋或者给你看病,这就是第二层发展水平强人工智能。
①理解自然语言(比速记员要好,能够回答问题、写作)
例如做速记,今天科大讯飞的语音识别和人对讲话内容做处理已经差不了太多。当然里面有一个原因是科大讯飞的语言库资料比较大。
②病(已经达到了医生的平均水平)
人工智能看病诊断能达到医生的平均水平,疑难病症可以达到专家水平。为什么呢?因为医生看病在某种程度上来讲就是人肉大数据,必须见到足够多的病例水平才足够高。
③开车(绝大多数时间比人做得好)
人工智能驾驶绝大部分时候做的都比人好。在无人驾驶汽车方面Google是唯一梯队的公司,现在基本上经过测试能够做到每7000英里左右干预一次。
你从中国最北边开到最南边,或者从最东边开到最西边一个来回干预一次就够了。
3. 超人工智能,是否存在?
一直有科幻片在探索超人工智能是不是存在的。其实超人工智能存在有否,与你们的生活关系不大。
我问大家一个问题,鬼存在不存在?有人相信鬼存在,也有人不相信。
不管鬼是否存在,你们都不担心鬼的存在对不对?例如你们去到某个恐怖地区,你们是怕鬼还是怕恐怖分子?答案很显然。
很多人现在写文章,说将来人工智能发展下去不得了了,人类活不下去了。这种担心就是等于怕鬼。我们担心的不是鬼,而是背后的人装神弄鬼!
所以超人工智能不可怕,可怕的是应用人工智能控制你的生活以及无形中已经改变你生活的人,这些才是可怕的。
今天对人工智能有所担心,不是人工智能本身,而是人工智能背后开发程序的公司和个人。
六、机器智能(人工智能)的三大支柱
1. 摩尔定律
今天的手机和十年前的手机速度差了100倍。因此华为手机才能够做到实时处理图像信息。计算机的速度如果不够快,我问了内部的一些人,三四十张合成一张。这就是摩尔定律的作用。
2. 数据
多50%,多一倍、两倍、十倍不一定有结果,多一万倍就会有结果了。
3. 数学模型
之前提到计算机能解决的是数学问题。你如果想用人工智能解决问题,就需要能够对它建立起数学模型。
复旦下面一家人工智能研究所大概有三拨人。第一拨人是学MBA的,他们到客户那里了解客户业务逻辑;第二拨人是学数学的,根据业务逻辑搭建出数学模型;第三拨人是学计算机的,把数学模型变成计算机算法。
七、人工智能发展的三种态度
大家在做人工智能的时候有三种态度,分别是模拟人,取代人,超越人。
1. 模拟人
模拟人就是说原来人能做的一些事由它来做,有人就谈到服务机器人。但我个人未必觉得是一个很好的思路,为什么呢?
举个简单例子,比如说养老机器人,家里老人是想跟机器人聊天还是想跟儿女聊天呢。
又比如生病了,你是希望机器人给你送药打针还是护士来跟你说两句话?也许这个领域恰恰是人更合适的。
人工智能并非能解决所有问题,有时候要分清这个问题。当大家都涌到加州淘金,卖水的人挣着了钱。
加州很有名的矿泉水公司当年就靠卖水发家起来了。还有一家牛仔裤公司也在淘金时期发展起来。
2. 赶上人
人工智能在很多事上很容易赶上人。比如说天为什么是蓝的可能比你想的还清楚。
我家里有一个对话机器人。有一次在家里和朋友聊天聊到amazon,机器人马上问“你们是不是要买东西”?家人逗它说要买东西。
后来它说“高尔夫球好像快没了,是不是还要买”?他说那就买吧!
它接着问“是不是还买上次那个牌子”?我们说是的。
几天之后,商品就寄过来了。
你在FACEBOOK上点赞达到100次,它会比你家人都了解你的需求,点到200次可能比你自己还了解自己。这些事是人工智能可以完全解决的。
3. 超越人
某些事情,例如无人驾驶汽车,包括一些疾病的诊断,我个人觉得人工智能会比人做的更好。
疾病诊断误诊、漏诊其实是蛮多的,有些时候比我们想象的要大得多。
假设你是放射科的专家看片子的,看片子可能就会漏掉很多的细节。机器做这件事是非常稳定的事。
八、把握机遇抓住未来
今天讲了很多计算机和人的边界。要用不同的方式去看待计算机的智能,千万不要跟人等价。它的感知世界和人是不一样的。
关于人和计算机的智能区别,迈克尔•乔丹教授(美国人工智能专家)提到计算机的智能是网络行为,人是个体行为。
它获得的智能是网络判断的结果,不是单个计算机的智能。这是计算机和人的智能的差别。
当然这也带来一个风险,一旦出错就不是一个人出错,可能导致整个社会系统的瘫痪!
我们的主题叫超级智能时代,在这个时代还有很多细分领域有人工智能应用的机会,就看你们怎么把握呢!
如果你相信未来20年是一个还不错的发展机会,你就会采用不同的人生态度和不同的做事方式来抓住未来,也希望每个人都抓住未来。
谢谢大家!
*文章为作者独立观点,不代表笔记侠立场。