在中国,如果你要做人工智能,所能用到的数据,都是为BAT所掌握。那最终这个磨刀石也不在你手里,你也没有太大机会。你就是一个技术还不错的团队。
一、为什么说有「伪」人工智能存在?
第一,我们看一下人工智能的「人才储备」。
人工智能人才不是一夜之间冒出来的。无论在学校还是工作中,他必须、确实从事过人工智能的工作。其实这样的人才全世界不过几百个。但全世界有几万家人工智能公司,怎么突然冒出这么多人才?
从人才角度来说,无论是创建还是参与公司,怎么可能具备真正人工智能的优势呢?所以我们觉得存在大量的人才泡沫。
第二,我们看到很多项目真的是穿了个「马甲」又回来了。
我一直在跟创业者说,千万不要给自己的项目穿马甲,贴上很多流行的标签,流行什么贴什么,流行人工智能很多项目贴着标签来的。
贴标签之前这些项目挺简单的,早在阿里巴巴我们就看到过,什么叫机器学习,什么是算法。很多只是有一定算法的,或者还是基于机器学习的公司,今天摇身一变都给自己贴上了人工智能的标签。
二、如何识别「真人工智能」?
我跟李教授说,我不是技术专家,我也不懂技术,请问有没有比较简单的方法来识别真的人工智能和伪人工智能?
高手就是高手,用了一个非常简单的方法。我们先讲一个历史上的故事。
我们看到计算机和人类进行国际象棋的比赛,是在很多年前发生的,互有胜负。但是从教会计算机下国际象棋,到干掉世界冠军,不低于10年的时间。
Google下面的「阿尔法狗」、这个人工智能的机器,从学会,到下赢一个围棋的入门级的初段选手,到干掉世界冠军,据报道只用了1年时间。
所以真正人工智能判定方法非常简单,看他算法的进步速度。机器学习也会进步,那么人工智能的算法进步是几何级的。
也就是说一个人工智能领域的项目,如果你隔3个月去看,它在算法上比如说人脸识别也好、语音识别也好,它的进步是代数级,而不是几何级的——那么它更像互联网时代早已有之的普通算法。或者叫机器学习而已,都是伪人工智能。
所以,如果我们不太了解过程的话,就从结果来看。人工智能一定是像这次下围棋一样,「进步神速」。
这是我们第一个结论。存在大量的伪人工智能,和如何去识别伪人工智能,不仅要识别伪人工智能的项目,还要可以判断伪人工智能的团队。
三、做人工智能最重要的,不是技术?
第二个结论,人工智能的技术,如果把它比喻一把刀的话,那么massive refreshing data(大量海量且实时更新的数据),就是那把刀的磨刀石。
也就意味着,人工智能技术重要但不是最重要。这把刀一开始有多锋利,不是决定性的。一把锋利的刀不一直不磨,而一把不太锋利的刀一直在磨,那很快那把不锋利的刀就会超过那把锋利的刀。
Deepmind团队中,就是阿尔法狗的团队中,高级的华人工程师挺多的。见到他们,我问了个问题:你们怎么不立志搞一次中国象棋?
他说,David,这个不是说我们愿做不愿意做的问题。我们的围棋项目,还不得不感谢感谢日本人。日本人过去几百年几乎所有的棋谱都在,而且保留围棋的棋谱也特简单。只要一张纸,黑的白的,上面标好号码就行了:这是第1手,这是第200手。
所以,它其实一张图就记录了整个围棋下的阶段,所以复盘也特别容易。围棋几百年来的棋谱都存在,也就意味着围棋的数据特别齐全。
咱中国象棋老祖宗留下了什么?叫残局。它怎么走到残局呢?不知道,没有数据。
如果你把残局喂给机器,它怎么学习?他要学习的是我如何走到残局,以及如何从残局走到终局。由于中国象棋的历史数据缺失,造成这么生猛的阿尔法狗机器在中国象棋领域就go不下去了。
这就是意味着数据对人工智能有多重要。离开数据,谈人工智能是没有意义的。
四、下一位人工智能新独角兽在哪?
在哪些领域,人工智能可以跑出来独立的公司、独立的平台?
如果在美国你要用的数据,大部分或者全部由Google、Facebook、亚马逊所掌握,那磨刀石在别人手上。今天你的技术再领先,也维持不了多久。
我们看到很多这样的技术公司,唯一出路就是卖给美国Facebook、Google、亚马逊。
同样在中国,如果你要做人工智能,所能用到的数据,都是为BAT所掌握。那最终这个磨刀石也不在你手里,你也没有太大机会。你就是一个技术还不错的团队。
最后的出路可能是把这个团队,以并不太高的估值,卖给这些有数据的大互联网公司。
那么在哪些领域,美国的Facebook、Google、亚马逊也没有数据,中国BAT也没有数据呢?这种领域有没有?答案是有。
比如说医疗数据,BAT也没有;很多金融相关的数据目前还是银行、保险公司的内部数据,互联网公司也没有;可能还有一些其他的领域。
那么就以这两个领域来说,和人工智能结合,至少不管这把刀是不是很锋利,找数据源或者找磨刀石的起步,你和大公司是平等的。那就有可能在医疗、金融等领域,你和人工智能的结合跑出大公司来。
我们就拿医疗说,美国FDA已经批准人工智能读很多片子。我们觉得一个医生一辈子读10万张X光片或者CT片子就很厉害了,但这个片子拍完以后,他完全基于自己的经验和知识来判断。他判断得先有积累。
但这个事对机器来说,对人工智能来说太简单了。就是图像和打完标签的图像,同时要结合这个标签打完的图像和最终诊断的病例,做一个闭环的学习过程。
所以机器1个小时可以学10万张片子;人类最有经验的医生,从业30年,一万多天,一天看10张片子,一辈子10万张片子。但机器可以1小时读10万张片子。
但同时,由于美国对隐私的很多保护,很多医院的数据,在美国并不能轻易开放给这些人工智能公司。
我们看到一个趋势,很多从事医疗行业的公司开始寻找中国的合作伙伴,因为中国人口同样众多,隐私的保护却没有那么严格,有机会让医疗数据迅速地集中起来。
同样的今天很多人脸识别的公司,估值很高。我无法评价他们技术多牛。但我突然发现不是从事这个领域的公司,只要有大量的数据,迅速可以追上或者赶超,有在A股上市的。
比如:海康威视,这么多摄像头,它采集到很多真实的人脸。由于这个数据的存在,我觉得他们人脸识别的技术不仅目前达到,未来一定在中国这方面最优秀的公司,没有之一。
数据,无论说到人脸还是医疗都非常重要。