快好知 kuaihz

Face++云服务平台产品负责人:AI如何助力行业智能化

算法,是否可行?行业,是否认可?决定了,是否可以做?用户场景是什么,决定了是否值得做?能否给现有行业的核心玩家带来相应的价值,且价值可否去复用,这是判断是否有价值并且可持续。边界、场景、价值,这是在AI落地行业实践中需要不断考量的三大核心要点。

本文是AI独角兽公司Face++云服务平台产品负责人刘杨洋在起点学院的分享实录,嘉宾分享视频已经在起点社员频道上架,限时免费观看,详情请戳:视频链接

内容经编辑整理,部分有修改:

 

一、什么是人工智能

最近,特别是这两年开始,AI和区块链可以说是互联网最大的风口,连诈骗集团都学会用这两个词忽悠了。如果你这个公司没有左手“区块链”,右手“AI”,你都不好意思说自己是高科技的公司。

那么说到底,什么是人工智能

讲这个概念之前,我们先说说什么是智能。

其实,智能是个体的一个行为闭环——大家都是智能的生物,每天都会经历无数次这样的闭环。

比如:

今天出门,穿着睡衣顶着加了三天班的憔悴面貌去买菜,结果一出门就看到前任挽着他的现任光鲜亮丽地从远处走过来了。这个时候我们首先感知到了这件事情,紧接着就会认知到这个非常尴尬的境地,那么接下来我们就要做决策:究竟是赶快找个地缝躲起来,还是干脆打晕前任,并且把这个决策付诸实践(就是执行)?执行过后就会学到:你总是会在最不想见的时候见到你的前任——多么痛的领悟!

这是一个最简单的智能个体闭环。

当然,这只是个体;真正的智能生物还要涉及到和其他个体,或者说整个社会的博弈、合作,这种整体的闭环叫智能。所以,人工智能学科,据官方定义应该是:

创造可以自主地进行感知、认知、执行、决策、学习的闭环;并且可以和其他(符合社会的核心价值观)的个体进行交互,这就是人工智能

我们传统的系统,主要的功效是在影响我们(这个智能体)的闭环。有的是希望影响感知,比如蛋糕都想做好看一点;有的是希望影响决策,比如降价等等;而人工智能系统,最终的目标就是自身可以实现这样的闭环。

1. 举两个案例

(1)鹦鹉学舌

这应该是现在基本上在应用的所谓人工智能阶段。

我教一只鹦鹉说“你好!”,它会说“你好!”然后问“你吃了吗?”它只会回“你吃了吗?”,而不会回两条虫——这只是目前阶段鹦鹉学舌。

当我问:你吃了吗?鹦鹉会做一些语义分析(它内部的AI系统),再返回说我吃了两条虫——这才是相对智能。

(2)乌鸦吃果

这个视频非常的出名。

乌鸦是一种很聪明的生物,一些乌鸦和海鸥在海边吃贝壳吃不到怎么办?它会把贝壳叼到很高的地方,贝壳摔下来之后再吃。贝壳是很坚硬的东西,所以它观察马路上的汽车会把这些坚硬的东西压下去去吃。这时候出现问题的是:马路上太危险,万一车过来出现车祸怎么办?它们观察绿灯的时候车是川流不息,红灯的时候车会停下来。所以它们后来学会叼坚硬的东西往路上放,等到红灯的时候再去吃——所以它是形成了完整的闭环。

鸟类其实是非常聪明的。

最近看一个报道说,在澳大利亚有一种猛禽。它甚至会去偷人类的火种,偷完火种之后往荒野上一放;发生火灾,那些小动物就会跑出来,它就会吃那些小动物——我觉得它应该也是有这样的长期观察,得到了一个方法。

所以,这样两个案例,我觉得乌鸦吃果或者是这样的人工智能,最终是希望能够做出这样的机器或者说这样的一个系统。

二、人工智能包含哪些东西?

包含这几样:

计算机视觉,现在非常火,包括我们公司主要是做这个。人脸识别、图像识别和模式识别都包括在这里边。

自然语言理解与交流,就是科大讯飞一直专精的语义理解这个方面。

认知和推理,这是另外一个方向,比如知识图谱、社会伦理学这样的一些东西。

机器人学,怎么去创建一些机器,包括任务的系统,路线的规划,机器人的控制等这一系列的东西。

博弈与理论,个体之间是如何的竞争和合作?包括研究如何符合人类的核心价值观,人工智能和人类如何一起和平的共存等等。

最后其实是研究上面的工具,比较火的深度学习、无监督学习都包含在这里边,统称叫机器学习,它是研究数据的统计、建模的方法。

三、从产品角度看,哪些属于人工智能

认知:是指收集信息和解析信息来感知世界,比如图片识别、语音识别、自然语言处理等;

预测:是指通过计算,来预测行为和结果。比如广告推荐,歌曲推荐等;

决策:是指确定实现的方式和路径,比如移动路线规划、自动买卖股票等;

集成解决方案:是指人工智能和其他技术结合时,产生的多种集成解决方案,比如和汽车结合就是无人驾驶,和医疗器械结合就是手术机器人。

四、AI在手机行业的落地实践

我们判断一个技术能不能在行业落地,最重要的是能不能达到超越价值线的价值,并且可以有一定的门槛,可以持续地发展。

以手机行业为例,为什么选择手机?

首先,计算机视觉本质是赋能各种各样的摄像头,而在现在的社会里边最重要的摄像头就是手机,每个人的手机上至少有两个,未来会有三个、四个,短暂地时间里边个数不会减少,只会增多,这是最重要的“战场”。

其次,手机它是一个比较有价值,是高价值的行业。我们能够在很多方面发力,比如安全领域,常见的刷脸解锁/刷脸支付。

从手机诞生的那一天或者说电脑诞生那一天开始就会有数字密码。上世纪开始基于生物特征的安全越来越受到大家的喜欢,我们在做之前其实内部有个分析,为什么刷脸现在可以做?我们的优势在哪里?

最主要的因素是工业设计和制造工艺的提升。今年的全面屏成为工业设计上的主流趋势,大指纹设计挪到了手机背面,指纹的用户体验优势降低了。人脸不仅弥补了体验上的不足,更重要的是:人脸只需要摄像头就可以完成,不需要像指纹一样占用更多屏幕面积,所以能够大大提高屏占比。

第二个是芯片处理能力的提升与人脸识别算法的成熟。一些硬件层的加速方案可以让人脸识别的算法能在手机上跑得更快,新的活体技术可以让刷脸变得更安全。

第三个原因是摄像头模组制造工艺的突破。其实结构光在几年前就有了,但是并没有小型化到手机这么小的体积内,iPhone 是第一家推出这样设备的厂商。除了结构光之外,还包括普通的红外IO摄像头、TOF摄像头、摄像头模组的小型化。

除此之外就是成本和收益问题:如果厂商想要在手机那么小的空间内装一个指纹模组、虹膜模组,所要牺牲的手机内部空间占用;换句话说:所需要的成本是巨大的,而人脸识别不会占用除摄像头模组外更多的内部空间。

用户体验更好,大家在刷脸解锁的过程中不需要做任何的配合式操作,可以拿起手机直接解锁。而刷脸还可以抵抗一些常见的干扰,例如暗光、侧脸、小范围遮挡等。这让刷脸成为一种体验更优的生物识别方案。

五、AI在教育/营销/制造业等行业的落地实践

说完手机,我们再讲一讲其他的行业。

1. 汽车

比如汽车。

汽车主要的切入点是让汽车更了解它的用户,包括驾驶员他是谁,根据他的情况去调整一些座椅、后视镜,各种音乐这样的设置。还有就是:你有没有遗留一些物体,或者是遗留一些小孩或者是遗留一些宠物在车上?

主要的切入点是:让汽车能够更了解它的用户。

2. 教育

教育,这方面是两块:

一块是让老师更了解学生,可以通过视觉的方式来了解学生学得到底认不认真,开不开心,课堂质量怎么样,反馈提升老师的教育质量;

第二块是有一些手势、贴纸、特效,更丰富教育的方法的尝试;第三个其实就是校园安全监控,保护孩子在学校的安全等等。

3. 营销

营销,营销这块的主要切入点是帮助找到更精准的一些客户,年龄、性别这些,然后找到客户之后,可以分析看看营销效果怎么样?

举一个广告牌,发现是女生,给他推化妆品——她看没看?看了多久?有没有拿出手机来扫?表情什么样?这些其实都可以做。

去年比较火的军装照、换脸这些东西,它也是营销的一种新的方式;也许以后是换个身体,拍下照可能是施瓦辛格的身体,脸变成贝克汉姆,大概是这样的营销。

4. 制造业

制造业,主要是异常的检测和报警。比如拉链到底是不是坏的,还有没有起火、烟雾这样的一些预警。

第二块是正常的保证:该入库的是不是入库,该进行的程序有没有做?

但是无论如何,在这几个行业想要有长足的发展,还是需要深耕,需要对行业本来就很了解的人和我们一起发力;能够在计算机视觉给这些行业赋予所谓的超越价值线,也就是高价值,看能不能有一些更深入的合作。

六、AI落地行业的核心思路:场景、边界、价值

最后总结一下行业的落地思路,或者说怎么确保AI这些东西能不能做。

1. 边界

第一,人眼的边界。这其实是一个技术问题,就是这个东西是否已经跨越了人眼的识别边界,这是否是一个计算机视觉能够解决的需求。

第二,算法可行性。举一个很简单的例子,比如把手张开,也许我的朋友跟我说是你好!也许我家的猫看见说我要打它。但是算法只是说你只是把手举起来,到底是干嘛算法是不知道的。所以算法到目前为止是没有推理作用。

还有就是宽域到窄域的预设,这其实就是一个场景的预先规划,以及对训练数据的要求——因为我们现在所说的算法训练,都指的是监督式学习。

什么叫监督式学习呢?

比如说我看的都是中国人,你突然给我一个黑人,也许我就识别不出来了;以前有个人做了识别健身房哑铃,做得非常好,每一个人拍一张照都能识别出哑铃,后来有一天没有人手出现拍了一张哑铃,它就识别不出来。回去发现所有训练的数据都是人举着一个哑铃,它把手和哑铃识别到一起了——所以,要想达到必须没有推理性的,有推理性的人来告诉它,它才能进行相应的训练。

第二是数据要有一定的量,并且尽可能的覆盖使用场景的数据。

第三是行业的边界,这是到底决定价值线在哪儿。

俞军老师的著名理论:

产品价值=(新体验-旧体验)+替换成本

这里边有一个可以分享案例:

AI做医疗现在都很火,比如说通过一张片认定你有没有得肺结节、乳腺癌这种的。之前中国医学界泰斗级别的一位老师,在他眼里,中国可能有资格识别肺结节的只有不到四五百人,但是,这部分人的识别准确度也只是在85%左右——实际上,他们识别出来之后,还要去做病理切片,做各种病理测试,才能够最终确定这个人到底有没有这样的病。

一开始,需求只要超过85%,是不是就可以了呢?反问过来想,这个东西到底谁可以买单?是用户来买单还是医院来买单?用户为什么去医院看?我是不是能够提升医生的效率。

2. 场景

你要值得做就考虑场景。

用户的场景是什么?我们都说一个摄像头,拍一张图片去识别,或者是一个视频去识别;那么识别的角度、识别的距离,包括我要求识别的时间、底库等等,这些就也关系到算法适用的范围。对应我的产品形态是SDK还是API,用在什么架构上,这是整个方案的设计。

算法的场景,算法在哪儿跑?它需要什么样的性能?它要达到多少的概率?它要覆盖多少的范围?这就是算法需要考虑的场景。

最后是涉及到行业的场景,到底能不能为这个行业赋能?

我说,我这个可以达到100%肯定是没有问题的,但是医院说也许就是不能用,我们这边的医生都是有什么证之类的,你这个机器有证能证明自己吗?错了谁来买单?——其实会面临很多这样复杂的问题。

3. 价值

关于行业的赋能,我们要考虑的更多。

现在是否是进入这个行业的好时机,基础是否已经具备了,能不能给现在行业的核心玩家带来相应的价值,并且这个价值可否去复用,有没有足够的门槛。最后才来判断到有没有超出这样的价值线,并且是否可持续。

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:助力  助力词条  服务平台  服务平台词条  智能化  智能化词条  负责人  负责人词条  如何  如何词条