这是AIPM认知系列的第二篇内容,如需了解第一篇《从0开始搭建产品的AI认知体系》可以「点击这里」查看,整篇内容3000+字,速读需要5分钟
这几年红遍网络的「FaceU激萌」APP,特斯拉自动驾驶,iPhoneX的FaceID …大家都有所耳闻,而这些都和今天的「计算机视觉」有着密不可分的关系。
从PM的视角出发,本篇内容我会围绕这4块内容来跟大家交流:
什么是计算机视觉
现阶段有哪些应用技术
落地中会遇到哪些问题和挑战
产品方向一些思考
1.什么是计算机视觉?
计算机视觉(Computer Vision),可以理解是「让计算机怎么去看?」,相当于人类视觉的功能。
「以下案例为了确保更好理解,牺牲一定的严谨性」
拿人类来举例,你正在驾驶一辆汽车,突然前面出现一个人,你会怎么办?
刹车或打方向盘避开是不是 ?看似这个好简单的问题,实际是要经过一系列复杂的处理
首先眼前突然出现物体会进入到你的视网膜,经过分析之后,把这信息发给你的大脑。
你的大脑会处理这些信息,跟你大脑里所有存储的信息做比较后,进行物体和纬度的归类。
通过的信息归类,给出理解我正在开车,正前方出现这个是人,距离越来越近了,我不能撞到他的判断。
然后大脑通过神经系统作出反应,控制你的脚踩刹车,或者手控制方向盘避开。
「这一系列的动作只发生在零点几秒」
如果这些动作由计算机来完成,就可以初步理解为这个就是计算机视觉在于AI领域的应用。
再举个例子,看看N年前的FaceU是怎么使用计算机视觉这个技术的:
通过手机的摄像头传感器,把眼前的物体传递给某处理器。
处理器通过多项技术来理解眼前物体,识别出图像中哪个是人脸,哪些是背景。
给人脸进行处理,分辨出人脸上的各个器官,并在关键器官上打上特殊标记。
制作好的素材和这些特殊标记结合,并且通过手机屏幕展示出来给你。
「注:上图为原始图和人脸打标,下图为根据标记作出的处理,很有趣是不是」
2.现阶段有哪些技术服务
目前计算机视觉主要应用的技术有哪些:
基于文字识别:通用文字,网络图片,卡证文字…
刚才FaceU激萌例子,想必大家对人脸识别有了一点概念,接下来我们看一看有人脸识别的应用技术。
人脸检测:想要做人脸识别,首先得让计算机知道哪些是人脸,所以人脸的检测是对后续人脸分析和处理的基础。通过对图片扫描和判断,在图片用蓝色的矩形标示出来。
人脸配准:定位并返回人脸五官与轮廓的关键点坐标位置,关键点包括人脸轮廓、眼睛、眉毛、嘴唇以及鼻子轮廓,最多会返回106个点。
人脸属性:对图像的一系列基础处理之后,通过一系列的算法,来识别人脸的属性,例如:
这部分是我觉得最有意思的一部分,可以给我们设计产品和服务很多想象空间。
虽然目前提供有意思的参数很多,但很多的属性识别的准确性还有待提高。
但这并不影响一部分商用价值或产品化,重点是我要为谁解决什么问题,容错程度是多少。
后续我们来再来仔细聊一聊这个话题。
因为这些是一个系列的解决方案,所以这一部分我放在一起来说明。
现在AI市场上最热的几个领域:智慧安防,智慧金融,智慧商业,都是运用这一系列的解决方案。
人脸的验证就是把两个人脸的数值,做比较,然后计算出一个相似度。
人脸检索就是根据人脸特征的数值,在大量的数据库里检索,找出最相似的人。
活体识别是一个提高安全性的机制,用于远程识别摄像头的对象是真人,而不是一张照片。
2.2 文字识别
文字识别的就很好理解了,识别图中的文字信息,并且返回文字所在的位置,语言,内容,目前正常场景的识别率可以达到90%。
应对不同的场景,又延伸出了很多服务,比如:
证件识别:身份证,驾驶证,护照等等,格式化之后可以直接利用其中的信息。
网络图片文字识别:针对那些艺术字,特殊设计的文字。
其他:表格文字识别,票据文字识别,可以根据图片内的格式输出。
2.3 图像识别
图像识别这个范围很大了,需要看具体有价值应用场景,通常识别物体:家居物品,动物,植物,品牌Logo,菜品…等等。
识别的逻辑跟人脸识别类似,但是需要庞大的训练数据,来教计算机认识这些物体,学习的越多,识别率会越高,但目前可以提供服务就是一些好理解的,特征明显的:猫,狗,电视,沙发,玫瑰,汽车,火车…等等。
但如果需要一些特殊场景下的识别,比如车辆的定损,奢侈品包包的真假判断,需要再一个垂直领域进行深度学习和特殊数据的大量训练了。
3. 落地中会遇到哪些问题和挑战
前面介绍了很多计算视觉在于应用上的技术实现,但想阐述一些核心观点:
对于PM来讲,人工智能也只是工具,最终要的还是是理解行业,理解用户,理解痛点。
对于技术本身,我们更多是理解技术边界,在自己应用场景之下,知道什么可行,什么不可行。
另外就是项目中的实战经验,确保产品可以落地,并且真的可以产生价值的策略。
3.1 应用场景不同,技术成熟度也不同
对于不同的应用场景来说,所需技术成熟是不同的,举个例子:
像FaceU激萌,分析视频物体推荐购买,当前的技术就比较“成熟”。
而自动驾驶,智慧医疗,当前的技术就“不够成熟”
其一因为标准不一样,人工智能本身是一个概率学的事情:
就算FaceU人脸的坐标有偏差,拍摄环境恶劣,用户也可以接受并配合调整。
就算视频里的物体识别不够精准,推荐错了品牌,广告投放商和服务商也可以接受,因为已经有较大幅度提升。
但是如果自动驾驶在某种没有被训练的恶劣环境下,出了严重的交通事故,是不能接受的。
医疗也一样,计算机推荐通过影像识别肿瘤在这个位置,从这里下刀后发现计算机判断的并不正确,也是不能被接受的。
3.2 准确率提升依赖大量的数据,但光数据量大是不够的
产品要开始落地之前,首先考虑图像一类相关数据是否是打通的,是否可供机器训练,因为机器学习的数据越多准确率越高。
但是只是提供训练数据就可以了吗?实际的情况并不是的,因为:训练的数据未必真实符合情况的数据
举个例子你就明白了:
而且准确率并不是产品落地的唯一评价指标,还有误报率,实时监控寻找某个罪犯。
结果在同一个时间,多个地点都发现了这个“罪犯”,这显然是不够“成熟”的。
3.3 实际场景还会有诸多问题
等产品进入到实际场景中测试时候,就会发现还有很多无法预料的事情。
真实场景硬件的性能是否可以达到训练时候的效果?摄像头清晰度?硬件计算能力?网络信号和速度?
识别算法是否可以应用到所有场景?信噪比?对比度?是否遮挡?运动状态的会模糊?不同天气的光线差异?角度不同产生影响?
还有就是非常现实的成本问题,也就是看ROI,想用机器人通过图像识别来替代人,那要看投入产出比,还得是否可以规模化。
综上所述,这里就需要PM 的能力,比如MVP,A/B test模型,数据分析,以及对于自己的行业以及用户深刻理解,洞察行业的本质。
4. 产品落地方向的一些思路
PM+ AI +X的落地方向上的话,借助这几个点来思考:
哪些可以大幅提升效率,减少人工成本,且可以规模化。
哪些是刚需,但是用户体验很差,尤其是时效性有很大要求的。
哪些是以前做不到的事情,但是AI可以做到的,比如:自动驾驶。
目前计算机视觉的应用和方向:
但具体要做什么产品,就没必要在这了YY了,是否可落地是需要每个PM对于行业的深刻洞察,欢迎你随时带着行业的痛点和经验来一起讨论AI具体落地方法。
目前计算机视觉在技术上仅是在部分领域识别具有产品落地和商用的价值,但是对于图像的理解和描述还处于研究阶段,是一个需要突破的瓶颈,让AI可以更深的正确的理解图像内容后,才能产生正确有效的行为,才真的“智能”,这也是我目前最感兴趣的,也是最有价值的地方。
以上就是我的「产品经理的人工智能认知体系」系列的第二篇学习笔记,欢迎留言交流。