产品视角：AIOT的趋势与终局_设计_建站

IOT在远去，AIOT在崛起。“我们想要的是万物互联，得到的却只是联网的家庭电器”

物联网(Internet of things)已经呼喊了很多年，最终落地的却只是加了联网模块的家庭设备，相比传统式设备的唯一好处只是可以在APP上远程控制设备，亦或是可以定时触发设备。

通过公式”（新体验-旧体验）-替换成本” 可以计算新产品的价值，IOT设备的体验提升仅增加了云端手动控制，体验提升非常有限，因此一直不温不火。

智联网(AIOT，是AI + IOT的结合) 2018年开始崛起，核心是能够运用大量传感设备，综合语音、视觉、动作、温度等数据，实现IOT设备的全自然化的人机交互。

智能音箱是AIOT初期的的典型代表，2018年出货量达到2200万台，智能音箱为IOT的启示是语音交互，但是智能音箱一阵风刮过之后，后面AIOT该何去何从? 笔者从产品角度触发从两条线分析AIOT的发展趋势：

交互方式：语音触发→传感触发→主动触发

协作方式：单机交互→场景联动→多模态协同

阶段一：语音触发与单端智能

AIOT的第一阶段聚焦于单一设备，并且赋予设备听和说的能力，智能音箱是该阶段最有名的产物。典型的应用场景是通过远程拾音，实现对设备的操控，例如：“播放音乐”、“开灯、关灯”，相比APP操控，语音操控更加实时便捷。

但是，并不是什么设备都适合语音化，笔者从使用频次和功能复杂度触发，得出电视（盒子、遥控器）、投影仪、音箱、面板语音化价值较高，空调、冰箱、咖啡机、空气净化器次之。

阶段二：传感触发与多端联动

传感触发

语音触发相比手动触发方便程度有明显提升，但是在一些场景下依然不是很方便，试想夜晚下班回到家，大部分人是不想说话的。

因此，大家开始思考触发方式上有没有比语音触发更便捷的方式？

结果就是传感器触发，通过红外传感器可以识别人体经过，通过温度传感器识别温度变化，通过摄像头识别人脸、动作和姿势等等。通过传感器可以实现初级的主动互动，效率更高，更便捷。

典型场景：

夜晚起夜：客厅和卫生间根据传感器识别到移动人体，直接开灯。

酒店：一段时间检测不到房间有人，关闭所有电器节约用电。

教育：摄像头智能检测儿童坐姿，坐姿不正确通过语音进行提示。

场景联动

第一阶段的控制是基于单设备的，但是随着家庭智能设备的增多，用户很多需求是多任务并且跨设备的。

例如：早上开灯的同时期望把空调也打开，打开电视的同时期望把窗帘关闭。场景联动的目的就是围绕用户场景，多任务同步或异步自动执行，共同满足用户诉求。

典型场景：

早晨场景：睡醒后，口令”早安”，打开窗帘，打开空调，播报时间、今日天气，然后播放适合晨间收听的音乐。

回家场景：回家打开门的瞬间，灯光打开、音箱播报欢迎语或者留言、空调调整到合适的温度、热水器打开，电视打开并播放正在追的剧。

不同场景的用户需求强度：

在阶段二，无论是用户效率和便利度已经有一个跨越式提升，但是还是存在一些问题：

交互模式虽然无需用户开口，智能化程度已然很高，但是对用户情感上的关怀尚未体现。

场景联动打破了多智能设备之间的信息鸿沟，但是仍然停留在指令的串行或者并行执行阶段，多设备间的协同仍未得到深度体现。

阶段三：主动交互与多模态协同

当设备能够对用户主动发起关怀，并且可以将家庭智能设备打散重构，协同完成更复杂的任务，我们就进入了第三阶段。

主动互动

我们对人工智能的畅想，希望它是有温度的，其中一个很重要的方面就是可以主动互动，当然这里有个很重要的前提是不打扰。

想做到不打扰的主动互动，需要有充分的的用户画像，知道用户喜好，知道用户在空间中所处的方位，知道用户此时此刻的需求，然后给与精准的关怀。

典型场景：

通过传感器感知用户要出门，通过声纹感知用户好像生病了，通过云端知道今天要下雨。在用户要出门的时候主动提醒说”今天天气不好，记得带伞，身体不舒服要及时去看下医生”

多模态协同

多模态（MultiChannel）协同指的是围绕同一场景，通过将多种设备的输入方式和输出方式打通，实现多设备协同或场景迁移。

多模态协同与多端联动的差别是多端联动的最小单元是设备，多模态协同的最小单元是通道(Channel)。

举个例子：智能音箱是一个设备，但是有2个Channel，分别是麦克风和扬声器，电视有2个Channel，分别是扬声器和显示屏。将设备的Channel拆开然后重构会发现IOT的交互能力边界会被大大延展，语音、视觉、触屏、手势，甚至你的「表情」，有哪些设备，哪种方式更舒服、自然，都可以用来满足你的需求。

典型场景：

话费充值：当用户看电视时，用户欠费通知下发（利用电视的显示Channel），将欠费信息投放到电视上。通过智能音箱（利用音箱的扬声器Channel）播报欠费信息，用户通过音箱（利用音箱的麦克风Channel）直接发起缴费请求，然后将付费信息推送到手机上（利用手机的显示Channel）直接支付。

客人来访：当门外有客人来访时，摄像头自动将来访的者的画面投放到电视上（利用电视的显示屏Channel），然后通过最近的音箱（利用音箱的扬声器Channel）播放有人来访的通知，用户可以对最近的智能音箱（利用音箱的麦克风Channel）发起指令开门或者与来访者进行语音对话。

我们认为：主动互动和多模态协同是AIOT当前可预见到的终局体验，而且即将到来。

那么，目前在能力储备上需要储备哪些能力呢？

边缘计算与离线指令：IOT设备往后发展一定会面临安全问题，例如被远程操控家庭的摄像头、热水器、电视等，一个解决方案就是做设备端的边缘计算，通过离线指令技术在本地识别用户意图并进行本地执行。

多模态协同标准：构建多模态的标准协议，使得加入该标准的智能设备不仅可以共享状态和信息，还可以通过云端下发对所有Channel的控制。

空间感知与仲裁：感知用户的所在位置，用最恰当的设备（仲裁）进行回应用户需求。

AI与IoT的结合已经成为了趋势发展的必然，内部拆解来看会经过语音触发和单端智能、传感触发和多端智能、主动交互和多模态协同3个阶段。

以上。

快好知 kuaihz

产品视角：AIOT的趋势与终局

3个方面分析：大屏后台系统的可视...

如何将上瘾模型应用于社交产品？

从只能“赞”开始—谈产品设计中的...

最新