阿里 AI——智能互动设备的探索设计_设计_建站

设计也需要在每个场景中分别做出判断，行业通用的部分沉淀，以及行业特性的个性化设计思考，都是需要不断的去尝试和打磨的。而智能互动设备作为一种趋势，也是设计师去发挥所长的沃土。

5号小蜜：智能互动设备的初期准备

在如今智能硬件设备，语音互动的大趋势下，我们针对实体智能互动的硬件，从想法 – 设备 – 技术 – 设计 – 场景，总结沉淀了部分探索经验。

首先交代一下背景：

在阿里小蜜语音助手的形态下，延伸出了很多智能相关的研究和探索，其中智能硬件也是我们想要去发展的一部分。在这种情况下，以“5号小蜜”为名称的智能互动硬件设备应势而生。

（名称解释：在决定做这个产品的初期，是以落地到公司的5号行政楼为场景的前提下进行的设想，所以叫“5号小蜜”）。

在有了这个想法后，5号小蜜进行了1.0版本的研究和设计，在项目初期我们的承载硬件主要是以55寸，比例为16：9的液晶屏幕为主，用机器人的虚拟形象进行语音的互动，其中的场景设定也是在访客进入到5号行政楼进行互动的能力。

智能互动设备的框架拆解

在有了初步的进展之后，我们以设计师的视角总结了智能互动类设备的基础框架，为我们之后的升级和完善进行了整体的方向指导。

首先智能互动设备的核心支撑能力一定是算法的能力，而当前市面上的智能硬件大多数是以语音助理的形态出现的，因此对于设计师来说，VUI是重要的一环，5号小蜜不单单是语音的交互，也是视觉上的交互。因此在感知层面的设计上来说，是“VUI+GUI”也就是听觉和视觉的互动（但在硬件多样发展的今天，触觉类也应该是要考虑到感知层面的一部分）。

VUI+GUI对比传统语音交互会有一些优势体现：在互动方面，语音可以理解为面，单一面传递信息是有限的，如果语音和界面结合起来，就是从两个单一面形成了空间，可以承载更多的信息。

举个例子：人与人在交流中不止是语言传递的互动，可以从面部表情、传递出喜怒哀乐；肢体语言传递出兴奋度和性格特质。综合起来，我们的交流才会更顺畅。

在物理层面而言，是硬件设备的选择：液晶屏幕、玻璃屏幕（透明、非透明）、全息投影等。

在初期，我们的选择是液晶屏幕，这个是最基础的承载硬件，也是成本最低的硬件。而其它选择的硬件也有优劣之分，透明玻璃屏适合导购的场景，背后是否有商品的出现，是从传统的触觉互动进行了更多承载信息的进化。非透明玻璃屏适合更沉浸的助理场景，全息投影会更接近真人的感受，也是智能感受最强的一类，每一种硬件方式都有适合的场景，这个是我们需要去权衡的。

在以设计师的身份参与过程中，我们更多的是以设计的视角和硬件、场景、技术等进行搭配合作，所以在过程中，会参考多方面的因素，影响最后落地的结果。

感知层面的设计策略：视觉层

在2.0初期，我们先整理了最直接的感官层的一部分——视觉感受，以此为基础为产品定调，以最直接的表现层为手段帮助产品建立视觉体系。

首先我们内部脑暴统一同步了本次升级的目标：让小蜜更智能，更有服务感。一个是本身我们在做的事情就是智能相关的研究，另外在落地的场景访客中心承载的也是服务的属性，所以在设计方面就抓取了两个心智方向的关键词：智能、服务。

在关键词的引导下，先建立情绪版，整合出表现层的特性。

抽出智能感受类的关键词，可以是抽象或者具象的描述。

接着整理出服务相关的视觉属性。

根据关键词的延展，得到了视觉语言的方向，但是在推导中我们发现智能和服务有些画面更像是互补色之间的关系，有一定的对立面，所以要从中调和每个关键词在界面中的占比。同时要考虑是不是有减少两者冲突的办法，所以在多次尝试后决定将1.0版本中的机器形象换成真人。

首先在行政楼场景中，真人会带来更多的亲切感，与服务场景更契合；

其次界面关键词的分配方面也会有考量，在氛围中我们更希望带来智能感受、在对话中我们更希望是亲切的服务感，因此真人的形象出现是一个比较合适的策略。

而且服务的视觉概念也从我们常常感知到的二维变成了多维的角度，从单一的界面变成了人设、服装、肢体语言、面部表情等多方结合的综合体。因此这两个关键词延展出来的部分就有了各自的分工：智能感更多的体现在界面氛围上；服务感更多体现在人物上，两者结合的会更加润滑。

下图是关键词占比的界面尝试过程灰机稿。

在尝试过程中，画面一步步清晰了起来，智能+服务也能更多体现出来，最终通过提炼过程中的视觉语言，形成了最终的画面。

在整体视觉感受设计的同时，人物的视觉点也在同步进行，我们对人物进行了性别、着装、动作、面部表情的设定，整体目标以之前服务感中总结出的友善、轻松为关键词。

最终画面（其中一款服装是考虑之后场景的拓展性，整个以智能感受为主）。

感知层面的设计策略：听觉层

在描述完视觉设定后，来看一下听觉的方面，也就是语音的互动。

首先，语音互动的核心能力还是在算法上面，因此语音交互也是和技术能力相辅相成，5号小蜜的技术手段也比较丰富，主要是以下几种：ASR、TTS、QA、面部跟踪、面部重塑面部跟踪渲染等AI技术模块。理论上只要获得充足的人物视频+语音数据，技术可模拟任意指定人物。数据越多，面部和语音的还原度越逼真。

其中，为获取原始数据，需要进行数据的采集，主要是在采集室里对语音、图像进行收录，大致技术的流程如下所示：

在这些技术背景下，语音的互动更多的是考虑如何在与真人的对话中，体验更加顺畅。

下图为核心的Flow：

在小蜜与用户交流的部分做了标记，也是语音交互的核心内容区。为了方便整个流程连贯起来，还是从最初的部分开始，讲述一个完整的剧本。

用户从行政楼走进，一般会有几种意图：开会（查找会议室）、来访（了解阿里文化等）、参观（闲聊）根据这些场景我们进行了两个关键节点的设定：吸引、交流。由于结束对话属于弱互动，所以暂不列入重点。

以上为语音互动的核心部分，其余还有用户结束对话的声音动作反馈——“再见”+挥手等；未知问题的回复处理——进行多种兜底话术的配置；中途离场的用户——小蜜15S内回复初始状态等。

物理层面策略：硬件、场景

在考虑界面语音互动的同时，也要考虑硬件方面待给体验的影响，比如设备的主要构成，MIC、音响、支架、外观显示器等主要硬件。

MIC的技术手段是单轨拾音，因此需要保证在有效距离内收音（机器前会张贴最佳距离的脚印贴纸，以保证对话收音）。显示器会制作可调整的15°角倾斜，考虑反光、身高视角等情况。机器总高度控制在1.8M，用户眼睛与小蜜眼睛保持平视，最佳观看高度在1.7M左右的平均值，以覆盖大部分用户的使用感受。

（年会亮相图）

下图为整个硬件的构成部分以及运作传输图。

在硬件组装完毕后，会进行收音的测试，在实际使用场景 – 公共环境（嘈杂环境）下用录音（ASR识别）的方式来收集不同位置的收音状况（保证同等条件下，比如分贝相同）来收集数据，最后判定这个MIC的硬件是不是最合适的。

经过综合多方位设计后，设备才能见到雏形，本身智能互动领域就是多维度的综合体，设计师参与在其中也会从单一的视觉、交互维度去向更全面的维度思考，使每一个环节串联起来，打造更好的UX体验。

最后的思考

从这次的项目来看，我们在做事情的初期就需要有一个完整的目标定义，Lot设备的应用场景考量等等，这次综合升级只是考虑了单一的行政场景，解决的是咨询类的问题，因此设计的链路也是单一且浅薄的。但是产品的发展一定是要向商业化迈步的，比如：热门的导购场景，与淘系新零售的战役契合，结合淘宝生态配合多种垂直行业，机器人作为智能客服出现在售前、售中、售后的服务等等。

快好知 kuaihz

阿里 AI——智能互动设备的探索设计

商务Web应用程序的界面设计

商品管理系统设计（一）：类目设计...

从三次可用性测试中，我学到了什么...

最新