量化分析可以用最直观的数据来反映效果,常常用于用户、市场等方面,在看似没有标准的设计领域,用哪些指标、如何使用?才能知道设计效果究竟怎么样呢?
为什么我们需要量化设计的效果?
我们可以每天对其他同事说注重用户体验是必要的、自己的设计是有效果的。但是空口无凭,只是说说的力度也就仅限于此。
基于用户行为进行设计,听上去是挺有道理的。但是如何才能向他人证明这样的设计是真实有效的呢?有哪些方法可以量化设计成果呢?如何向老板证明在设计上的投入是值得的呢?
量化设计效果并不是一件很虚幻的事,下文中,我就会列举很多实际的方法,来证明设计的价值。
行为类指标和态度类指标
我们和各行各业的各种公司都有过合作,期间我们发现了一些很常用且广受用户认可的设计效果量化指标,主要可以分为两大类:
行为类(他们是如何做的)
从用户研究的角度,了解用户在做什么和他们怎样使用你的产品是非常重要的。
基于各种任务设置的可用性测试是一种基础且通用的方式,这不仅限于在小范围进行的“Think-out-loud”研究,还包括一些远程的数据统计和监控,以高效的方式获取更广泛的用户样本。
例如:
放弃率
页面浏览量
困难与挫折
任务成功率
任务时长
态度类(他们是怎么想的)
用户对产品的感受如何?在使用前、中、后期他们是怎么想的?这些感受是如何影响他们对品牌的印象的?……
为了衡量这些,你可能需要以下的态度类指标:
忠诚度(通过SUS或NPS等指标衡量)
可用性(或使用产品的轻松程度)
可信度(包括对产品的信赖程度、产品价值、贴心的服务等)
外观(例如“太好看了”或是“辣眼睛”)
有了这些指标后,要如何把意见量化呢?怎样把这些“太好看了”“辣眼睛”的评论和想法转化为其他人也能迅速掌握的一组组数据呢?
下面就让我们来仔细了解下这些衡量指标。
行为类用户体验指标
放弃率(Abandon Rate)
这一条很简单,可以统计下有多少人打开你的电商平台,将商品放入购物车,但最终没有真的购买。
放弃率是遗弃在购物车的商品数和用户发起的交易总数之比。
想象下如果宜家的实体店有很高的放弃率,那么必然会给店面运营带来很大的压力。
平均订单价值(AOV: Average Order Value)
AOV代表着平均每单的价值。这个数值来自于总收入/总结账次数。根据VWO的说法,这个数值是在利润层面的直接反应。如果你的设计和销售直接相关,那么可以用它作为一个指标。
转化率(Conversion Rate)
如果设计上的改进能够触发一些具体事件,例如提高用户的注册率或是任务的完成度,那么这个设计就可以说是有用的。如果设计的改动直接对用户的行为造成了正面影响,并且你可以监测这个变动的数值,那么你就可以自信地说这个设计有效。
就像NNgroup内说的,“转化率衡量了用户在使用你的网站后发生了什么。这个指标受到设计的影响很大,是用于跟踪和评估设计策略是否有效的重要参考”。
但同时我们也应意识到,升高的转化率也可能和营销活动相关,所以监测数据时也应进行区分。
此外,并不是所有访问你网站的人都有可能被转换,这也受到了访问者自身特征的影响。
页面浏览量(Pageviews)
页面的浏览量和点击量是很常见的衡量标准,可以覆盖手机APP、网页和其他许多产品,记录选定页面或功能的点击量、浏览量、功能间跳转次数等。
你可以通过一些数据统计工具,去自动抓取这些信息,还能减少数据分析和报告产出的时间。
困难与挫折(Problems and Frustrations)
我们可以通过统计有多少用户遇到了某种问题,从而来评估设计成果。
我们建议先进行“Think-out loud”测试来定位问题,然后再通过一个更大的受访群体(在一定的可信区间内)来了解这些问题到底有多大比例会出现。
收集到的这些数据可以和一段时间后/产品改进后的数据进行对比,或者也可以用来和竞争对手的产品数据进行对比。
任务成功率(Task Success)
通常情况下,我们会邀请一组用户,要求他们完成一些指定的任务。这些任务可能是:在付款流程中到达某个具体的页面、在宣传页上找到某个问题的答案或是在使用APP时完成某个步骤。
这项测试中非常重要的一点是,对成功和失败做出明确定义。
在使用这些衡量指标时,我们不能疏忽了取样的区间。
例如10个人中有8个人完成任务,和100个人里有80个人完成了任务,都可以视为80%的任务成功率。但是,后者的置信度明显要比前者高出不少。
任务时长(Task Time)
任务时长通常是一个具体的数字,例如3分钟。
对于目标是提高使用效率的产品,更短的任务完成时长也就可以反映出更好的设计方案。当然,除了高效的工具类产品,还有很多产品的目标是让用户停留更长的时间,例如Facebook的信息流。
对于任务时长的判断还是要看具体任务场景,即便是在Facebook的信息流里,用户搜索信息的任务时长也是越短越好。
关于时长,我们即可以看完成任务用户的平均时长,也可以统计所有用户完成任务的平均时长。
态度类用户体验指标
态度类指标需要量化各种定性的数据,例如忠诚度、信赖程度和产品可用性等。
目前,行业内有很多用于衡量这些数据的标准,下面我挑主要的几组详细解释下。
顾客满意度(CSAT: Customer Satisfaction Score)
这项指标用于评估用户满意度,但是并不像NPS一样有统一的问题和标准,评估结果以百分比的形式显示。
优点:没有严格限制,自由度较高。
缺点:通常只有非常喜欢或是非常讨厌你产品的人,才会愿意接受又长又详细的调研。
净值推荐(NPS: Net Promoter Score)
净值推荐评分通常用在你设计的后期,它可以帮助你以最直白的方式评估用户的忠诚度:您有多大几率向朋友或同事推荐这个公司/产品/服务/使用体验?
给与9到10分的人是产品的推荐者。这些忠实又热情的客户愿意把你的产品推荐给他人,在未来也很有可能会继续使用你的服务。
打出7到8分的人被划分为消极接受者。他们对你提供的服务感到满意,但是可能会左右摇摆,对你的产品并没有忠诚度。
而打出0到6分的人,被归类为贬损者。他们可能已经不想再多看你的产品一眼。
NPS的最终评分规则:推荐者%-贬损者%。
系统可用性量表(SUS: System Usability Scale)
用户只需要填写一个简单的问卷,就可以从中得出分析用的数据。这个量表也是基于李克特量表的加总方式,用定量的数据表现出定性的观点。
上图为李克特量表示意
下面的问题摘选自SUS量表,这些问题都可以在非常同意到强烈反对的维度之间进行选择。
我认为我愿意经常使用这个网站
我发现这个网站没必要这么复杂
我认为这个网站容易使用
这种评估方式非常易于操作,可用于小范围的样本调研,并且可以显示出产品是否有改进。
但需要注意的是,这个量表并不能直接告诉你产品设计出了哪些问题,或是哪些新设计起了作用,它是一个比较宽泛的评分。
任务绩效指标(TPI: Task Performance Indicator)
Gerry McGovern对他们团队提出的方法进行了详细的分析,用以评估设计改动对用户体验的影响。
在TPI的方法下,你需要为主要任务设置10到12个相关问题。这些问题得是可重复的,因为在6到12个月之后大家还会向他们提出这样的问题。
如果用户完成了任务,就需要开始回答这些与任务相关的问题,之后用户会被询问对自己的回答有多大把握。
当TPI得分低于50时(满分100),就意味着产品设计有重大失误(具体实践方式见链接)。
标准化用户体验评分问卷(SUPR-Q: Standardized User Experience Percentile Rank Questionnaire)
这是一份标准化问卷,包含8个用来度量用户体验质量的问题,覆盖了可用性、可信度、忠诚度和外观评价四个维度。
上图为SUPR-Q的问题内容
更多关于SUPR-Q细节信息可以查看www.suprq.com。
有没有一步到位的评估方式?
在UserZoom(作者的公司),我们自己创造了一种设计效果评估方式——qx评分(体验质量评分/quality of experience score)。这个方法融合了许多评估方向,包括行为数据和态度数据。它的结果非常简明,能在与老板或甲方的沟通中为自己的设计证明。
当你把各项评分输入到这个qx分数表中,你会得到像下图一样的打分卡:
圈中的数字是72,代表着最终评分。
再仔细看一眼,可以发现小分里包括信赖度、美观度等项目。很多时候,我们想要向上下游合作方和老板证明产品在经过设计后变得更好了,qx评分能为我们助力。
要对qx评分进行进一步分析,就需要与其他产品进行对比,没有上下文的数据是空洞无用的。
我们也为此统计了份UZIndex,即根据qx评分对各个行业的不同产品进行测验和总结,这样公司就可以从中了解到自己产品在整个行业的体验水平。
小结
我的文章并没有完整覆盖到每一个用户体验量化指标,因为集齐所有指标可能会花掉很长的时间。
但从上文我们也可以发现,作为用户体验设计师,在设计效果的衡量标准上有许多可选方式,能将各种定性和定量的结论结合在一起。
选择哪种量化指标主要取决于你们公司的目标是什么,相关的合作方、老板想得到哪方面的结论。对于我们而言,最重要的是要明白要量化什么,以及为什么需要量化它。
作者: Christopher Ratcliff,Kuldeep Kelkar;译文有删减。