今时今日,越来越多的产品和服务被部署在网络上,如何大规模进行用户体验的衡量成为一个巨大的机遇和挑战,怎样设置以用户为中心的指标来衡量网络应用中关键目标的转化过程,或者推动产品决策成为一个我们想探究的问题。在这篇文章中,Google 给我们带来了他们目前正在使用的,以用户为中心度量的HEART指标体系,以及把产品目标与创建指标体系相互关联的过程。本文也包含了应用HEART指标,同时从数据驱动以及从用户为中心的角度出发,帮助产品团队决策的实例。该指标体系及其使用过程已经被Google内部各产品团队广泛认同,我们相信其他组织也能够在使用它的过程中受益。
作者关键词(Author Keywords)
指标,网站分析,网络应用,日志分析
学术分类关键词(ACM Classification Keywords)
H.5.2 [信息呈现]:评估用户交互界面的方法
一般关键词
实验,人为因素,测量
引言
WEB技术的进步使得越来越多的服务基于WEB去创建,用户可以在“云端”完成很多的工作,包括那些以前需要在本地运行的程序,如文字处理、照片编辑等。对于用户体验专家来说,需要利用服务器访问日志来跟踪产品的使用情况。依靠外部的工具,比如A/B测试工具来进行版本的迭代。但是如何以用户体验为中心的准则进行比较?如何挑选试用的指标?中间存在哪些机遇呢?
在CHI社区,不论进行小规模的测试或进行大规模的调查,都已经有了一个测量用户态度(例如满意度)的方法。但在行为数据方面,建立的测量大多规模很小,使用问卷或计时的形式进行测试,例如效果(任务完成度、出错率)和效率(任务时间)。
CHI报告中未涉及的一块重要内容是基于大规模用户行为的数据分析指标。现在网站分析的潮流也已经从原来单纯的分析页面点击,演变为分析关键绩效指标。但是主要还是以商务为中心进行分析的,而不是以用户体验为中心。一些网站分析工具提供的指标大多太过笼统或只适用于电子商务网站,并不针对所有网站。
Google创建了一个新的分析用户态度和行为的用户体验指标体系。我们利用百万用户数的基础以及根据自身经验打造该体系,使其能适应大公司不同类型多种产品(面向用户/业务中心)的需求。我们发现该体系已能满足Google自身产品及流程的需求,我们也相信其他公司的团队也能够使用这一体系。同时我们也期望在大规模用户行为数据挖掘方面,有更多的研究成果出现。
相关研究
近年来已然有很多工具来帮助网站应用和服务跟踪分析:免费或收费的分析工具(Google Analytics/Omniture);利用现代分布式系统(简化数据处理/Apache Hadoop)或者特化的程序语言(Parallel Analysis)对大量日志数据进行用户分析;根据用户行为对访客群体进行细分的网络数据挖掘技术(Web User Traffic Composition);很多供应商均提供的用户调查与易用性测试(UserZoom)以及可控的A/B测试等。
除开实施与使用过程的因素,如何有效率的使用这些工具仍然存在很大挑战。标准的网站分析指标对于特定的某些产品目标或者研究课题显得太过一般化。在压迫性的巨量数据面前,如何分离出有效的数据,如何指导商业行为与决策是很困难的。很多专家建议关注少数关键性业务指标或者用户指标,利用他们监测商业活动,但我们在实践中发现说起来容易做起来难,产品团队不会告诉你,也未必能清晰的定义目标是什么,因此让选择监测指标十分困难。(好吧,我想到了Google Wave——ysy.me)
很显然这些指标不能单独拿来用,它们应当配合其他信息来源使用,比如配合可用性报告和实地考察来帮助决策。同样的,它们对于线上的产品也十分有用,对于早期用户探索的作用是无可替代的。因此,我们想要探索出一个整合大规模用户行为和趋向数据的体系,用于补充公司现有的用户体验研究方法。
1、传统的网站衡量指标PULSE
Page view/页面浏览量
Uptime/响应时间
Latency/延迟
Seven days active user/7天活跃用户数
Earning/收益
PULSE是基于商业和技术的产品评估系统,被很多组织和公司广泛应用于跟踪产品的整体表现。
这些指标非常重要,并且和用户体验息息相关,比如一个产品如果经常访问无响应或者延迟很高是无法吸引用户的。一个电子商务网站的下单流程如果步骤过多就很难赚到钱。一个用户体验佳的产品在PV和用户量上应当是会不断增长的。
但是这些指标要么太表面化,要么只是间接和用户体验相关,很难用来评估改变交互界面对于用户的影响。并且他们也经常产生负面的互相影响——比如一个特定功能页面的PV上升可能是由于这个功能真的很棒,或是界面让用户迷惑,而想通过不断的点击尝试离开。改变所带来短期的价值提升,但糟糕的用户体验长期来说会造成用户的流失。
在一段特定时期内的用户指标数,例如七天活跃用户数(Seven days active user)常常被用做用户体验指标。该指标度量了整个用户群,但没有反映用户对于产品的深入程度,比如七天之内来访的频数,同样它也没有区分新老用户群体。在最糟糕的情况下,100%的活跃用户都是新访客,但活跃用户总数仍在不断增加,这对于产品来说显然是失败的。
基于PULSE中存在的不足,结合用户体验质量以及让数据更有实际意义的需求,我们提出了一个作为补充的度量体系:HEART。
Happiness/愉悦度
Engagement/参与度
Adoption/接受度
Retention/留存率
Task success/任务完成度
这五项仅仅是指标体系的范畴,不同的产品可据此定义具体的指标,用以监控完成目标的过程。
愉悦感结合用户的满意度来度量,任务完成度结合任务完成的效果和效率来度量。参与度、接受度、留存率是全新的范畴,一般通过广泛的行为数据来制定。通常并不适合在一个指标设定中用到所有维度,但可以参考该体系来决定是包括或排除某个维度。比如用户是要将使用你的产品作为工作的一部分,在这种企业环境下参与度就没有什么意义了。在这个案例中可以考虑选择愉悦感或者任务完成度。
愉悦感
愉悦感是设计用户体验中的主观感受问题,像满意度、视觉感受、向别人推荐的意愿、易用性感知。可以通过好好设计问卷长时间监控相同的指标来看设计修改后带来的变化。
例如,我们有个性化首页的服务(iGoogle)。团队利用产品内置的检测手段,跟踪了一周内一系列的指标来研究改版和新功能的影响。在一次大改版之后,起初用户满意度指标是大幅下降的(利用七点雷达图),但是随着时间推移,这个指标逐渐恢复,这表明大幅下降只是因为刚改版时的不适应。渐渐习惯这次改变之后,用户实际上是很喜欢的。有了这一信息,团队就可以更有信心的保持这次改版的设计。
参与度
参与度是用户在一个产品中的参与深度,在这个维度上,通常用来作为一段时期内访问的频度、强度或互动深度的综合。比如单用户每周的访问次数,或者用户每天上传的照片数,这比总量要好——因为总量的增长可能是由更多的用户的产生,而不是更多的使用产生的。
例如,Gmail团队更想研究用户的参与度而非PULSE指标体系中的七天活跃用户数(只是上周使用该产品用户的简单计数之和)。我们有理由去相信,深度用户会经常检查他们的邮箱,因为他们已经形成习惯。我们选择的指标是一周内访问五天或者更多的百分比,这一指标同样也可以用来预测用户长期的留存度。
接受度和留存率
接受度和留存率指标通过特定时期内大量用户的统计(比如,7天的活跃用户数)提供强大的洞察,来定位新用户和老用户的差异问题。接受度监控特定时期内有多少新用户开始使用产品(比如,最近7天内新创建的账号),而留存率则监控特定时期内有多少用户在下稍后一个时期内仍然存在(比如,某一周的7天活跃用户在3个月后仍然在7天活跃用户中)。
在此“使用”和“周期”的两个概念都应当因事制宜,有时候“使用”就意味着访问网站,有时候则是到达了某个特定的页面或者完成某种互动,例如创建账户。留存率和参与度相似,它可以被定义不同周期长度,有的产品也许只需要观察周数据,有的则需要月数据或者季度数据。
例如,在08年证券市场暴跌的那段时间,谷歌金融在浏览量和七日活动用户指标上都有一次井喷,但无法确定数据的剧增是来自关心金融危机的新用户或是恐慌性不停查看他们的投资信息的老用户。在不知道是谁增加了这些访问量之前,决定是否要改版网站以及如何进行修改十分困难的。我们利用接受度和留存率这两个指标来区分用户群体,同时还关注了新用户继续使用该服务的百分比。这类信息被我们团队利用于解读事件驱动的数据波动以及发现潜在的机会。
任务完成率
任务完成率维度包括一些传统的用户体验行为指标,比如效率(如完成任务的时间),效果(比如任务完成的百分比)以及错误率。
例如,谷歌地图曾经有过两种不同的搜索框,一种是用户可以分开输入“目的”和“地点”的双重搜索框,另一种是单个搜索框处理所有的类别。有人觉得单个搜索框就可以胜任一切,同时又保持了效率,在之后的A/B测试中,团队测试了仅提供单个搜索框的版本。他们比较了两个不同版本的错误率,发觉用户在单个搜索框版本中能够更加有效的达成他们的搜索目的。最终,这个结果让团队非常有把握的在所有地图上移除了双搜索框功能。
3、目标——信号——指标
不管定义的用户中心的指标是怎样的,如果不能和目标明确的相关,以及能够跟踪达到目标的过程,那么都是白搭。Google提供了一个简单的流程来完成指标的设定,首先明确产品或者功能的目标,然后定义转化的信号,最终建立适用的指标。
目标
第一步是定义产品或功能的目标是什么,特别是在用户体验方面。用户需要完成什么任务?重新设计是试图达到什么?使用HEART体系来明确相关的目标(比如,是吸引新用户更重要,还是鼓励现有用户更积极参与重要?)一些有用的提示:
不同的团队成员可能对于项目的目标有不同的意见。这是收集不同的想法并且争取达成共识(并且认同选择的指标)的良机
特定项目或功能的成功可能与产品的整体目标不同
在这个阶段无需太担心找不到相关的信号或指标
信号
接下来,想想用户的行为或态度如何体现成功或失败。什么行动会表示目标已经达到?什么感受或看法能够联系到成功或失败?在这个阶段你应该思考你的这些信号的数据源可能是什么?比如,基于日志的行为信号,这些相关的行为目前有记录或者能够被记录吗?可以收集态度的信号——能否定期投放问卷吗?日志和问卷是我们最常使用的两个信号源,当然也有其它的选项(比如,使用一个面板或判断让用户评分)。一些有用的提示:
选择敏感度高以及和目标特别相关的信号——只因用户体验的好坏而改变,而非其他不相干的因素。
有时失败比成功更容易定义(比如,放弃任务、撤销,挫折)
最后,想想这些信号是否可以转换为特定的指标,是否可以被方便的持续跟踪。一些有用的提示:
原始统计数据会随同你的用户基数增长而增长,需要转化为常态;比例、百分率或者每个用户的平均值更有用一些
在确保精度上有很多挑战,基于web日志的指标,如从自动生成的数据中过滤流量(如爬虫、垃圾信息),并且确保所有重要的用户行为都被日志记录(默认情况下可能不会,尤其是在基于AJAX或基于Flash的应用中)
如果需要拿你的项目或产品和其他的进行对比,你可能需要在标准指标外,额外增加监控指标来进一步更准确得监测产品。
4、总结
Google已经花费数年时间来解决广泛应用的用户体验的衡量指标体系。HEART体系和目标-信号-指标的过程,已经在Google超过20个产品和项目中进行了应用。不管是数据驱动的还是用户中心的产品中,HAERT体系和目标-信号-指标过程都能帮助产品团队来做出决定。
Translation: Steve