经历了2012和2013两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在地应用大数据技术。
伴随着对大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取更为广泛的用户反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深入,一个概念悄然而生:用户画像(UserProfile)。它完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。
告诉你,什么是用户画像?
男,在线时长30秒,系统设备: Lenovo A390t Android 4.0.3,和账号绑定。爱理财,自拍达人,喜欢淘宝上购物。
这样一串描述即为用户画像的典型案例。如果用一句话来描述,即:用户信息标签化。
如果用一幅图来展现,即:
为什么需要用户画像?
用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理。比如可以做分类统计:喜欢购物的用户有多少?喜欢理财的人群中,男、女比例是多少?
也可以做数据挖掘工作:利用关联规则计算,喜欢理财的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢购物的人地区分布情况是怎么样的?
大数据处理,离不开计算机的运算,标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够“理解”人。当计算机具备这样的能力后,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。
如何构建用户画像?
一个标签通常是人为规定的高度精炼的特征标识,如:性别标签”男、女”、地域标签“北京”,等等。标签呈现出两个重要特征:一是语义化,即人能很方便地理解每个标签的含义。这也使得用户画像模型具备实际意义,能够较好地满足业务需求。如:判断用户偏好。二是短文本,每个标签通常只表示一种含义,标签本身无需再做过多的文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。
我们制定的标签规则,必须要确保所做的标签具备两个基本特性:人能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即用户标签,向我们展示了一种用于描述用户信息的朴素而简洁的方法。
数据源分析
构建用户画像是为了还原用户信息,因此数据来源于:所有用户相关的数据。
关于用户相关数据的分类,这里介绍一种重要的分类思想:封闭性的分类方式。
这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景,业务需求的不同,也许各有道理,按需划分即可。
本文将用户数据划分为静态信息数据、动态信息数据两大类。
静态信息数据——
用户相对稳定的信息,如图所示,主要包括人口属性、商业属性等方面的数据。这类信息,自成标签,如果企业有真实信息则无需过多建模预测,更多的是数据运营清洗工作,因此这方面信息的数据建模不是本篇文章重点。
动态信息数据——
用户不断变化的行为信息,如果存在上帝,每一个人的行为都在时刻被上帝那双无形的眼睛监控着。从广义上讲,一个用户打开网页,买了一个杯子,与该用户傍晚溜了趟狗,白天取了一次钱,打了一个哈欠等一样,都是上帝眼中的用户行为。当行为集中到互联网,乃至电商,用户行为就会聚焦很多。
本篇文章以互联网电商用户为主要分析对象,暂不考虑线下用户行为数据(分析方法类同,只是数据获取途径、用户识别方式有些差异)。
在互联网上,用户行为可以看作用户动态信息的唯一数据来源。如何对用户行为数据构建数据模型,分析出用户标签,将是本文着重介绍的内容。
目标分析
用户画像的目标是通过分析用户行为,最终为每个用户打上标签,以及该标签的权重。如:男、网购、自拍。
权重,表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单地理解为可信度、概率。
数据建模方法
下面内容将详细介绍如何根据用户行为,构建模型产出标签、权重。一个事件模型包括时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间、什么地点,做了什么事。
四、总结:
本文并未涉及具体算法,更多的是阐述了一种分析思想。