接下来两篇文章都是针对虚假流量的识别,上篇围绕虚假流量的发生机制、发生原因(背后的利益捆绑)、识别虚假流量的常见维度等;下篇从一个案例完整介绍如何识别虚假流量。
电商、支付平台、O2O、自媒体、广告等行业无一例外地充斥着虚假流量,不同行业的流量作弊形式不同。对广告主来说, 了解广告投放过程中虚假流量的作弊形式和获益形式,是识别虚假流量的基础与前提。
一、看似正常的广告投放的环节
一般而言,广告投放过程包含这样几个环节:
第一步,广告主选择投放哪种广告,常见的形式包括 SEM、DSP、信息流、开屏广告等;
第二步,确认广告的付费形式,常见的广告付费形式有 CPM、CPC、CPA、CPS 为主要的结算方式,分别按照展示量、点击量、 转化量、销售额结算;
第三步,跟踪广告的投放数据,常见的投放数据有展现量、点击率、点击量、消费、成功注册量、下载量等。
由于广告投放过程中渠道服务商存在各级代理,存在流量获取的透明度不高的问题,让可供作弊的灰色区域越来越多。
图 2 广告投放流程
看似正常的广告投放流程,其实隐藏着虚假流量的危机。站在广告主的角度,我们从两个方向去解读虚假流量:
图 3 机器作弊 & 人为作弊
“机器作弊”常见的手段有,通过机器发送虚假流量、肉机访问网页、修改 DNS/IP 访问网页、爬虫技术访问网页等手段来 制造虚假流量,目的是模拟浏览行为产生大量浏览痕迹或点击和实现流量增加,机器作弊的成本相对较低,但都离不开代码程序。
目前较好的预防措施,是通过基础的用户行为分析来识别此类虚假流量,再通过补量、屏蔽的方法来减少此类虚假流量。 例如:频繁更换用户身份,在一个 cookie 身上猛薅羊毛,一个用户有成千上万次展示;
再如:iframe 造假展示也是常用方式,iframe 是一个 HTML 标签,常常被用来作为承载展示广告的载体,作弊可以通过将 iframe 的尺寸改为肉眼无法识别的图片。但这毕竟算一次曝光,广告主会要向此付费,实际上用户并未看到。
“人为作弊”场景的手段有,通过雇佣、激励的方式雇佣大批人员去点击广告、下载 APP、访问网页,因为属于人为操作。
这类虚假流量较难屏蔽,但成本相对较高。可通过深度用户行为分析,如转化情况来识别此类虚假流量,并提高“人为作弊” 的运营成本来减少此类虚假流量。
提到虚假流量的获益形式,就离不开上文提到的广告付费形式。每种广告都会有对应的结算和考核指标,这就成为虚假流量作假的痛点之一。
CPM、CPC 付费形式的作弊场景主要为刷广告指标,如:曝光、点击等。
CPA 付费形式的作弊场景是刷下载、激活及留存等。
CPS 付费形式的作弊场景是刷订单。
每种广告都有对应的付费形式,每种付费形式都有虚假流量获益的诉求点,这些组成了虚假流量获益的形式。这些虚假流量的出现,通常带有明显特点,比如:点击变得很频繁但无有效交互、一段时间内同一个人频繁访问投放的广告等。
虚假流量之所以能成为“生态圈”,是因为供需双方有着共同的利益。在这个“生态圈”中,虚假流量的提供者、虚假流量 的获取者是两个重要角色。
广告平台和媒体是虚假流量的提供者,两者掌握着大量的流量资源。
媒体广告平台媒体广告平台是广告流量的源头,也是广告投放链条中收益最大的一方,每年中国在营销广告的投放已经有数百亿元。日益增加的广告投放需求与流量需求,不停推动着广告平台自身对流量扩增的需求,这样虚假流量也就随之出现了。
广告服务商:广告服务商,作为广告主与广告平台的桥梁,是广告投放链路中重要的环节,广告服务商与广告主达成协议去完成其要求 的 KPI 业绩,若无法完成 KPI,虚假流量也会成为实现 KPI 业绩的一种手段,例如:想尽办法创造下载量、访问量、阅读量等。
在一定程度上,广告主很容易成为虚假流量的“推动者”,例如在以下场景中:
面对考核指标的压力:当企业(广告主)过分追求 KPI 以及某些效果指标的时候,基于考核指标的压力会越来越大,当曝光、 点击等指标无法完成时,不自觉地会忽视广告刷量的影响。
投放价格低:归因分析能够帮助企业判别最终转化源自哪个渠道(或哪些渠道对转化有积极影响),而企业经常会忽略这一功能。常见的原因是当投放预算充足、获客情况满足 KPI 的情况下,企业的营销运营会忽略不同渠道存在的虚假流量。而有些渠道的流量真假参半,若不去追溯每个渠道流量质量,就会纵容虚假流量对营销效果的长期影响。这对于以效果为目标的营销最为重要,尤其在年度复盘的时候,才发现损失也不是一个小数目。
企业融资需求:一些创业公司为了把下载量等数据做得好看,吸引更多的投资,也会主动用虚假流量的方式刷单。
3. 高利润、低风险助长双方流量作弊
虚假流量并无高深的技术含量,且流量造假成本极低。相关数据显示:刷流量的成本不及正常流量成本的十分之一。
广告主对流量质量的评估,除了发布方提供的报告外,无直接证据证明对方造假,因此追究虚假流量难度大,维权较为困难。
1. 广告投放数据与网页转化数据断层,无法判断后续转化情况
广告投放数据与网页转化数据断层是信息不透明的重要原因。
什么是广告媒体数据?
前文提到,虚假流量会针对曝光和点击数据做假,这两个数据就属于广告媒体数据。
什么是转化数据?
当流量来到网站后就成为了访客,访客在网站完成交互(如:L注册、有效呼起、下载等)可以认定为线索, 这就是转化数据。 广告媒体数据与转化数据断层,也就是通常说的前后端流量数据割裂。
这种情况下,一旦转化率下降,广告主将无法判断 是投放策略问题还是虚假流量作怪。 广告主只能统计到前端的点击转化,不知道后续业务转化如何,广告主不能获得用户的详细信息,就很容易被广告平台所 蒙蔽,尽管对广告平台的流量有所怀疑,也没有明确的作弊证据。
无论是哪种转化行为(注册、呼起、下载、激活等)都离不开流量渠道,更多时候转化行为是由多个流量渠道共同承担的。
当全部流量混在一起的时候,即使你知道有虚假流量存在,也无法准确定位是哪一个渠道带来的虚假流量。
五、全流程数据流量监控是识别的基础
无论从哪个维度入手,识别虚假流量,需要将流量数据、行为数据和转化数据通过一定的数据采集手段,来获取完整、全 面和准确的数据,目的是实现全流程数据流量的跟踪与分析。只有获取了完整全面的数据,我们才能找到虚假流量的踪迹,只分析一个虚假流量环节,不足以支撑虚假流量的证据。
下图是流量转化的完整过程:为方便大家理解什么是“全流程数据流量”,可见下图:
图 5 全流程数据流量
一般来说,真实流量一般自然 (真实的流量在各个维度中表现一定是自然的)与多样(网民的喜好各不相同,行为一定也是 多样的)。而对于虚假流量,常表现出一定的目的性(虚假流量的产生一定和某个特定的目的有关)和规律性(特定的目的导致虚假流量一定有特殊的规律)。
由于虚假流量与真实流量在具体访问行为有较大差异,围绕用户行为可从以下几方面识别出虚假流量。
1. 基本属性
具体包括:时间 & 地域维度、终端类型、操作系统、联网方式、运营商、IP 集中等。
时间维度 & 地域维度:正常的流量访问分布在一天中的各个时段、地理分布较为均匀(区域性投放或者活动除外)、访问趋势较为平缓。而不同流量出现时间段特殊、来源区域集中、趋势突增的情况。因此,通过流量产生的时间、地理位置、访问趋势变化都可以成为判断虚假流量的参考方式。
终端类型:不同的渠道覆盖不同的用户群,用户终端会有一定的区别。比如:小米应用商店渠道的用户,十之八九手机是小米手机,如果对方是中国移动的客户,他们则来自于移动运营商。排除这些特殊渠道的应用商店,大部分渠道的用户终端跟整个互联 网终端分布是类似的。因此在正常情况下,用户访问设备应该多元化。同理,用户的设备操作系统、联网方式、运营商等设备属性,同样可以成为判断虚假流量的参考标准。
2. 产品参与度
具体包括跳出率、平均访问深度、平均访问时长、用户行为路径、页面点击情况、流量留存情况、单页面人均访问次数等。
(1)跳出率
我们通常通过跳出率来衡量网站性能与质量等,跳出率也可以作为辨别虚假流量的参考指标。如果跳出率过高,我们除了要判断投放渠道的质量和定位客户群体是否精准外,还应该警惕虚假流量。
(2)平均访问深度
访问深度是用户一次浏览网站、APP 的深度,它是衡量网站服务效率的重要指标之一。以刷量为目的的虚假流量,用户访 问深度通常非常低。当然,造成用户访问深度不够的原因有多种,如:新投放的落地页的失败引导等。
因此我们在观察此指标时, 应率先排除产品较大改动造成的访问深度不足等特殊情况,或者与其他渠道的流量数据综合比较,进行科学评估。
(3)平均访问时长
平均访问时长指标,主要用来衡量用户与网站、APP 交互的深度。交互越深,相应停留的时长也越长。显然虚假流量追求 的是“量”,而非“时长”,因此平均访问时长也可以配合几个网站参与度指标一起分析。
(4)用户行为路径
用户在 APP 或网站中的访问行为路径,用户路径的分析模型可以将用户行为进行可视化展示。因此通常用户通过渠道来到 网站后会有不同的行为,他们一般会从落地页开始进行分流,会访问不同的页面,并在不同的页面结束对网站的访问。
显然, 用户行为序列分布是没规律的,而对于虚假流量,虽然通过某些方式完成 2-3 次点击,但也是预先设定,有迹可循的。
(5)页面点击情况
虚假流量用户的页面点击通常是不点击,或者杂乱点击的,借助热力图工具可以较为容易地发现问题。
(6)留存情况
留存可以判断用户忠诚度,真实的流量总会有一部分访问者会再次访问,而虚假流量在合作结束后是不会进行这些收尾工作的。
(7)流量的单页面人均访问次数
如果某个落地页面的人均访问次数很高,比如:4 次以上的话,就很可疑了,因为在一次访问中用户一般是不会多次浏览同一 个落地页的。结合该页面在网站整体的人均访问次数进行对比,结果会更加准确。
3. 转化情况
很多作弊流量可以模仿人类行为,成功绕过跳出率、平均访问深度和停留时长这些宏观指标,但是要模仿一个业务转化就 比较难了,如果宏观指标表现很好,业务转化很少的话,就需要提高警觉。