坑本身不可怕,可怕的是同一个坑里面摔了两次而不自知,前车之鉴后车之师,这里面会写一些我的思考。
之前知乎上有邀请回答“在你做推荐系统的过程中都遇到过什么坑?”想想这一年的摸爬滚打,感慨万千。这篇文章想算是做策略产品近一年时间的一个复盘,或者更具体一点是在做推荐策略产品中遇到的坑。
清单体,一吐为快!
坑一:数据问题
推荐策略产品的搭建,如果数据问题是其面临的第二大问题,那么就没有什么可以称作是最大的问题了。
这里的数据问题并不是指没有数据,而且没有结构化的数据。
结构化数据也称作是行数据,是由二维表结构来进行逻辑展示和表达的数据,严格遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
主要表现在三个方面:
埋点缺失,线上数据无法收集
数据没有进行科学的存储,导致无法使用
存储结构比较散乱,工程效率低下
以上三点,直接决定了一个业务线是否能够搭建推荐策略产品。记得之前参加公司一个内部的会议,让我印象很深刻的一段话:
底层数据各种属性不全,最好的规则也白搭。
解决方案
关于数据落表以及表结构这块,其实是需要看一个研发的功力。
数据埋点这块,可以参考一下我之前写的文章:一文读懂产品埋点
当然,除了上述的客观问题之外,还会经常碰到下面的连环提问:
哇,这个东西我不喜欢,为什么还在我的列表展示?
嗯,这个东西是怎么推出来的,毫无根据啊
这几个东西我怎么都没见过……
我想买一个电磁炉,咋没给我推出来啊……
啊,你看我们两个推得东西不一样啊,会不会被投诉……
这些提问的背后,实际上是近几年推荐热带来的用户预期管理不当。
在大多数人的眼中,推荐系统无所不能,而且能够未卜先知,当然更不能犯错,推出来的item必须是它喜欢的,认可的。
而精准度,不存在的。
对此
我的内心毫无波动,甚至还有点想笑
解决方案
在讲解方案,进行规划的时候做好预期管理,同时对于项目的核心衡量指标做好定义和目标阈值设置。
推荐系统现在越来越被广大人民神化了,再加上“人工智障”的把持,简直要飞天。
所以当有人看到你的推荐系统没有GBDT,SVD,甚至连个最简单的频繁二项集都没有的话,呵呵,不好意思,你这不叫推荐系统。
此时……
不要慌,问题不大。
可以进入科普时刻:
推荐系统除了基于各种算法的推荐,还有一个大类是基于内容的推荐。这其中包括了基于约束的推荐,基于知识的推荐等。
可以先试一试基于用户的个性化行为feature去做一些个性化的推荐是否能够提升相关的指标,是否契合本业务线?
一个新的业务线如果一上来就开始选各种算法,训练各种模型,先不说客观条件具备与否,就说最后的ROI是否能够达到都需要画一个问号。
推荐策略本身还是为业务服务,从业务出发,撇开业务谈策略都是耍流氓。
解决方案
做推荐系统不要聚焦在什么牛逼的算法,回归业务,挖掘业务中可以结合推荐策略能够高效,精准解决的痛点才是关键。
坑四:模糊的指标评价体系
关于推荐系统的指标,能够罗列一大堆:PV,UV,请求次数,请求UV,点击PV,点击UV,曝光PV,曝光UV等等;当然我们一般都用核心指标来衡量,主要包括:CTR,CVR,RCVR,UV价值,RPM。
那么,在设定ROI之前我们到底该如何确定选取哪个指标呢?
这就需要我们在设定在设定推荐系统的核心指标之前,首先想清楚目前的目标导向是什么。是GMV导向,还是转化率导向,还是流量导向?
目标导向不同,直接决定了整个推荐系统设计过程中的策略,公式,算法,特征等等的选取。
解决方案
对于新业务线暂时不要以GMV为导向,可以从流量或转化率的角度入手,选取CTR作为核心指标;对于比较稳定的业务线则以GMV为导向,选取UV价值、RPM等作为核心指标。
坑五:高大上的算法与看似不那么好的效果
很多人对推荐系统有一个常见误区,尤其对于业务人员,认为推荐就应该推荐的越准越好。
这个准是什么概念呢?比如用户假设喜欢冒险和情感类电影,那推荐系统一直推荐这两种题材的电影才是一个好的推荐系统,如果有其他题材的电影,那么这就是一个效果不好的推荐系统。
然而也就只有冒险和情感类电影。
用户的兴趣是会随时变动的,关键有时候连他自己都不知道自己喜欢什么,所以推荐系统除了满足这种在大量的物品中为用户高效,精确的筛选出其感兴趣的item之外,目前更多的是承担一种挖掘用户兴趣的需求,也就是让用户愿意在你的产品中“逛起来”。
对于推荐系统来讲通常这叫“新颖度”,也就是衡量推荐系统挖掘冷门物品的能力。
解决方案
推荐系统除了追求精准度之外,要结合业务特性设置其他衡量指标。比如对于内容型的产品,除了用户可能感兴趣的内容之外,平台热门,优质的内容也可以推给用户,这其实也是一个不断反哺用户画像库的过程。
以上大概就是近一年做推荐策略产品的一些主要复盘,其实总的来说就是一句话:策略,数据驱动要回归业务本身,这一切的源头就是结构化的数据。