今年4月份,微信联合清华大学举办了「2021中国高校计算机大赛微信大数据挑战赛」。本次大赛的赛题是基于访问微信视频号推荐栏的用户行为脱敏数据,使用推荐算法,对该部分用户的未来行为做预测。
简单来说,就是帮助微信视频号搞一个推荐算法,提高其推荐的精准度。
没有机会和能力参加比赛的技术渣,翻看了一下赛题描述和赛制规则以后,发现了视频号团队在推荐方面的权重期待。(点击文末阅读原文查看)
本次赛题会给到参赛选手们两组数据,一组是视频数据,一组是观看这些视频的用户行为数据。
我们先来看一下视频数据包含哪些维度:
总结表格,排除掉视频的ID信息,以下内容会影响到推荐算法:
作者是谁、视频时长、视频的配文/图像/语音被识别出的内容、BGM、BGM的歌手是谁、人工标注的关键词/分类、机器标注的关键词/分类。
再来看另一组用户行为数据包含哪些维度:
总结表格,排除用户本身和视频的ID信息,以下行为会影响到推荐算法:
播放视频的时长(也就是完播)、用户停留时长(应该是指用户在视频号推荐栏的停留时长)、是否查看评论、是否点赞、是否点击头像、是否收藏视频、是否转发、是否发布评论、是否关注账号。
参赛选手基于微信给到的以上信息去做推荐算法,然后用给到的测试数据检验推荐算法是否合理。具体评比所用的算法我们就不讲了,因为一讲那玩儿你们就不看了。
三句话讲清楚这个事:
1、给你一些视频的数据和对应的用户行为数据,你来写一套推荐算法,把这个推荐算法拿去给用户推荐视频。
2、怎么验证你的推荐算法行不行呢?
3、根据通过你的推荐算法看到视频的用户的反馈来判断,比如用户看了被推荐的时候后有没有点赞、转发、评论、收藏甚至关注。
用户的反馈行为有很多,肯定要分权重的。然后微信给出了每个行为的权重:
权重最高的是:是!否!查!看!评!论!
也就是说,对于参赛选手来说,如果你写的推荐算法,让看到视频的每个用户都点开了评论区,那么你就离拿30万奖金不远了。
这可以让我们从两个角度去猜测:
1、视频号团队非常重视用户“查看评论”这个行为,反映到内容创作者,当你做的视频让用户产生了点开评论的行为,那么视频号会认为自己的推荐算法很牛,于是给你更多的推荐!
2、视频号团队很鸡贼,知道这种文档会被我这种鸡贼创作者解读,所以故意放出一个干扰视听的评选标准。即便总奖金池是66万,即便劳师动众找清华背书、发动广大学子、找来一大堆专家当评委,即便要持续搞四个月的运营支持,即便……
虽然这并不代表着,视频号推荐的第一权重影响因素是是否查看评论(因为评价指标里没有完播率),但至少证明了查看评论比点赞、比转发、比收藏、比关注要重要的多的多。
我很早就说了,那些流传“发完视频以后10分钟赶紧集齐20个赞就能上热门”的说法都是放屁。但都没用,即便有了这样的硬核技术文档支持,这种流言依然会有大量的信徒拥趸。
但我还是写了,总有些聪明人能get到,然后包装一下去割那帮拥趸!