文章探讨了编辑、算法与社交三种分发方式适应的场景以及它们在内容分发系统里的应用。
先抛出个人的结论:编辑(中心人工主导)分发、算法(机器主导)分发、社交(离散人工主导)分发各有千秋。内容分发服务追求的是分发所能触及的远景,为了达成远景,就需要探寻每一种分发更合适的应用场景,而不是要在“剑宗”和“气宗”里争个高下。
本节试图探讨的,就是每种分发方式适应的场景和它们在内容分发系统里的应用。
从纸质报纸杂志到广播电视,再到门户网站,尽管信息传播的载体发生了变化,但是内容传播始终保持着中心化分发,展示位有限、千人一面的状态,信息传播的决策权始终握在编辑手中。
编辑分发的优势在于,借由专业背景知识完成了从海量内容到有限展示位置的过滤和筛选,经过筛选的内容,其平均质量是相对较高的。然而,基于专家的判断难免会出现偏差,为了降低“叫好不叫座”或单个编辑偏差的情况,内容分发方也上线了相应的策略。比如传统纸媒会有编委会投票机制,通过多人判断选题,又如门户网站分时段上首页,点击率一定时间不达标自动下架等措施。
引入了机器推荐算法的分发系统,由于达到了千人千面的效果,展示位数量得到了大量的扩展。在筛选人力不足以匹配展示位数量的情况下,编辑又起到怎样的作用呢?
首先,人工同机器一定不是对立的,不然,今日头条也不会吸引到如此多资深的传媒背景从业者。 我和组内的同事不止一次的真心赞美吴达(时任头条号运营总监):“我们的运营团队都是豪华高配的文化人。我跟吴达老师聊天,是要带字典的orz”。
编辑能够帮助推荐系统更好的理解内容,也能帮助我们更好的理解站在内容背后的创作者群体。
在内容层面,编辑和审核团队是能够决定什么样的内容是低质的,不应被系统收录和推荐的。编辑和审核评估团队就像是内容推荐系统的门神一样,对于不OK的内容Say NO,对于低质背后的做号者Say NO。
作为最大的信息和社交分发平台,Facebook也在事实甄别和低质内容管理上强依赖编辑和审核的人工工作。
2016年12月16日,Facebook上线了Fact-Checking(事实审核)机制,将用户举报过多的信息交付机构记者来判断。如果记者判断这则内容是假新闻,就会将内容标记为存在争议,一方面会在前端页面提示给用户此内容可能失实,另一方面会从分发量的角度进行控制。
2017年5月,扎克伯格发帖称Facebook会再招聘3000名内容审查员,在此次招聘后将会达到7500人。审查员会过滤社交媒体上的不适当内容,如恋童癖、身体暴露、种族仇恨等内容。
除了Say NO之外,编辑同样会对什么样的内容特别值得推荐Say Yes。
以推送场景为例,作为强打断的场景,被推送的内容需要被审慎的筛选出来,以保证打断用户是值得的。在新闻客户端上,一贯强调筛选出“Breaking News”,当重点新闻发生时,编辑一定是24小时值守的,验证真实性、确定推送范围和推送级别,只为了不错过每一条值得用户关注的内容,让用户能够更准确快速的获得最新的消息。在这一过程中,技术能够辅助更快速的构建新闻候选集,比如追踪社交媒体、追踪重点网站的发布情况(如气象局、交通局)等,但人工才是做出最终裁决的角色。
当然,为了保证系统的可扩展性和有效性,我们希望在日常推荐中尽量避免人工的直接干预,如对内容进行调权、对展示量进行干预等等。但是,不直接干预并不代表缺位,编辑始终在扮演一个“纠偏”的角色,当发现主观觉得好的内容没有得到应有推荐量的时候,当发现主观觉得差的内容得到过高推荐量的时候,都会给产品和技术做出反馈。在这种情况下,产品、技术、编辑(内容运营)会坐下来探讨:其一,这是不是一个问题,如果是问题的话,是不是一个频发的问题,以此来确定解决与否和优先级;其二,探讨更系统性的解决方案,让这一类而不是这一个问题得到更系统性的解决。
在创作者体系层面。我们常说,做产品要有用户视角。作为平台方,你在面对了亿万用户的同时,也在面对万量级的作者。作者同样是内容分发系统的用户。编辑会更理解创作者的语境,成为创作者和作品的代言人,来影响系统的迭代。与此同时,他们也能够以创作者更可理解的方式去传递平台的规则,帮助不同阶段的创作者在平台更好的成长。
题外话,我发现吴达老师的案头摆了本《python数据分析》了:文化人懂技术,谁都挡不住,笑。
在Facebook、微博、微信覆盖了越来越多的用户之后,内容的分发逐步去中心化:每个人都可以创作内容从而成长为自媒体,每个人都可以借由社交关系评论、转发从而完成传播。信息的传播权从传统的精英编辑让渡到每个普通人受众,相当于每个人都成为了编辑,成为了内容分发的中心。
社交分发首次让信息的传播变成了“千人千面”。每个用户都有了个性化的内容消。2010年,Facebook主页访问量超过Google访问量,意味着“社交分发”已经成为了主流的分发方式。援引皮尤研究中心此前的调查,美国成年人中有62%通过社交媒体获取新闻,18%高度依赖该平台,通过Facebook阅读新闻的人数占比高达44%。
当然,社交分发也带来了新的问题:
一方面,进入稳定期后,流量出现了新的垄断:一些大V由于拥有海量的粉丝、保持了高频的发布量,事实上掌握了平台的流量分配权。比如,微博上大部分流量被营销号和大V所占据,新的内容生产者获取流量的成本剧增。
另一方面,随着社交关系的不断扩张,微博微信已经成为了线上名片,用户关注了越来越多的来源,基于社交分发的内容质量也逐步下跌。朋友圈中盛行的养生文、微商、晒娃等等就是最好的例证。
社交分发让人们免于信息匮乏,却同样带了信息过载的问题。为了优化用户的信息消费体验,Facebook率先在自己的News Feed中应用算法进行排序。
Facebook最初的排序方式,称之为边际排名算法(Edge Rank Algorithm)。
算法的核心计算公式为:E = uwd:
u:用户与内容发布者之间的亲密度分数,互动越高的关系分数越高
w:不同反馈动作具有不同的权重,如展示、评论、点赞等。比如评论动作的权重就会显著高于点赞。
d:基于时间的衰减,越新的内容权重越高
借由上面的公式不难看出,亲密度和动作的引入,极大的抑制了大V和营销号刷屏的情况。此前,企业账号一旦获得了粉丝就相当于获得了稳定的广告位,所有新广告以几乎0成本的形式展现在这些粉丝的信息流中。但此后,没有互动的粉丝就只是停留在页面上的一个数字而已,企业账号必须同时下力气来维护自己的粉丝群体。
在随后的日子里,Facebook致力于借由机器学习方式改进排序算法,除了最初的3个EdgeRank因素之外,不断追加新的特征和排序方式,如Story Bumping(系统对用户错过的信息中进行二次判断,如果判断为重要,则会跳过时间序进行置顶展示),Last Actor(系统根据用户最近频繁互动的50人,进行信息排序的调权,放大短期兴趣的影响)等等。
无独有偶,在国内,微博也逐步意识到自己的流量被大V和营销号所挟持的问题,开始越来越多在信息流之上应用推荐算法,将原有的时间排序调整为智能排序,以控制刷屏、广告泛滥等问题,优化用户的使用体验。如果你有关注过微信朋友圈的分发,就会注意到,某些被疑似过度传播的内容(微商广告、转发集赞)是被微信降频过滤的。
微博、Facebook将关注关系作为筛选因素,将用户的点击、评论行为作为调权因素,是在“关注关系产出内容”的候选集上进行算法排序。相较起来,头条将关注关系也弱化为调权因素,从而获得了一个更广泛的候选集范围(用户相当于在头条上关注了所有的头条号),在此之上进行的排序能够有更高的效率匹配性和更好的可扩展性。
某种角度来看,算法分发或许可以被称之为终极解决方案。
为什么这么说呢?因为推荐算法是个筐,什么都能往里装。它是基于我们对现实世界理解进行的抽象和建模,所有我们关心的因素(编辑分发、社交分发)都可以转化为算法推荐的参考因素。
如果我们化简这个问题,将推荐的因素收敛到编辑因素、社交因素、模型因素三个部分,那么,一个内容在系统中的得分可以表示为下列公式:
内容得分= a编辑因素 + b社交因素 + c*模型因素
a,b,c分别为三个因素的权重。如果我们把某个因素的权重置为1,其他因素的权重置为0,那么算法分发就能够等同于编辑分发或社交分发。
各种权重的调节,则完全是以平台的价值感导向所决定的。以FaceBook为例,其认为来自真实好友关系的生活记录内容更重要,在分发过程中就会加强真实好友生活记录内容的权重,而弱化他们转发内容的权重,进一步弱化媒体所发布内容的权重等等。
事实上,我们所熟悉的各类内容分发产品,无论起步如何,如今都走上了一条多元素融合的道路上:依赖中心化编辑引导和干预,依赖去中心化用户生产传播,应用机器学习提升效率。新版的微博也在关注频道的旁边放置了热门频道,提供了不依赖于订阅关系的内容推荐服务,微信都上线了实验室功能“看一看”。
沉迷气宗剑宗之争的看官们,还是散了吧。