快好知 kuaihz

重新定义“爆款文”,内容价值标尺越来越多元

基于内容特征以及协同过滤算法机制的推荐系统,使优质草根难以有“出头之日”。关于内容价值的高低,不能一直靠冷冰冰的算法来判定,长此以往,只会使内容生产流水线化,好内容消匿在所谓的“爆款文”浪潮中。微信新提出的新的热度预测模型——DETC,将改变这种现状,促进内容价值判定标准多元化,重新定义“爆款文”。

没有一个时代比今天更重视技术对于内容的价值。

越来越多的人们,尤其是年轻人,更加愿意使用和相信算法生成和推送的内容。算法之于文章,扮演的就是一个“星探”的角色。它需要在刚刚见面的几分钟内,就判断出哪个具有“明日之星”的潜力,以便分配更多的资源帮助它“走花路”,而不是只会在对方走红之后,才说出“我早就知道”的马后炮。

不幸的是,大部分基于内容特征和协同过滤算法的推荐系统,都无法“识英雄于微时”——在文章发出早期就判断出其受欢迎程度。这就导致一些原本质量很高的文章,很可能因为初始浏览量不够而被埋没,“标题党”“咪蒙系”反而有可能得到越来越多的推荐和热度

如何在过剩的信息洪流中将用户最感兴趣、最具潜力的资讯率先甄选出来,是建立一个良性内容生态的关键,却也是困扰各大巨头、悬而未决的技术难题。

最近,微信的研究人员就提出了一种新的神经网络方法DFTC,用来更好地预测网络文章的热度。由于该模型表现出了良好的性能,已经被AAAI 2019 大会接收, 并在大会上作了主题报告。

它在哪些领域进行了创新?又能为现有的爆款内容生产机制带来哪些改变呢?渠道分发哪家强?热度预测又面临哪些难题?

在介绍新方法之前,有必要先梳理一下,当前的推荐算法都是如何进行热度预测的?

如何进行热度预测

一种是基于聚合浏览量的时间演进过程,比如:今日头条的热门推荐算法,就是优先推荐热门的文章。

这种方式的优势是:已知的历史热度会越来越接近整体受欢迎程度,因此,模型的表现也会随着文章发布的时间而变得越来越好。

但由于很多外部因素带来的意外增长,都是不可预测的,时间热度模型却对此却无能为力。即使引入人工干预,除非像咪蒙系一样凭借大量经验和策划,否则也很难确定爆款文章可能出现的时间,以及生命力有多强。

二是通过预测内容特征的受欢迎程度,来推断整体可能的热度

Yahoo Today就曾经用新闻的点击率来进行画像,并用feature-based learning方法来建模用户对资讯感兴趣的程度。

其中包括静态特征,比如:资讯的类目、主题等;以及动态特征,如某条资讯、某类资讯分时间段的各种统计值等。

通过这种方法,Yahoo发现在推荐新闻时,娱乐类新闻天然比体育类新闻点击率高。

由于内容特征不会随着时间而变化,因此很多不那么刺激眼球的内容,也可以获得公平的曝光机会,使得该模型在早期阶段效果更为可靠。

但问题也随之而来,网络文章通常是长文本,加上越来越复杂的元数据特征(如标题、类别、作者信息等),建模难度也日渐增大,目前还没有此类模型能够完全地利用这些数据。

不难发现:不论是基于时间演进,还是基于内容特征,都不足以支撑内容终极价值的判断标准。只有双管齐下,才能发挥出最佳的预测效果。然而,这对于算法工程师来说是极大的挑战。

DFTC:改写热度预测的丛林法则

为了改变这一现状,微信的研究人员就此提出了一种将时间过程,与内容特征深度地融合到一起的神经网络方法——Deep Fusion of Temporal process and Content features,简称DFTC,来构建更合理的热度预测系统。

他们收集了2018年5月-7月的6万篇微信公众号文章的热度数据,将文章热度分为 3 类:爆款(阅读量>10000),冷门(阅读量<100)和普通 (其它)。最终得到一个类别基本平衡的数据集用作训练 (training set) 和测试 (balanced test set),并建立了一个2 万篇文章构成的随机测试集 (random test set)。

DFTC一共包含三个部分:

时间过程建模;

内容特征建模;

注意融合。

首先,采用卷积神经网络(Attention CNN)来提取文章增长和下降的短期波动情况,比如:一篇文章每小时浏览量的变化情况。

接着,再利用循环神经网络(RNN)得出文章受欢迎程度的长期增长趋势。

然后,利用分层注意网络(HAN)来获取文本特征,使用嵌入技术来学习各种元数据的特征,并进行建模,得到一个内容特征模型。

接下来,将建好的时序模型和内容模型利用注意力机制,动态地组合到一起,生成一个能够体现出文章热度演变过程多样性的灵活权重(Popularity level)。

DFTC的创新之处是,解决了三个悬而未决的行业难题:

如何预测意外情况带来的短期波动(Attention CNN自动学习短期波动,不做具体假设或人工设计);

如何解决元数据多模态的识别难题(embedding技术可以识别短文本描述、标题和图像等多种表现形式);

相同内容特征与不同生命周期阶段的连接(Attention融合机制,生成一个灵活权重而非线性组合)。

至此,一个更优秀的热度预测模型就诞生了。

实验数据显示:“两手抓两手都要硬”的DFTC,在文章发布后的前5个小时,其预测的准确度相比其他单一性解决方案强出了不少。

不难发现:DFTC正是基于对短期浏览量、意外因素、内容关键词等可能,决定最终受欢迎程度的多重因素进行了全面统筹,才能在初始期就做出更精准的判断。

因此,一些枯燥无趣的内容会被率先过滤掉,有潜力的优质文章也更容易得到推荐,避免了“酒香也怕巷子深”的命运。

或许不久以后,依靠经验和直觉打造爆款,和依靠大数据与关键词打造爆款,这些技术蛮荒时代的丛林法则慢慢都会被更好的生态机制所取代。

热度预测照亮的未来,不只属于文字。

个性化推荐系统既不能完全遵循用户兴趣标签与内容特征抽取的匹配,那会导致越来越严重的信息茧房(“喜欢你就多看点”)和回声室效应(“你反对的绝不出现”);也不能单纯依靠文章的生命周期来判断,让优质创作者在平台偏向(“这篇会火都给我看”)之下凉了热血。

因此单纯从数据上看,DFTC是成功的。

目前,微信已经将该模型作为系统选择和推荐文章的重要依据,开始在“看一看”等产品场景中进行实践。

从更广泛的实用性来说,DFTC所代表的思路,用深度学习技术和思维解决预测问题,正在成为业界共识。

“在任意时间预测网络内容的最终热度”,DFTC不仅仅只有资讯平台的推荐算法,在广告、搜索等业务也能起到很强的推动作用,提高内容的分发效率。

而就在前不久,微软也提出过一个跨产品的用户行为模型,将用户在搜索、新闻、appstore、xbox等多个产品线上的行为(反馈)统一在一起。这样训练出的深度学习网络,就能很好地优化和解决单个产品上(用户)冷启动、信息稀疏等问题。

也就是说:可能你搜索了“房价会不会继续上涨”,打开新闻APP就会收到“房价可能回到三年前”的新闻,是不是有点细思极恐呢?

这也反映出深度学习进行热点预测所呈现的新的问题:

平台对热点的评估只是一种模仿,好的阅读体验究竟应该如何量化?

为了更好的阅读体验,读者需要让渡多少个人隐私?

当然,现在想这些还有点为时过早。无论如何,热度预测模型能力的升级,正在让内容产业关于价值的标尺越来越多元,这可能是算法最具人性的一次。

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:标尺  标尺词条  多元  多元词条  定义  定义词条  越来越  越来越词条  重新  重新词条  
设计

 关于设计评审的一些反思

坦白来说,刚开始实习/工作的时候,我一度对设计评审(本文主要指 UX 团队内部评审)这件事儿感到过恐慌,完全不知道该说什么,如何引导听众思路得到建议等;也因此出...(展开)

设计

 交互设计 | 取消与关闭:请在设...

区分这两种操作,可以很大程度上能避免丢失用户已操作的内容。在关闭视图之前保存用户的更改,使用文本标签而不是“X”图标,并在破坏性操作之前提供确认对话框。一、让人...(展开)