Tumblr的现状,其实可以被套用在很多小众的兴趣化社区上(例如贡献了大量流行文化符号和网络暴力事件的4chan),特殊内容氛围的长期浸淫,让这些社区很难利用上通用的内容AI模型,如果前期没有进行相关的数据标注准备,后续想要补课就会越来越难。
相信今天不少人都看到了这则新闻——轻博客产品Tumblr宣布从12月17日开始全面禁止所有色情内容。按理说这根本算不上新闻,而是天经地义的事。但Tumblr不同,尤其是对于中国用户来说,很多人都会将这款产品和“老司机”、“福利”联系在一起。
和很多社交媒体不同,Tumblr在色情内容方面的审核标准更低。尤其在“上海陆家嘴”事件发生之前,中国用户不需要科学上网也能登录。如此奇葩的社交媒体社区氛围,究竟是如何形成的?而这次对色情内容的禁封,又会对Tumblr产生哪些影响?
一、社交巨头围攻下,Tumblr的突围不只靠小黄图
虽然不像Twitter、Facebook和Instagram这类存在感更强的社交媒体,但Tumblr的流量远超过大家想象。
在2013年Y Combinator推出了一项调查报告:其中显示Tumblr是青少年消费者使用最多的社交网站。59%的青少年表示他们经常使用Tumblr,相比之下,只有54%的青少年表示他们经常使用Facebook。
在亚马逊的Alex流量排名中,Tumblr在全球排名第67名,在美国排名第22名——考虑到这是一款成立自2007年的产品,这样的成绩已经很理想了。不过Tumblr和Pronhub这类纯粹的色情网站不同,Tumblr上的内容非常庞杂开放,即使是色情内容,也更加艺术化。
从一开始,Tumblr就属于个人艺术家、摄影师们发布作品的空间。为了适应这一群体,Tumblr设置了非常开放的内容规则,发布者可以在自己的博客上标注好含有成人内容,其他用户如果不想看到,直接设置拒绝收看。
加上Tumblr的兴趣群组设置,其实人们在Tumblr上看到的大概是这几种内容:独立艺术家和摄影师的作品、一些包含色情内容的同人画作、meme表情包、福利姬的照片、色情博主的作品。
与其说 “色情”其实更适合Tumblr的形容是“NSFW”——not safeforwork,不适合在工作时间的打开。类似于那种虽然“合法”,但被同事看到会非常尴尬的内容。
由此也形成了一种非常特殊的社区氛围,用户们的品味更高,对于粗制滥造的广告内容非常抗拒,就连创始人本人都不愿意加入广告。这也为Tumblr后来的问题埋下了隐患。
这种开放的氛围让Tumblr成了当下非常稀少的兴趣导向轻博客,在Facebook、Twitter和Instagram这些强调个人身份和社交的平台围攻下,仍然能有自己的生存空间。
二、开放之下的色情陷阱
但这种开放,带给Tumblr的隐患或许远大于好处。
首先,是严重违法内容的泛滥。色情可以艺术的,更可以是违法的。尤其是当不对色情内容进行限制时,面对儿童色情这种严重违法内容来说,控制方式恐怕只能靠用户的自觉举报了。
可惜人类的自觉性远没有想象中那么高,不仅用户常常在平台上发现违法内容,包括最近Tumblr在App Store上下架,也与儿童色情有关。
同时这种宽松的监管政策也让Tumblr在一些国家和地区受阻。
除了中国以外,韩国政府也对Tumblr的内容颇为不满。韩国放送通信审议委员会在今年很严肃地表示:虽然韩国和美国对于色情内容的法律规定不同,但如果Tumblr再不对相关内容进行处理,韩国将考虑在本土屏蔽Tumblr。
最可怕的是,NSFW内容的存在让Tumblr在广告收入上大大受限。
虽然用户量巨大,但Tumblr早在2013年就以10亿美金的高价卖身给了雅虎,而2016年雅虎又被卖身给了Verizon。虽然Verizon给了Tumblr足够的耐心和时间,但爱沙尼亚塔林大学一位一直研究Tumblr的教授提出:很多广告客户很抗拒自己的品牌出现在NSFW内容周围。
虽然没有明确的数据显示出Tumblr具体的收入,但2013年时Tumblr曾透露自己一年的广告收入不足1500万美金,而2014年雅虎收购之后,称Tumblr的收入将在2015年达到1亿美金。
从雅虎如今的悲惨状况来看,Tumblr的收入应该远远没有达到预期。
三、为什么Tumblr的禁黄之路必然艰难?
千言万语,Tumblr禁封色情内容的原因可以被总结为一句话——要恰饭的嘛。但Tumblr的禁黄之路并不顺利。数据调查显示:虽然发布色情内容的用户只占0.1%,但有22%的用户点赞、评论、转发了色情内容。于是消息传出后,很多色情博主表达了自己的不满,甚至贴出了自己在其他内容平台账号,号召粉丝们转移。
在这种前提下,Tumblr想建立一套合理且精准的色情内容筛选算法是很困难的。在最近开始测试色情内容禁封算法时,因为算法的错误判断,Tumblr遭到了大量的用户上诉。由此可以看出,此前Tumblr并没有对色情内容进行识别和标准,只是依靠发布账号的自我界定来评判。
作为内容社区,Tumblr的内容形式非常复杂,有真人照片、有手绘漫画还有文字等等形式的色情作品,以往通用式的色情内容识别算法很可能并不适用。
何况Tumblr一直以小团队著称,如今也过了最具价值的增长期,如今重金投入到人工智能上并不现实。
目前看来:Tumblr选择的方法是先让算法进行选择去屏蔽内容,再让用户手动评判算法是否正确。也就是说让用户自己成为Tumblr的数据标注工人。这就带来了一个有趣的问题,在一个色情内容泛滥且受欢迎的平台上,把算法标准交到用户手上,会形成什么样的结果?
在去年Facebook曾经做过一件差不多的实验,让用户自己对假新闻进行标注,从而增加Facebook的新闻验证算法精准度。但结果是有不同左右政见的用户们,疯狂对不符合自己政见的新闻进行假新闻的标注,最终实验以失败告终。
在这件事上,群体的无序性体现的淋漓尽致;现在已经有一些用户号召彼此在内容标注时为色情内容手下留情,试图保护他们热爱的社区氛围。
由此可见,Tumblr的禁黄之路必然不会太顺利。
Tumblr的现状,其实可以被套用在很多小众的兴趣化社区上(例如贡献了大量流行文化符号和网络暴力事件的4chan),特殊内容氛围的长期浸淫,让这些社区很难利用上通用的内容AI模型,如果前期没有进行相关的数据标注准备,后续想要补课就会越来越难。
而如果想要依靠用户的力量进行数据标注,用户则很容易识别出平台方想要破坏当前社区氛围的目的,然后对规则进行扰乱和破坏。相比色情内容,这种怪圈才是Tumblr们最大威胁。