作为一个互联网从业者,有些本质性的问题是需要弄透的,不然看到的都是表象,永远无法获得真知。
在探索这一系列问题的过程中涉猎了不少资料,也做了很多思考;有些是想明白了的,有些是还需要继续探究的,我把自己思考的过程和例子都分享出来,供大家讨论。
围绕在我们身边的信息,数量庞大、类型复杂,每个人所处的圈层不同,接受到的信息也有很大差异,看似好像很难划分。但如果从另一个角度来看,我们大部分人的身体结构是相同的,于是我们可以按照接收信息的感觉器官来划分,就会比较明确。
我们的眼、耳、鼻、口、皮肤为我们提供了:视觉、听觉、嗅觉、味觉、触觉。
视觉让我们能够看见图像和文字,我们用听觉接收语言和自然界的声音,嗅觉和味觉提供了很多奇妙体验的可能,触觉是我们出生后第一次感知世界的方式。
从生物学上来讲,这些感官很多动物都有,人类并没有在这方面显得多么出众;但人类却创造了其他任何一种动物都无法创造的辉煌成就,并成为“地球的主人”。这主要归功于人类所特有的一种杰出能力——保存并传递信息的能力。
人类文明发展万年以来,科学技术的进步令信息保存和传递的方式发生了天翻地覆的变化,然而我们接收信息的方式只是效率的提高,而这一现象在数字化碎片的时代会加速传染开来。
要想知道为什么只是效率的提高,就得先弄清楚从古至今,信息的保存和传递方式是如何变化的?
一、视频是最易消费的媒介
现代人类的祖先“智人”进化出新语言是在大约距今7万到3万年前,这种新语言不同于其他动物通过不同喊叫的方式,传达不同的信息。而是能通过发出的有限声音,组合起来产生无限多的句子,各有不同的含义。
于是,我们就能够吸收、储存和沟通惊人的信息量,并了解我们周遭的世界。
而人类最早开始进行图像类型的记录,产生于旧石器时代的晚期,距今约3万到1万多年之间。记录类型包括了洞窟壁画、岩画、雕刻、建筑等。
而文字的出现要晚得多——文字几乎与农耕相伴而生,从最早的刻符、结绳和岩画算起,人类文字的历史不过5000多年。
从时间线的角度,我们很容易看出:语言的出现早于壁画,早于文字。
人类从蛮荒步入文明,有三次伟大的跨越:第一次是语言,第二次是农耕,第三次是文字。
语言是人类的开始,农耕是文明的开始,文字则是现代的开始。
文字的出现虽然让人类社会进入了一个新的纪元,但千百年来,很多时候文字只是少数人享有的权利,不论是从创造、学习、使用等各个角度来看,都是如此。
也就是说:同样的信息,我用语言、图画、文字三种形式传达的时候,大部分人可以听懂语言所表述的内容,其次是图画,文字的效果最差。
语言是人声带振动的结果,所以它本质上是一种声音。
这样,以上的三种形式就可以抽象为声音、图像和文字,我们初步推断,在人类接收信息的容易程度上,声音的效果最好,文字最次,即:
声音>图像>文字
除了以上三种信息的传递方式,其实还有一种很重要的信息传递方式——视频,只不过这种方式一直到近代才出现。
记录文字和图像的方式人类在远古时期就学会了,并且持续探索更简单的实现方式。
大规模的文字记录方式,是因为雕版印刷术的出现,于公元7世纪左右的隋唐时期。图像的便捷记录方式出现在1839年,法国的达盖尔制成第一个台实用的照相机。
人类的科技发展,总是倾向于让人变得越来越懒。出现的时间越晚的信息载体,才越易于我们感知和理解。声音和影像的的记录一直到第一次工业革命以后才出现。
1877年爱迪生发明了留声机,让声音的再现有了可能。
1895年爱迪生和迪克森制作的“有声活动电影机”,这项能够记录我们所处现实世界的发明,为后来视频成为现存的覆盖面最广泛的媒介,奠定了基础。
从远古跨入现代,人类保存和传递信息的方式,已经从呆板枯燥的文字,上升为能够听得见、看得到地重演现实世界情景的视频,视频成为了最容易能够让人看懂的媒介。
所以我们可以进一步确定我们的推断,在人类接收信息的容易程度上,视频的效果要优于声音,也就是视频>声音>图像>文字。
对此,我们从另一个角度重新审视,会得到更有说服力的解释。
文字是最早能够记录,但是消费门槛最高的媒介。
想象文字的阅读过程:首先我们得识字,知道一系列图形符号和他们的组合所代表的意义;然后通过句子,我们要在大脑中映射出感觉和意向,有一些要图像化处理后才能理解。
再思考文字的写作过程:我们要知道这些感觉和意义如何通过一系列的符号落到纸面。
所以文字的过程是个压缩和解压的过程。这个行为相比于其他的内容消费形式,门槛是比较高的。这也是文盲那么多的原因。
图像是对视频生活的抽象化反映,理解起来会有一点难度。比如有一些人是看不懂漫画的。声音比图像更容易理解,因为毕竟没有这么多复杂的千奇百怪的图形,只有有限个声音。
视频所展示的世界和我们睁眼第一天看世界的就是相同的。而直播是现实生活最生动的克隆。
而视频最容易被接收、门槛最低的原因,还有另外一个原因:视频调动了更多的感官。
二、如何用“感官象限”作判断
我们把视频、声音、图像、文字和人的感官结合起来,能够发现,图像和文字是需要用眼睛来看的,耳朵可以听到声音。
而视频则需要同时调动听觉和视觉这两种感觉。
也就是说,同等信息量的时候,视频需要调动两种感官的特性,让我们更易于去接收这些信息。而在同等时间的条件下,视频能够传递的信息量更多,信息密度更大,而人天然喜欢信息密度更大的东西。
从这个角度,我们再看互联网世界里,和信息相关的产品,我们就能逐渐探索出资讯类、听书类、视频类产品他们之间的本质差异,以及用户量一路飙升的短视频,为什么会让各巨头公司产生恐慌。
1.“感官象限”里的4个判断
通过互联网传播的信息,主要借助手机、电脑这样的终端设备,这类设备主要传递的是视频、声音、图像、文字信息,我们接收主要是通过视觉、听觉和部分触觉。
我们按感官系统进行划分:
视觉接收到文字、图像信息;
听觉接收到声音信息(语音、音乐、配音等);
触觉接收的大部分是由“振动”完成的(来电提示、触摸反馈等)。
由于目前对触觉的使用仅在提供反馈的层次,信息量远不及其他形式,我们把它放在后面单独来讲。
那么,我们以听觉系为X轴、视觉系为Y轴,建立二维直角坐标系。听觉系的两端为人的声音(以语言为主)、自然声音;视觉系的两端则是文字和图像。
这样我们就得到了四个象限,我将其命名为“感官象限”。
我们进一步将听觉系和视觉系细分,离O点越近的部分,是人类天生易于感知的,比如口语、口述的文字、肉眼所见等;越靠近坐标轴的顶端,代表理解难度越高、越需要后天学习的方式。
我们再将易于感知的部分向复杂的部分的过渡也进行划分。比如,听觉系在第一象限的划分方式就是口语、书面语、专业术语、第二语言,同理也对其他象限的坐标轴进行划分。
按这样的形式,我们可以把互联网中主要功能为信息传递的产品(以某个特定的产品来代表其类型的产品),填入感官象限中(为了区分产品需要的是单一感官和两种感官,我用 O’ 和 O’’ 将需要两种感官的象限重新作了划分)。
可以得出几个判断:
以视觉为主的产品,仅靠视觉就能完成信息传递。
以听觉为主的产品,多需要视觉对其信息内容进行补充。
前两点中有个很有趣的现象,就是以听觉为主的产品,需要视觉辅助,也就意味着这类产品在某些时候是需要两类感官同时参与的。而单独以视觉为主的产品,则几乎没有这样的情况。
比如同样都是传递知识的产品,在大家的心理感知上,知乎是用来“看”的,而得到是用来“听”的。看的时候视觉很容易疲劳,注意力分散跳出,听要比看的情况稍微好一些,但听的时候如果再看到对应的文字,就要比单纯听更容易抓住听的内容。
第三点中,多感官产品向单一感官产品过渡的这件事,怎么来理解呢?
比如贴吧这类以文字为主的社区,要想发展视频业务是很难的。但像爱奇艺这样的视频平台,做的泡泡社区很快就起来了,日活已经到了4500万,差不多是它总日活的1/4。
原因就在于:从多感官向单一感官转是很容易的,只需要减少调用的感官数量就好了;可反过来的话,增加的成本就很高了。
整体来说,印证了我之前提到的:从信息接收难易程度来看,视频类产品最容易被接受;其次是音频类产品,最后才是图像、文字类产品。
那么四个象限中的各个产品的位置是如何确定的?
2.离日常生活越近的信息越好
看似同类的产品,其实从人接收信息的角度看,其实差异很大:
越贴近人类日常生活的图像、文字、声音,越易于人类理解和接受。
比如直接的对话、肉眼所见的场景、自然界的各种声音。
当然也有些人的和这个会不太一样,比如对从小热爱器乐的孩子来说,乐器振动发出的声音可能更会让他有感触。
越远离人类日常生活的东西,越需要大脑的思考、后天的学习,相对来说是一个比较痛苦的过程。比如学英语的要比看电影痛苦的多。
人的天性是懒的,在不受场景制约的情况下,大部分人更愿意使用贴近自己生活的、能调动更多感官接收的信息产品,避免大脑思考。即更愿意看直播或短视频。
从接收信息的容易度上进行排序:第四象限>第一象限>第三象限>第二象限
在第一象限中,从微博类产品到 Github 类产品,属于文字类型的难度逐渐上升的结果,看的人会逐渐减少。
微信其实还是个主要以视觉传递信息的产品,但其语音功能的重要程度,让我把它放在了这个位置,且其语音消息占了总消息数的16%。社交产品的天然属性就是把线下面对面的场景搬到了线上,虽然还是略有差异,但在以文字为载体的情况下,已经是最自然的信息传递方式了。
最新的数据中,喜马拉雅活跃用户数为4000多万,而网易云的则为6700万,音乐类 App 活跃用户数最高的酷狗音乐为2.2亿,从数据上看好像有声书类的产品好像没有音乐类产品的用户数高,这和有声书产业发展的时间短有关。
长期来看,只要下沉做得好,有声书类产品的用户规模一定会超越音乐类产品。
第四现象中,首当其冲的是短视频和直播,这两类产品其实是在同一位置的,只不过直播近几年的发展越来越专业化、秀场化,让人很难有贴近身边的感觉。
短视频其实也有同样的问题,但同样的时长内,其信息密度更大,所以更受人喜爱。
长视频类的产品中,B站因丰富的弹幕、众多UGC的缘故,会让人觉得更亲近,但其主要做二次元的细分领域,所以整体的用户规模必然没有爱奇艺大。2017年B站的活跃用户数7000多万,而爱奇艺的则是4.21亿。
然后我们再第四象限的网易公开课和第一象限的得到来做个比较。
网易公开课在16年的时候移动端用户数为4300万,得到在18年的数据是2000万用户,因为发展的时长不同,很难做结论。但是从信息接收的难易程度来讲,网易公开课的用户规模就是要比得到高的。如果最后被得到超过了,肯定是因为网易公开课在内容水平上仅到达了及格线,而得到做到了120分。
第二、三象限中,我并没有找到太多合适的产品,可能大家都还在竞争更好做的一、四象限内的空间。有很多语言无法表述的信息,器乐、自然声音等方式传递会更合适,而且不受语言差异的限制,通过学歌曲的形式学会说另一种语言更容易,可能和这个也有关系。
从感官象限上来看,同样需要两个感官接收信息的情况下,离原点越远的产品,受众群体的总数就会越少。
如果再把“细分领域”作为第三个坐标轴,二维坐标系变为三维,原有产品的二维图标将变为一个个有厚度的小方块,这些小方块的厚度就是他们所处细分领域的总体用户规模。
所以,我们在借助感官象限对信息传递类产品做判断的时候,想知道该产品的赛道有多大,除了要看他们在感官象限内所处的位置,还要看各个产品“块”的体积大小。
也就意味着越是贴近人生活状态的、平台性质的产品,赛道越大,潜在用户数越多。比如现阶段的短视频、直播平台的产品。
那么,手机作为现阶段最广泛的信息传递载体,在视觉和听觉上信息传递效率或体验还有提升的空间么?
这个问题同等于,还有比短视频或直播更能贴近人们日常生活信息表现方式么?
当然有,想想看 IMAX 电影时候的感受。
三、3D声音提升视频体验
IMAX 电影把视觉和听觉都做了3D化,你看到的人物、建筑是立体的,听到的声音是有远近、左右的。这就和我们现实的感受更近了。
视觉的3D在手机这个尺寸的屏幕上其实并不能产生很好的体验,比如之前有段时间出现的裸眼3D手机无疾而终。
如果技术允许,降低3D声音的制作成本,将会为听觉系产品(音乐、听书、直播、短视频、长视频等)带来体验上的提升。
但3D声音的局限性在于需要耳机作为支持,而大部分手机用户其实是不用耳机的。但对于使用耳机的用户来说,在生活化的短视频和直播领域会有很独特的体验。
想象一下在刷短视频的时候,能听到小哥哥/小姐姐在你的左耳后说话,就会有一种这个人在你身后的感觉。
因为有了“身后”这样的位置信息,这就比原有的声音传递了更多的信息,提升了信息密度,让人有了更好的感官体验。
B站有类叫ASMR的直播节目,中文译称“自发性知觉经络反应”,俗称“颅内高潮”,是通过各类模拟音效缓解人的精神压力,其声音效果就可以模拟出有人在你身边的感觉。
其实聪明一点的读者能够发现:我提到的在视觉和听觉上的提升,VR(虚拟现实)做的就是这件事。
VR 当初引起资本的狂热也是这个原因,资本赌的并不是 VR 这个设备有多少价值,而是 VR 有可能革新信息传递的效率,与视频相比,VR 能够传递的信息密度更高、更容易让人类接受,只不过 VR 目前从体验到设备体积,都没有取代手机的优势。
所以最终不论是 VR、AR、或是 MR,谁能够让人类在同等条件下接受到更多的信息,调动更多的感官来接受,谁就能创造下一个时代。
相应的,届时整个内容产业也会因此作出调整,一定会有很多人涌入去做新的媒介平台。大家都爱谈媒介升级,现实是做媒介联合可能更为恰当。
就像如今的短视频,并不一定都要去做平台,短视频作为一种媒介形式,可以作为原有的图文形式的补充,大众点评可以做美食类短视频,豆瓣可以做电影类的,爱奇艺可以做爱豆类的。
所以未来出现新的媒介形式的时候,考虑清楚这种媒介形式和自己现有业务的关系,可能比直接冲进这个战场重要的多。
除了 VR ,我们再向前迈一步,未来的信息接收的载体还可能出现哪些变化?
四、更多维度的感官参与
回到文章最初提到的:信息虽然烦扰纷杂,但人类接收信息的感官是相同的。眼、耳、鼻、口、皮肤为我们提供了:视觉、听觉、嗅觉、味觉、触觉。
而手机主要是围绕视觉、听觉展开的,触觉在手机中主要是一种完成执行的方式,用电容笔就可以替代。
到 VR 设备中,触觉开始有了部分接收信息的功能,特别是在游戏的体验提升了一个台阶,也就是说,游戏借助 VR 的设备,有了更丰富的信息传递通道,可传递的信息密度也就更高,本质上提高了信息传递的效率。
所以未来的信息传递载体升级的方向,就是提升信息接收调动感官数量。在原有的视觉、听觉基础上增加味觉、嗅觉等。
味觉和嗅觉的增加貌似比较难,所以我猜测下一阶段的创新,更有可能出现在由皮肤接收信息的方向。
皮肤作为人身体最大的器官,能够提供的感觉至少有温觉、冷觉、湿觉、压觉、痛觉、触觉等六种感觉。
所以,接触到皮肤这一个器官,就能至少拥有六种不同的感知结果。
感官象限原有的二维坐标系中,每增加一种感觉,就意味着增加一个维度,变成三位、四维的坐标轴,当然这和空间的维度并非同一个概念。
更准确的说,这种感官维度的增加指的是,人类通过电子设备接收的信息,通过维度的不断增加,能够更加全面和立体地被感知,更加趋近于真实生活中接触信息的感受。
比如电影《头号玩家》里的主人公穿戴的 VR 设备,就覆盖了人的视觉、听觉、嗅觉、以及整个皮肤的各种感觉,整个场景创造出的真实感,让大部分人放弃了现实世界的生活。
到时候整个内容产品也依然可以按照感官象限的划分方法,去判断自己产品的位置或是选择合适的赛道。
五、人类信息接收的5个判断
人类文明发展万年,视频媒介传播百年,互联网产品出现数十年,未来媒介诞生在人们脑海里几载。从过去到未来,纵观全文,我一共作了5个判断:
多感官接收信息要比单一感官有绝对优势,映射在当下就是:视频>声音>图像>文字。
人天性是懒的,越贴近人类日常生活的图像、文字、声音,越易于人类理解和接受。即更愿意看直播或短视频。
以目前手机设备为载体的情况下,进一步的提升可能出现在声音的3D化方面。
未来能够替代手机的设备,一定有更高的信息传递效率,也就是能触达更多的感官,尽可能模拟现实生活中的场景。
内容产业可以依据“感官象限”去判断自己所在领域的赛道大小,并且随着信息传递效率更高的新技术出现,相应的去加入新的战场或是对自己的产品进行补充与完善。
在人类信息接收的这件事上,我一方面观察历史是如何演进的,为什么会出现这些变化,另一方面也思考现阶段的解决方案中,还有哪些不足,未来还有哪些发展的空间。
希望以上内容对大家在思考不同媒介间的差异,以及内容产品的发展方向上能有些许的灵感和启发。
同样也希望,这篇文章在10年后翻出来,仍然能在其当下找到回应。
本文参考:
杜君立.现代的历程[M].上海三联书店.2016
尤瓦尔·赫拉利.人类简史[M].中信出版集团.2017
陈悦天:从 B 站,到过去两年的内容产业投资大复盘[EB/OL].
http://36kr.com/p/5126216.html