标签,是大家耳熟能详的信息分类和标记机制,相信各位产品经理都用的烂熟。只不过,闲暇之余有没有深入思索一下标签这个不起眼的机制背后所蕴藏的磅礴宇宙观呢?今天,磊叔就带你们深入了解一下标签,再次以工资保证这是你在任何网站都看不到的全新解析和诠释标签的视角,是真是假,看完再做决断。
初来乍到:标签与分类的区别
先来点开胃菜,也是烂大街的理论,不过磊叔做了小小新的诠释。标签和分类的区别,相信大家知道的比磊叔多得多,不过下面这几个核心区别还是分享给大家:
标签是扁平的,分类是层级的
标签是精确的,分类是粗糙的
标签是多维的,分类是一维的
这里不是重点,不做过多解析,正文从以下开始:
本质:元数据
标签和分类的区别是大家喜闻乐见的,但是不够深度和震撼,我们深入一点点。
事实上,在数据领域,有一个鼎鼎大名的词汇与标签极其雷同,无论它的定义、它的适用范围,还是它的衍生应用都与标签令人惊讶的一致。
它就是:元数据。
元数据:用来描述数据的数据,是从数据中抽取出来用于说明其特征的数据,是结构化数据。
元数据是结构化数据。
元数据是可被搜索和精确定位的。
元数据可以附属在任意结构数据上。
元数据使得图片、文档、视频这些无法搜索内容的非结构化数据也可以被搜索和组织。
可是和我们要讲的标签有什么关系呢?
别急,如果把元数据的定义替换为标签,我们就能看到一个令人兴奋的进化:
标签,用来描述信息的数据,是从信息中抽取出来用于说明其特征的数据,是结构化数据。
很贴切、很精确、很完美的标签定义,不是吗?
索尼大法好:标签大法好
标签的元数据类比定义,有点意思,但是还不够深度和震撼,我们再深入一点点。下面对比元数据,磊叔给大家说道说道为什么“标签大法好”:
1、因为标签是结构化数据
标签常规型态下是一个普通的不能再普通的文本,文本一定是可以结构化的,也就是说标签是可以被结构化,可以被有效的存储、组织、管理、搜索和精确定位的。总之,结构化数据的特点和治理方式可以完美的套用到标签上。
2、因为标签是可被搜索和精确定位的
由于标签是结构化的,是可以在关系型数据库中有效的组织、存储和管理的,那么,它就一定能被搜索且被精确定位。也就是说,我们总是有很高效的办法来定位出每一个标签,这个很像X战警中的博士通过脑波定位全球的变种人一样。
这一点非常重要,结构化数据总是能够被高效的搜索和定位,这样就让标签数量可以无后顾之忧的爆发性增长。而随着标签数量的不断增长,标签能够越加精确的去描述信息,让信息本身也越加的可被精确定位和搜索,这是一个双赢的结果。
3、因为标签可用于各种数据结构上
虽然标签本身是结构化的,但标签本身并不局限于只能描述结构化的数据。
事实上,标签用以描述的信息是普适性的,也就是标签可以应用于任意数据结构,比如常规的文本、图片、视频、音频、超链接、甚至一些更抽象的信息,例如某种哲学思想,某种行为方式或者某种心智模式等。
回想一下,如果我们要描述一段视频,以前是怎么做的呢?无外乎:
给视频加一个文件名
给视频加一个标题
给视频加一段描述
管用吗?管用,但是不特别管用。因为关键的特征信息都隐藏在大段的文字当中难以识别。这时,标签自身的精确性和灵活性就派上用场了,“啪啪啪”的几个标签加持,视频的各种关键信息就显露无疑的展示出来。
4、因为标签可以使原本无法描述、搜索和定位的数据也可以被描述、搜索和定位
这个特性简直就是标签的黑科技,如果把标签比作天火,数据比作擎天柱,那么给数据加上标签,也就等于给擎天柱附加了天火的飞行引擎。
拿上面视频这个冤大头举例子。众所周知,视频这种非结构化数据不仅存储起来头疼,搜索起来更头疼。因为非结构化数据很难被搜索和精确定位。而上述的给视频增加文件名、标题甚至大段描述文字的效果依然很差,因为这种描述是宏观的和整体的,不是具体和精准的。
比如,我想搜索视频中的指定时间的内容呢?例如我想搜索梁朝伟和张国荣接吻在影片中的时间,懵逼了吧。
没问题,标签也能帮到你。
这个不是异想天开,百度就已经开始研发针对视频的每一帧来打标签的技术,而最能让群众接受和喜闻乐见的针对视频内容或者视频帧的标签,就是你们一直用的:弹幕
难道不是吗?
标签和权重
标签的元数据类比定义,各种热热闹闹的优点,都算有点意思,但是依然还不够深度和震撼,我们继续深入一点点。
本质上,标签就是一堆对等的特征信息。能理解不?不理解也没关系,磊叔举个说人话的例子就明白了。
假设我们系统中有几个关于地区的标签,比如说广州、北京、上海、深圳、曲麻莱县(我打赌你不知道这个地方在哪里),本质上这几个地域名称并无二致,完全一样,是对等的。但当我们给某些信息打上这些标签时,其实我们潜意识是有一个预期和判断的,大致就是一线城市和十线县城赋予信息的重要程度是完全不一样的,即信息被打上广州和被打上曲麻莱县其实是具有完全不同的含义,那么也就是说:标签是有权重的
标签的这个特性彻底颠覆了本质上人人平等的标签对等性,开始为标签引入阶级的权重。这种进化,大概等同于人类从原始社会一跃而入封建社会,而且是发达的封建社会。
有了权重,标签就有了分级
有了权重,标签就有了优先级
有了权重,标签可以满足个性需求
终极形态:信息图谱
标签的元数据类比定义,各种热热闹闹的优点,还有了进化后的权重属性,这下有点意思了,但是远未够深度和震撼,我们现在深入到底!
标签直观的感受和使用,大概就是知乎的话题、豆瓣的标签等等,不仅可以标识出信息的特征,还能查看与该标签相关的其他信息。这里磊叔要重复三遍:
信息图谱
爆点来了:标签除了可以标记信息的特征,还能建立起信息的关联。
说人话就是,通过标签可以将信息之间建立某种联系,最终将海量信息建立起相互关联的信息网,也就是通过标签可以建立起信息图谱。
信息图谱,是指信息与信息之间的联系,通过网状图的形式展示信息与信息之间的关联程度。
信息图谱有两个关键要素,一个是信息本身,一个是信息与信息之间的关联关系。很明显,标签就是确立信息与信息之间关联关系的的重要因素。信息与信息之间通过标签建立联系后:
信息与信息之间即建立起双向的联系(只要我能找到你,你就可以找到我;光路可逆)
更多的标签会让更多的信息关联和组织在一起(我关联着你们,你关联着我们;信息网)
同一个标签可以关联跨类型的信息(能从苹果手机通过苹果关联到巴博萨啃得多汁苹果)
以上是全文内容,以下是彩蛋,略晦涩,略逼格:
任何信息系统,无论你看的网易新闻、听的虾米音乐、看的豆瓣书籍、撸的羞羞电影,其本质是一个有限的无限系统,即我们在任何确切的时刻去考察任意信息系统,其蕴含的信息数量总是可以被确切描述的。简单点说就是任何信息系统,在你高兴的任何时间去数它的信息数量,一定是可以数清楚的。
在这个前提下,有一个数学领域的理论,一个仍然未被证实的理论就会发生巨大的作用:
Six Degrees of Separation,六度分隔,六度人脉
在网状的人类社会中,任何人与任何人最多通过五个中间人即能建立联系。本质上,任何两个素不相识的人,通过有限的联系,总能够产生必然关系。也就是说,你可以在有限的联系中认识地球上所有的人。
翻译过来就是:
在网状的信息系统中,任何信息与任何信息最多通过五个中间信息即能建立联系。本质上,任何两个毫无关系的信息,通过有限的联系,总能产生必然关系。也就是说,你可以在有限的联系中浏览到信息系统中所有的信息。
既然六度人脉依然是数学猜想,那么六度标签也是磊叔的猜想,周末愉快~