据国外媒体报道,《连线》网站发表文章,对Facebook的开放图谱进行了深入介绍和探讨,以下为全文摘要:
Facebook首席执行官马克·扎克伯格(Mark Zuckerberg)说,Facebook跟亚马逊、苹果、谷歌、微软都不同,因为Facebook自己并不创建产品。它希望做的事情是改进别人创建的产品。
去年秋天,在Facebook推出“开放图谱(Open Graph)”之后,扎克伯格说:“如果苹果或谷歌要创建一个产品,它们通常都会亲自开发它……但是,我们想要让业界重新思考人们听音乐或看电影的方式……我们在人们的联系上建立了一个平台,而且我们让不同的公司连接到甚至不存在的东西上面,这些公司有数十家之多,规模有大有小。”
开放图谱拓展了Facebook Platform的使命
到今年5月24日, Facebook Platform诞生已经五周年了。Facebook Platform是一套工具,可以让外部公司和开发人员把自己创建的应用和网站连接到Facebook上。扎克伯格很早之前就已经指出,这个平台是Facebook未来的关键 —— 甚至从很大程度来说,是web未来的关键。他喜欢说的一句话是: “任何东西的社交版本几乎都可以变得比非社交版本更具吸引力,而且性能也更好。”五年过去了,这一观点已经得到了业界的认可 ——至少是得到了部分认可。
现在有900多万个网站和应用以某种方式和Facebook连接到了一起 ,一些网上服务借助Facebook平台达到了它们本来无法触及的高度,Zynga就是一个明显的例子。
但扎克伯格的期望并未局限于此。 随着 Facebook Platform进入它的第六个年头,该公司用“开放图谱”拓展了它的使命。开放图谱不是一个可视化的图表,也不是线图、条形图或饼图,而是一个数学术语:它是展示数据块之间的联系的方式。
一开始,Facebook建立了马克·扎克伯格所说的“社交图谱(social graph)”:一个展示其用户之间联系的数据模型。而开放图谱把这种模式扩展到了第三方服务上。这些第三方服务既包括在Facebook运行的应用,也包括独立的网站。
简单来说,开放图谱可以抓取Facebook用户在第三方服务上产生的各种信息,并将其返回到Facebook系统,这样你就可以跟Facebook朋友们共享这些信息了。扎克伯格说Facebook希望改变世界听音乐和看电影的方式就是这个意思。
利用开放图谱,数字音乐服务Spotify可以让你跟Facebook朋友分享你听音乐的习惯, Netflix可以让你分享你看的电影。你的网上行为小片段被传输到Facebook新闻流(Newsfeed)和你的时间轴(Timeline)上,并最终影响朋友们的习惯。
迈克·维纳尔(Mike Vernal )是Facebook开放图谱工程师团队的负责人,他说:“音乐从根本上说就是一种社交体验,你的朋友听什么会影响到你听什么。如果Facebook能让你根据朋友听的音乐来发现有趣的从系,那会真的很棒。”
语义Web和情景化
但是,开放图谱不仅仅是把个歌曲名字从一个地方搬移到另一个地方的方式,这只是迈向“语义Web”的一小步。在“语义Web”上,信息的结构化方式使信息更容易被外部服务分析、细化和重新使用。9亿多用户在Facebook上产生了这么多的数据 (不只是数据),Facebook无法把所有这些信息都传输到你的新闻源中。而开放图谱为应用开发者和网站开发者提供了一种把他们的数据结构化的方法,这样Facebook系统就可以很容易地使用它们,并且在需要的时候重新结构化和重新使用它们。
维纳尔说:“我们本来可以进行文本分析,但是我们决定建立一个框架,让开发人员可以告诉我们这种信息的结构,这样我们就能在新闻流和时间轴中对这种数据进行更有趣也更有吸引力的可视化处理了。”
总之,Facebook正在用一种跟组织和使用自己网站上的数据大致相同的方式,来努力组织和使用其他公司生成的数据。阿德里安·奥恩(Adrian Aoun)说, Facebook战胜了MySpace,是因为其数据的结构化方式给它提供了一些情景(context),Facebook的系统理解数据意味着什么—— 知道如何考虑到其他数据来处理它们。奥恩曾经在MySpace的母公司福克斯互动(Fox Interactive)工作过。
奥恩说,如果你把你公司的名字加入到你的个人资料中,它并不只是一段文字,它链接到一个页面上,这个页面又链接到所有其他为这个公司工作的人那里。其结果就是Facebook上的数据有更多含义。这些含义可以很容易地在新的情景中,在新的页面里凸显出来。
奥恩把开放图谱看成是这种机制的一个自然延伸。 “Facebook给你的数据提供了一些底层表达(underlying representation),它知道如果你有这样的基础数据你能给一个计算机接口提供多大的动力,”他说,“开放图谱要做的就是这个。”
但奥恩指出,Facebook必须说服开发人员格式化他们的数据。当开发人员这样做了之后,维纳尔和Facebook还面临着一项艰巨的任务。在创建开放图形的过程中,Facebook不仅给开发人员提供了一种结构化数据的方式和把数据传输到Facebook的 API(应用编程接口),它还在数据中心里创建了一个全新的系统,以便接收所有数据并最终决定你能看到哪些东西,看不到哪些东西。
开发人员可以从很多方面来自由定义他们传输到Facebook的结构化数据。但在那之后,就得由Facebook来决定如何使用这些数据了。
开放图谱的内部
Facebook存储两种基本类型的数据:对象和这些对象之间的关系。开放图谱则让这个模式扩展到了第三方网站和应用。维纳尔解释说:“我们有一个对象存储器(object store),用来存储像用户、活动、小组、照片这样的东西,然后我们有一个边存储器(edge store),用来存储对象之间的关系。”
“使用开放图谱时,我们在这些系统上建立一个层,让开发人员定义其对象看起来是什么样子,以及其边看起来是什么样,然后我们把这些第三方对象和边发布到用来存储所有第一方对象和边的基础设施上。”
关键在于对这些关系的分析——而且分析速度要快。 “我们尝试情景化(contextualize)你要找的东西,并考虑到你的社交圈子来进行这种情景化。奥巴马有3000万追随者,但如果你访问他的网页,我们会突出显示你的哪些朋友喜欢奥巴马。完成这个任务的时间是以毫秒为单位计算的。”
在开放图形系统中,他们的任务是在“外部应用和网站数据流”的山脉上跋涉,然后只给用户提供那些最相关的东西。该系统的运作分为两个阶段。首先,它要确定某种类型的数据对于Facebook整体受众来说会是多有趣。然后,它把这个整体评价作为一个起点,确定这个数据对你个人来说有多重要。
维纳尔说:“第一个问题是,从整体上来理解人们如何与这个内容互动,第二个问题是,试图理解对单个用户来说最有趣的主题是什么。如果你喜欢音乐,我们会给你显示更多的音乐。如果你喜欢游戏,我们就会显示给你更多的游戏。
“然后,我们把这两套分数结合到一起,以影响在新闻流上显示什么,在时间轴上显示什么,以及在其他一些系统上显示什么。”
当9亿用户使用Facebook时,当他们在这里或者那里点击对象时,维纳尔和他的团队就把这些行为记录在一个名为Scribe(一种专门用来记录大量数据的技术)的软件平台上。然后第二个平台(没有命名)对Scribe的数据进行即时分析,确定什么是人气最高的东西,什么是人气最低东西,给它们打分。这些分数则被储存在了基于Hbase(一个开源分布式数据库)的第三个系统中。
维纳尔说,数据从这套系统的一端移动到了另一端大约会花20至30秒的时间。系统每个小时可以处理大约10亿个行为。
然后,存储在Hbase中的分数被送到Facebook的新闻流和时间轴平台上,在那里——通过对你的个人行为进行类似的分析 ——它们被用来确定你看得到哪些开放图谱数据,看不到哪些。
Facebook的未来
目前,开放图谱是一个以Facebook为中心的技术。但至少在理论上,其他Web服务也可以用跟Facebook大致相同的方式来利用所有这些结构化的数据。Digg的工程总监威尔·拉森(Will Larson)表示:“人们把结构化数据汇集到Facebook上,利用这些数据的网站可能会形成一个网站生态系统,就好像Facebook是一个建立标准的机构,每个人都从他们建立的标准中受益。”Digg也使用了开放图谱。
对于有些人来说,这属于挑衅行为。拉森说,谷歌想要一个更加结构化的web,它不可能采用一个为Facebook的利益服务的技术。而且就像阿德里安·奥恩所指出的,当你把web作为一个整体来看时,使用开放图谱技术的网站数量仍然相对很少。奥恩和他的公司Wavii不想等着像开放图谱这样的东西变得成熟,于是他们创建了一个服务,希望用文本分析来进行Web数据结构化 —— 这正是Facebook当初不想做的事情。
维克鲁·尼加(vikrum Nijjar)也是开放图谱的使用者之一,他认为任何涉及“Facebook增进了语义Web“的讨论都是不成熟的。尼加说:“目前开放图谱是一个以Facebook为中心的技术,但是以后也可能会有所不同。”
与此同时,也有一些使用者表示,当把开放图谱数据传输到Facebook后,它们的流量获得了大幅提升。Goodreads是一个跟大家分享你的阅读习惯的网站,它说从今年1月它开始使用开放图谱以来,Goodreads从Facebook获得的印象(impression)数上升了至少800%。 Digg也表示,在去年12月到今年1月之间,它的页面浏览量增加了35%,这至少应该部分归功于开放图谱。
Facebook新闻源的空间就只有那么大一块地方,某些网站得到的好处肯定会比其他网站多。但是好处确实就摆在那里。马克·扎克伯格说那就是Facebook在做的事情。现在的问题是:最终它会有多有效。