五年前我加入了Airbnb,成为公司第一位数据科学家。
当时人们连公司的名字都不会发音,如果不算正在接受心理咨询的哥们儿,实习生,旁边咖啡店里的咖啡师,团队只有大约七个人。我们的公司就在创始人在SOMA的公寓旁。工作环境也十分简陋。
当时大数据的狂热还未开始,人们仅仅认为数据会带来一定的竞争优势。通常情况下人们会在公司成熟以后建立自己的数据团队。而我们的创始人非常具有前瞻性,邀请我作为数据科学家在公司成立初期就迫不及待地着手筹建自己的数据团队,并通过数据驱动不断学习和迭代产品。深深地被公司的文化和愿景吸引,在公司运营数据少的可怜的情况下,我决定加入。
在硅谷流传着一句非常罗曼蒂克的话,准确决策和快速行动会让任何小的创意成为大的变革。我对此深信不疑。当时我们并不非常了解Airbnb的业务,任何洞察都十分有创造力。数据架构效率高,运行稳定并且可以做到数据的实时处理(我当时用MySQL对我的产品数据进行检索。由于公司很小,每个人都能了解公司的各个决定。数据团队(我自己)着手处理一些单一维度的指标,方法论也相对初级。
五年之间我们经历了430倍的增长,事物也越来越复杂了。
我很开心我的团队能利用数据处理更复杂的问题。我们迅速将这些方法论与经验规模化,这些给我们带来过增长奇迹的经验帮助我们更自如的面对现在出现的问题。
随着公司的成长,我们有必要将遇到的具体问题和概括性问题进行配对,借此总结一套解决问题的方法论。
如何建立以数据科学为中心支撑公司不同部门业务的商业模式呢?
我们可以分成三块来看:
首先,如何针对不同部门的业务特点建立不同部门的数据科学,
其次,如何将数据科学应用到商业决策,
最后,如何将数据科学规模化以便于支持Airbnb业务的方方面面。
我不敢说,Airbnb的方方面面是完美的,但是我们的工作一直保持着创业早期的激情。
一、数据不是数字,它代表客户心声
数据科学在Airbnb存在的基石是公司无处不在的数据文化,你会在公司的各个领域感受到数据的存在。我们对数据重要性的认可是数据科学能在公司生根发芽的前提。
在过去数据并不受重视,仅仅被认为是用来衡量问题的工具而已。给人的感觉是数据科学家就像(星际迷航中的)Spock博士,仅仅用来根据需求呈现统计数据结果而已。举个例子,数据科学家(在过去)仅仅用来回答问题诸如我们在巴黎有多少房源?意大利最受欢迎的10大景点是哪些?
虽然回答简单的数据问题和用数据对问题进行衡量确实是数据科学家的工作之一,但是在Airbnb我们将数据赋予了更多人文色彩:数据是顾客的呼声。一行数据代表一个动作或者一个事件。这些数据在大多数情况下反应的是一名客户的决定。如果你能复现导致决策产生的一系列事件,你就能从这个过程中有所收获。这个过程本质上是通过一种间接的方式来告诉我们客户喜欢什么讨厌什么。程序化的复现并且通过监控获取一组客户行为以及客户使用的功能,比独立的单个的统计哪些功能重要哪些功能不重要好得多。
通过程序化复现收集客户信息对于商业决策有重要意义,如果我们能很好的分析,那么对于社区增长,产品研发,资源优化的意义简直就像我们发现了金矿。其实数据科学就把客户的呼声用数据的语言去表示,毕竟数据呈现商业问题更简约,更方便于商业决策。
倾听客户的声音是我们公司的核心文化,这个想法也得到了Airbnb所有人的认同。自从创业初期,我们团队就市场与我们的社区成员互动,我们想更好的了解他们,设计出更好的产品来满足他们的需求。我们现在依旧与他们互动,但是现在社区的规模已经无法让我们轻松地与他们互动了。
因此数据成了我们最好的伙伴。我们用统计学的方法,去了解每一位客户,并将他们产生的数据汇集起来形成整体去挖掘趋势。正是对这些趋势的掌控,我们能够更好的去推进Airbnb的业务。随着时间的变化,我们其他团队的伙伴也逐步了解了数据团队不是(星际迷航)的瓦肯人(信仰严谨的逻辑和推理、去除情感的干扰闻名)。数据团队呈现着客户的想法和呼声。正是这个改变,为数据科学在Airbnb结构与职能的改变铺平了道路。
二、主动出击与被动统计收集
一个优秀的数据科学家可以读懂客户在使用我们产品时的心声。当然如果仅仅挖掘出问题而没有人去行动的话,没有任何意义。
我们认为区分好与优秀的重要标准是影响力-通过(数据分析得到的)洞察去影响决策并且确保决策产生真正的效果。这看起来是再平常不过的事儿了,但是它却不会自然而然的发生。紧张的工作总让数据科学家感到时间不够用,往往顾此失彼,有时候他们就把问题束之高阁去看别的问题了。这并不是因为他们不想去思考这些问题,而是有时候他们感到并不值得:往往他们花费巨大的人力和时间去理解数据,保证统计方法的严谨,确保统计结果解读的准确性。做这么多东西常常让他们感到这不过是锁碎的问题总结,被动地回应一些需求。他们感到这不会对公司未来产生什么影响。
但是如果决策者不能解读这些数据洞察,那么他们肯定不会依据这些洞察采取行动。当然如果没有采取行动,我们所做的分析也就没了意义。因此数据科学家和决策者应该建立更加紧密的合作关系。在一些情况下,这是很自然的事儿。比如说当我们开发数据项目。在Airbnb,多部门的合作机制也让数据团队在整个组织架构下有了新的呈现方式。
是否将数据科学团队当作一个整体中心化,还是将团队分散到不同职能部门中?这样的讨论很多,但是我现在不想关注这一点。我想说的是在Airbnb, 我们将这两种方式融合到了一起。
我们最开始是用的中心化方式,因为这样所有团队成员可以近距离的相互学习并且大家有一致的经验,目标和方法论。我们最终的目的是商业决定,而采取中心化模式有时候不能成功。其他团队有时候不清楚如何与我们互动,而数据科学团队有时因为信息的缺失而不知道自己要去解决什么问题或者使问题解决方法具有实操性。慢慢地,数据团队成了资源,别的团队有需求时候才会有回应。我们被动回应统计需求而不是主动去发现新的机遇。
正因如此,我们我们对团队架构进行了改组。将中心化模型逐步改为混合式。我们依然遵从中心模型,所有的数据科学家在近日Airbnb初期隶属数据团队,然后我们将数据团队在划分为几个小型团队,不同团队和工程,设计,产品经理,市场联系各自建立紧密关系。
这种变革加速了数据文化在公司的传播,同时也让数据科学家从传统的数据统计收集者转向主动发现问题的合作者。正因为我们并没有将数据团队全部分散到不同部门,我们可以很好的去观察业务的方方面面,我们可以建立一套像神经网络式的结构来帮助Airbnb不同部门彼此学习。
三、客户驱动的决策
构建一套数据职能体系可以让公司充分感受到数据科学带来的变化。当然这只是部分而已。一旦分析决策能够顺利落地,我们下一个要考虑的问题是以什么样的方法在什么样的时间发挥社区的呼声对于商业决策的影响力。
虽然数据团队和公司的方方面面建立了合作关系,在将数据与项目结合方面,我们依然受到很多观点的挑战。一些人仅仅是有兴趣,只是想用数据着手了解他们遇到的问题。另一些人将数据看作一种过去事件的总结,认为这对未来规划意义不大,不过有趣的是他们会更加关注衡量一些(他们所做出但)感性决定的效果。
这两种观点很公平。完全的数据驱动可以进行局部优化;然而全局优化却需要不断的对整个系统进行改革。那么数据在项目的何时开始发挥作用呢?
我们认为不同的数据科学元素能使以下四步决策过程受益:
我们首先要了解问题的背景,将过去的研究进行汇总,以此来发现一些可能的机会。这是一个探索的过程,以此来抓住机会和提出一些假设,这些假设能够提供给我们一些落地的洞察。
我们将这些汇总转化成计划,这些计划包括排优我们想要利用的一些杠杆,形成一些假设去分析我们所做工作的影响力。预测分析的方法在这个阶段会比较适合,因为在这个阶段我们必须做出一些决定:诸如我们应该遵从何种路线,当然我们希望我们所找的这条路线是会产生最大的影响力的那一条。
计划完成后,我们需要设计对照实验来检测我们的计划。A/Btest很常见,但是因为Airbnb可以整合公司所有业务资源,这样我们不但可以将实验应用的更加广泛,(比如说以市场为基础的运营测试。)还可以在更加传统的线上环境中进行试验。
最后,我们衡量试验的结果,挖掘出我们的工作和工作所产生的影响力。
有时候决策过程非常简单,比如我们设计一款手机应用并不需要太多的前期总结。但是我们一直遵循这一套行事方法,我们发现每个人在Airbnb的影响力也就越来越大。毕竟我们这一套步骤使我们将目光集中在解决社区(客户)大问题上。
四、数据科学的民主化
如果我们有足够的数据科学家储备,那上面的模型非常好。但是初创公司快速增长,做决策频率也大幅增长,这种增长速度要远大于数据团队扩增速度。
2011年Airbnb 迅速全球扩张,这一点体现点更加明显了。2011年初期,我们只是一个在三番的小公司,只有三个科学家(当然我们团队十分高效)。
六个月以后,我们在全球新扩张了10个新的办公室。与此同时我们的的产品,市场营销,客户支持团队也扩张十分迅速。而这也导致了数据科学团队与其他员工的合作效果大幅降低。
我们无法满足社区成员的需求,与其他成员的交流也变的十分困难。我们需要找到一种方法去让工作民主化,将个体交流扩大为团队交流,公司交流,和社区交流。
通过对数据科技的不断投资,我们让民主决策成为现实。我来给大家分享几个不同阶段数据科学民主化的例子。
如果数据科学家使用的工具更加强大迅速,那么(公司内的)个人交流就会更有效。数据基础层面的建设是重要的杠杆。这可以使我们通过更先进更可靠的技术去处理迅猛增长的数据。让ETL过程更稳定也非常有价值,例如我们研发的Airflow系统。
让团队获得更多的权利意味着给数据科学家们移除一些负担,比如说简单的报表和基本的数据查探之类的工作就没必要让数据科学家们来做了,这样他们就可以关注更重要的事情。看板是一个通常的解决问题的方法。我们也研发了更好的工具AirPal,一个让人们检索更稳健,更直观的数据仓库。
在小型团队中我们经常做一些技能型工作,除了这些以外,我们以培养数据文化为己任。从大的方面来说,我们培养人们思考公司的数据生态系统,具体一些我们对一些数据工具如AirPal 进行培训。一旦人们能够使用这些工具,他们就能由着自己的好奇心进行探索数据了。和授权团队一样,这也我们就不会陷入处理日常统计需求的烦恼之中了。
数据科学规模化最广泛的一个例子是让房客和房主能够直接了解彼此。通过我们的数据产品,将机器学习的模型应用于解读从一个社区成员发出的信号,然后借此去帮助其他成员。地点相关性模型也是一个例子,不过这个模型在公司其他团队对这个问题的探究越来也越常见。我们也已经研发了新的工具去使用和理解这些模型。
规模化数据科学团队在一家极速增长的公司并不容易。如果公司每个人认为数据科学是公司的基本部分而不是锦上添花的部分。那这就可以发生。
五、数据驱动的机遇和挑战
这五年,我们学到了很多。我们提升使用数据去解决问题的能力。我们与决策者的交流也越来越好,于此同时我们还把数据分析的思维向全公司推广。但是我们所做的这些工作到底有多成功呢?
衡量数据科学团队的作用和影响力并不是一件容易事儿,但是所有人都认为技术背景的人和业务人员都应该去用数据支持他们的决策。数据科学家团队在决策过程中起到了咨询师的作用。现在我们和决策者共同决策,并不是被动的收集需求。
数据科学团队的另一个影响是我们深入挖掘我们所做工作的所带来的影响。做这件事情其实比想象的还要复杂,因为Airbnb的数据生态系统非常复杂。市场供需平衡会收到网络影响,季节性很很强波动较大,交易周期也具有不确定性,时间范围也很长。当然这些挑战儿让我们更加兴奋。虽然我们取得了不少成绩,但是我们的潜力还没有被挖掘出很多。
现在我们数据底层很稳定,工具功能强大,而且数据仓库构建清晰可依靠。而且我们也有了更大目标,去解决更多问题。首先我们要将数据的批次分析提升为数据的实时分析。建立一套更强健有力的数据库异常侦查系统。更深入地去了解网络影响,增强我们对房东房客配比和个性化需求的理解。
当然这些想法只是开始。我们知道数据是客户的心声。客户会将我们指引到他们想要到达的地方。