作者从数据中台的发展谈到数据后台和策略中台的的概念,探讨了数据中台的算法和相关逻辑,并对数据中台的发展给出了自己的思考与建议。
我们是一直在零售的大数据分析这个领域深耕的一家初创公司,有四年左右的时间,我之前是一直在国内外的零售大数据分析公司,服务海外和国内的零售企业。
今天大家对于数据中台的概念有各自的理解和认知,但这个最早是阿里提出来的,他是参访美国海军的大后台,小前台,发现中间缺少一个可以支持到前端的炮火的灵活性的中台,所以提出了这样的一个概念。
但是对于零售商来说,数据中台到底是一个什么东西?我们应不应该去建设它?如何去建设?如何去应用?以及这样的零售数据中台建设中有哪些需要去注意的点?
目前在市场上,主要是大的一些电商平台,还有像苏宁等一些比较大型的零售企业,他们在做数据中台上的一些实践,供我们做一些初步的参考。
数据中台,它是一个偏技术性的平台,它最初的概念,类似于数据的仓库,现在又提到这个数据中台的概念。
01:
从目前对数据中台主流有两种理解:一种是坚持分技术的数据中台,还有一种是技术加应用的数据中台。
从我了解来看,目前市场上大家听到的,更多主要都是偏向底层的技术类的数据平台,离应用还是比较的远。阿里这边做的已经成熟。
但是现在大家都在思考这个问题,很大的一个原因就是如何用数据来赋能业务。所以光有纯技术层面上的一个汇集,和中台的建设是没有办法真正的满足到大家对于一个公司战略发展更长远的数据驱动业务。
我想说的意思是说,我们强调的是数据后台加前台应用,而不是数据中台的概念,其实就是希望数据中台不单单是一个技术类的平台,它更多的是要走到前面去,能够支持到业务的前台。
在我们看来,一个数据后台,一个决策的中台,然后再加上一个业务前台这样的一个组合,是更符合现在零售企业的实际需求。所以我提出的一个概念是策略中台,而不单单是说所谓的数据平台,数据更多的是在后面,我们把零售企业内部的各种数据源有机的组合、治理、清洗,甚至建模,这些都在后台完成,包括一些有效的外部数据能够整合进来。
在这些数据后台的基础之上,上层我们要搭的是一个策略的中台,这个策略的中台,他能够去负责我们业务的前台。
这个策略中台很大一个程度上是目前我们非常缺的一块,它真正是一个核心的组建,核心的一层,它能够去非常好的支持到零售企业各个部门、各个业务场景。更多的能够去紧密的贴合业务前台当中不同的应用场景,用数据和算法支撑策略中台。
所以这个策略中台可以理解的话叫做BT的平台,它是吃了数据后台的数据,然后通过算法和模型结合非常明确的前台业务场景,所搭建的一层中台。
我举一个非常具体的业务场景,来解释一下这个层怎么从数据后台到策略中台,再到最上层的应用场景的前台业务的闭环。就拿促销这件事情来说,我相信不管是任何规模的零售企业,促销都是大家去做的一件事情。整个促销的业务闭环当中,有几个关键的业务决策场景。
第一个就是营销的规划,我到底怎么来做?我促销的品类,一年26档或者30档促销的规划。
第二个是促销的选品。促销规划完了之后,具体的某一个时间段档期或者是一个具体的时间段,我要去做促销的选品,我怎么来选择商品?是供应商推荐的,我自己采购提报的,依据是什么?
第三个是促销的定价,我选定了比如说200支商品,要去做促销,我200商品,怎么确定合理的价格,合理的机制?很重要的一个点,我要去做促销的备货,200个商品,到底每一个店都应该备多少货,这里又是一个单单靠经验和传统的补货公式很难去完成的。
中间还有一个促销执行过程当中的监测,最后就是促销的评估。所以总的来看会有促销规划,选品、促销定价,然后再有促销的预测,最后还有一个促销的评估,这样的4到5个环节关键的决策点组成。
首先要做成整套闭环的话,要做到在这4到5个促销场景下的一个数据驱动,需要得到所有历史促销的数据和所有订单的数据,还有需要所有会员的销售数据,还有一部分的库存数据,至少是这些数据源基础,能够完成促销场景的技术闭环的数据基础。
这些数据都会放到数据后台当中,做我们内部数据,按照既定的数据格式和数据标准放进去,除了内部数据之外,还需要融入一部分的外部数据。比如说天气的数据,当我们在对促销做销量预测背后的时候,天气肯定是一个非常重要的影响因素。还有一些是外部的一些POI的数据,也就是你的竞争信息,这些外部数据也需要容纳到你的数据后台里去。
当这些你所满足某一个特定业务场景所需要的数据,能够放到数据后台中去之后,在策略中台这一层,是去等于说调用这些数据后台的数据,基于机器学习和人工智能算法和或者是一些在数据后台已经打上了一些商品和会员的标签,你可以对于促销的核心决策情景去进行直接的推荐和建议。
从这个角度,我可能不同的部门,在做规划的时候,规划部或者市场部可以各取所需,选品的时候采购来进行选择,通过选品里面的一些商品的标签,包括促销品的预测、预期的销量、包括价格因素,进行智能的选品,包括一些基于标签所产生的策略。
再往后走的话就是备货、备完之后给到店运营端来定,最后再去做促销,在这里业务前台就是要去和我们具体的前端展现结合起来。
所以在前台的部分,有了好的策略,已经基于数据选出了很多比人工和经验判断更准的商品,更合理的价格,更合适的备货,怎么样去跟顾客触达,就有很多前台的业务场景点、触点去用。不管是通过H5和小程序,未来在线下各种屏幕和硬件的露出,也能够给到更多的、更吸引人的内容展现形式。
策略中台的其中一层可以是这种用标签,用销量预测,用价格弹性等一些算法去帮助我们进行选品、定价和促销的预测之外,还有一个很核心的算法,就是我选出来这200支促销商品之后,怎么样去对顾客进行个性化的推荐,这里又涉及到个性化推荐算法。
我不会把200个商品、甚至500支商品全部推荐给每一个消费者,所以我们会基于这200或者500的商品去进行个性化推荐。在这样的一种情况下,我们通过数字化的手段是完全可以跟电商一样进行对促销的个性化推荐,不管是券还是商品还是其他的内容,都可以进行这样的个性化展现。进一步的把我们促销的资源,对于每一个会员相关性提高。我们就完成了促销场景下的从数据后台到策略平台,再到业务前台的这样的一个相对完整的闭环,这个闭环是一个环形的链路。
在我们零售的产品当中有很多的环形链路组成,每一个环形链路加总起来就会形成一个链式的链路。未来整个零售的数字化进程,到最后就是在我们几个零售的核心业务场景,包括促销闭环,包括会员运营的闭环,包括商品的闭环等一系列闭环,形成一个链式反应,最终才能够形成从粗放式到集约式发展,整个精细化管理的路径才有可能。
用促销这个场景举了一个例子来阐述如何从数据后台到策略中台,再到业务前台从下至上的业务场景闭环。
在我们的零售场景当中,核心的业务场景有很多,促销只是其中的一环,然后商品的环路是一个,可能未来有会员环路等。
只有从这样的一个链式反应当中,并且中间是以消费者和会员作为核心的算法驱动,我们才能够真正的实现以消费者为中心在运营,不管是我们的品类决策、选址或者价格决策,促销决策都应该按照这样的一个闭环来形成。
现在观察到的情况是,数据后台做纯技术的非常多,做中间这一层的非常少,做上面那层的也非常多。
中间策略这一层也就是DT这一层,它能够完美的去衔接数据源和业务前台的部分,这块的技术含量也要求非常高,它不但要求技术,而且要求对业务的理解要深,还需要有很强的算法和数据,懂业务、懂场景的算法科学家来支持,才有可能把这些策略能算得好、算的准。
甚至一开始的时候也许是不准的,是在一个过程中去迭代的,不断的去升级,不断的去完善数据后台里的数据的维度,数据的准确性,才有可能把这套体系完整的搭建起来。
02:
接下来从整个架构当中三个层面去展开,比较详详细的讲一下数据后台和策略中台。
最核心的就是两块,一块就是数据的就采集和治理,一块就是数据的架构。
数据的采集和治理是一个非常重、脏的活,说实话,因为要从零售商内部的各种离散的系统,不管是我的CRM的CRP我的ws等内部的各种纷繁复杂系统里面去抽取,未来对于业务、对于管理、对于财务等各方应用场景所需要的数据源,是一件非常复杂的事情,很细很琐碎。
还包括要考虑到的基于未来的业务发展战略,数据战略怎么去形成和外部数据源的一些合作和打通,这里面还涉及到跟外部数据的合作,所以这个又涉及到数据战略,整个的数据采集、数据架构其实是相对来说有更多技术含量的事情。
大家知道现在的数据,所谓大数据,数据源有结构化,有非计划数据,有各种数据处理的技术也是层出不穷,有处理这种结构化数据比较好的,要处理一些实时性数据比较强的技术。
这些梳理不同类型的数据,都会有不同的数据处理组合来处理,也需要有不同的数据架构和技术来支撑。
数据架构又有数据存储和数据计算这两块。一般来说存储对于一些性能的要求相对比较低,计算我们还是要跟整个业务场景来进行设计,所以这一块可能更偏向于比较技术化的话题,我就不具体展开讲了,这个部分需要比较非常专业的大数据工程师。
他属于架构师和业务专家通力合作,才有可能把这样的数据后台搭的比较好,否则就会出现大量的数据质量问题,或者说数据计算效率不高。
策略中台也是目前市场上极度稀缺,但是极其有价值,这个价值很大程度上可能会被大家低估。
举个最常见的场景就是销量预测。其实销量预测我认为是零售的终极话题,很多的需求,归根到底就是销量预测。
这个商品,他到底大概能卖多少件?不同的门店能卖多少钱?不同的时间得卖多少斤,郊区的卖多少钱,我按不同的价格,我能卖多少斤,其实都是销量问题。在这个问题上面,我们之前也就开始做了大概有差不多十年的时间,在和一些零售企业做销量预测探索。的确是一个业界最复杂的难题,而且一般人在外面可能测也有点测不出。
这取决于几个关键的要素,第一个是数据源,销量预测决定准不准的主要因素就是你的数据源够不够全,这也是制约现在销量预测在市场上,能够达到大家所认为的非常核心的障碍,但是我相信这个答案是能够随着时间可以逐步被解决的。
第二个就是算力的问题。以前在包括分布式架构,云计算这些技术还没有完全普及,在这个体系下,算力一直是销量预测当中一个比较核心的瓶颈。现在这一块已经逐渐的随着架构的完善,核算率的大幅提升和成本的大幅的降低,算力已经逐渐的不再是一个技术上的瓶颈了。
第三就是你的算法模型。这个也是在不断的迭代和引进的,销量预测有一些经典的模型,大家常见的一些序列,差距不大,趋势波动等。有各种模型或者模型的组合,可以去对不同类型的商品进行销量的预测。
整个的销量预测,如果你能完美解决数据源算力和模型的迭代,你的销量预测一定的准确度会逐步提升的。
我举个例子:现在大部分所合作的伙伴,平均的销量预测准确率大概是在百分之60。平均来看所有品类,有些品类肯定会高一点,高动销的产品很高。其实还远远达不到80%以上,特别品类肯定是这个差更明显,而且不同的时间也会有很大的差异。
我们目前所看到的,如果能够应用起来这样的一些内外部的数据源,因为以前我刚说60%主要还是基于现有的erp系统的模型所计算的。误差还是相对比较大的。我们也做了大量的落地和实战,总的平均水平大概可以减少实际销量和预测销量之间的差,可以减少20个百分点。
随着一些AI视觉识别的技术发展期,可以进一步获得更多的陈列排面等一些以往在门店里面很难采集到的数据。这些数据有了之后,再加入到这个模型里的话,会进一步的降低销量预测的差率,进一步去和ERP打通,或者是取消ERP,进一步的让整个捕获情景能够有一个更高的效率。本质上就是降低我的库存周转,然后降低我的库存积压,减少缺货两件事情之间作一个平衡,所以预测是个很大的话题。
在未来不管是哪一种类型的零售,预测都是一个可以探讨的话题。目前还没有深入去基于社交零售的产品销量预测,但是我们在思考一些案例,有一些这方面的一些探索,所以它是一个终极话题,针对不同类型的零售,是最终的本质。
整个策略中台里面除了销量预测,还有一系列的核心可以基于高级的算法,复杂的人工智能算法去驱动关键的策略场景,比如说定价,这也是一个非常核心的决策要素。定价又非常复杂,又分成日常定价,促销定价,生鲜定价,还有一些清仓的定价等等。
定价里面还涉及到促销的机制。这些都是有大量的工作可以去通过这样的一些算法去帮助我们把日常大家可能是通过一些比较简单的逻辑,或者商业逻辑来进行的价格的定义,变得更加的科学性。
这里面一定是人机结合的,比如说我推荐500个商品的价格策略,你可能会接受里面的200个,另外300个还是按照自己人工的经验,因为目前算法是没有办法100%准确的,这是不可能的事情,但是我们也不能忽略它长期的迭代和价值的创造。
03:
另外一个核心的场景,就是商品的陈列和陈列逻辑、顾客的决策树,这跟品类管理相关,也是一个非常重要的策略性基于算法来指导和支持前台业务动作当中品类管理和品类调整。
这里面也是可以基于大数据,还有一些饥饿策略分类聚类的算法,指导不同的品类采购,去联合供应商一起来进行大数据的分析,通过分析商品之间的关联性和替代性,帮助决定到底每个品类陈列的逻辑和场内的决策树是怎么样的。
还有就是个性化推荐,这个是非常成熟的机器学习的应用了。亚马逊通过个性化推荐,是它的一个核心的技术引擎,创造了大量的销售和用户的忠诚度,国内的互联网公司也都在这块投入巨大。
所以策略中台里面非常核心的业务场景,简单来总结一下,就是在整个策略平台上,对于零售最相关的、对商场来说可能最有用的、最有价值的几个核心的策略,策略中台里的输出的是销量预测,智能定价,个性化推荐的算法,还有品类管理里面的算法,他们共同形成的策略平台,就可以覆盖到我们零售当中的主要场景。
从上品到促销到备货,到会员的忠诚度管理,形成一个相对比较完整的从前到后的的一个策略平台的支撑。整个业务前台一定也是要跟整个策略中台紧密关联的。
最重要的是这个事情要一个一个的点开始,任何企业他很难上来就把整套东西完全用上,马上出效果,这个是不现实的。整个的数字化引进,是一个螺旋上升的过程,从整个技术搭建到运营,让内部的组织能够用起来,然后再到后续的迭代,包括流程上,还有算法上的迭代,都有一个相对比较长的过程。
千万不要想有一些场景,可以有比较明显的短期效果。特别是在促销这一块,整个环节很难完全百分之百。因为你要做很多归因的分析,才能看到,整个的评估效果,是现在大家普遍欠缺的。
要有一个长线的思维,整个数字化中台,不管他叫什么,他要做中台到最后我们都是希望用一个数字化的手段来驱动我们的业务。这件事情它是一个长期的系统化的工程。
我们和一些客户合作了两三年,稍微长一点的两三年甚至三年左右的,就是从这样的顺序,从前往后走的,从前面的偏会员和促销的场景,慢慢的开始往中间的货架空间运营,再往后面销量预测供应链。
从前往后来走,从见效的方式来说是比较好的。特别是大家现在都想做品类管理,要做商品选品,如果前面的事情不做好的话,走到这一步是挺难的。一是他需要数据,需要市场数据,需要更大的数据,没有大数据品类,都是挺困难的,当然有很多方法,大家都在用爬虫,或者是一些外部的数据,各种不知道怎么来的数据。
整个的闭环链路里面,前面的这个部分见效会更快,相对来说还是需要有更多的数据源之后,才有可能有更大的增效。
数据中台这个事情肯定要做,但是还是有一些相对比较轻的方案。总的建议小步快跑不一定要花上千万,甚至几千万来做一个数据的平台。