版权所有©德塔精要,转载请注明出处
一概述说明
传统的业务系统在运行较长周期后会积累了大量历史数据,这些海量数据却没有得到有效的分析和利用,只是对数据进行简单的统计分析获得一些表面、浅显、价值不高的结果。构建一个大数据分析平台,结合多个业务系统从中抽取海量数据进行管理、整合、分析和利用,从中发现潜在问题和有价值的规律,并通过可视化的方式进行展示,能够为管理层提供科学决策的支持,提升企业业务能力和效益。
二大数据构建目标
(1)实现数据的共享和交换。将各应用系统的数据进行集成和整合,使来源各异、种类不一的各类数据可以相互使用,丰富数据的来源,打破系统间的信息孤岛,实现数据的共享和应用。
(2)大数据的采集和存储。研制数据适配接口,对接各应用系统获取各类异构数据,并采用大数据主流的框架和系统对数据进行统一存储,为数据的挖掘和分析打好基础。
(3)大数据分析与决策。采用数据挖掘、数理统计等相关技术,构建大数据分析框架,提取数据中隐含的、未知的、极具潜在应用价值的信息和规律,为企业的各项工作提供决策和指导。
三大数据构建原则
(1)安全性。大数据分析平台应采取安全性高的访问认证机制,同时在平台建设中要充分重视系统自身的安全性以及其他应用系统的安全性。
(2)可扩展性。大数据的分析和应用是一项长期持久的工作,随着业务的变化,对于信息平台的规模和要求也会不断变化。因此,要求平台的设计和实施要具有良好的扩展性,以满足不断发展变化的要求。
(3)灵活性。在平台的设计和实施中要考虑到与其他应用系统的整合,开发出多个类型的接口,能够灵活接入其他系统、拓展服务类型。
四大数据总体框架
基于Hadoop技术的数据分析平台自下而上一般分为三个部分,分别为:数据层、大数据采集与存储、数据分析及展示。
(1)数据层,针对不同系统进行分析,制定系统数据采集范围与目标,收集各个业务系统产生的各类数据,将各种结构化和非结构化数据进行整合,为大数据的分析提供支撑。
(2)大数据采集与存储旨在为各类异构数据研制适配接口,与其他各系统对接,并为数据提供适配、转换、存储等基本管理功能,基本步骤包括:
a.数据抽取:针对大数据分析平台需要采集的各类数据,分别有针对性地研制适配接口。对于已有的信息系统,研发对应的接口模块与各信息系统对接,不能实现数据共享接口的系统通过ETL工具进行数据采集,支持多种类型数据库,如SQL SERVER, ORACLE, ACCESS等数据库,按照相应规范对数据进行清洗转换,从而实现数据的统一存储管理。对于其他数据,需要具体根据数据情况实现相关接口,利用对应接口获取相关数据信息,进而完成数据的抽取。
b、数据预处理:为使大数据分析平台的MAPREDUCE算法能更方便对数据进行处理,同时为了使得数据的存储机制扩展性、容错性更好,需要把通过数据按照相应关联性进行组合,并将据转化为文本格式,作为文件存储下来。
c、数据存储:为了提升数据存储的扩展性和容错性,采用主流的大数据框架Hadoop的HDFS文件系统对各类数据统一进行文本化存储,数据按相应规则存储,实现每日保存一套完整数据文件集,形成数据仓库。
(3)数据分析和展示是核心业务层,通过数据报表工具,根据需求制定多样的,针对性的数据报表。通过基于的Hadoop的MapReduce编程模型实现的数据分析系统,针对存储的数据进行数据处理、算法运行、结果转换操作,将结果保存为报表文件,每日形成的报表文件集。报表展现系统将生成的报表文件以可视化方式进行展现。