首页 > 数据资产管理解决方案 > 数据资产管理工具

数据湖操作系统


数据湖操作系统主要由GDH(Googosoft Distribution Hadoop Manager)和数据中台构成。GDH是Googosoft Distribution Hadoop Manager的简写,包含整个Hadoop生态体系。主要的组件有HDFS、Yarn、HBASE、Hive、Impala、Spark、Kafka、Sqoop、Oozie、HUE。GDH主要是用来存储全量的结构化数据、半结构化数据和二进制数据。

数据中台的作用,主要是驱动GDH,管理多样化的数据。核心功能包括:创建数据服务接口、界面化定义视图、应用服务化、数据质量检测、元数据管理、数据标准维护、数据交换、流程化数据处理。

 

从数据生命周期来看,数据湖对于数据的处理方式涵盖数据集成、数据存储、数据治理、数据质量、自助数据发现和安全监管,一个管理完善的数据湖中的数据会保留原始数据,同时过程中数据会不断地完善、演化,以满足业务的需要。

1、数据集成:接入不同数据源,自动生成元数据信息,提供统一的接入方式。

2、数据存储:存储的数据量巨大且来源多样,支持异构和多样的存储。自动提取元数据信息,建立统一的数据目录。

3、数据治理:自动提取元数据信息,建立统一的数据目录;建立数据血缘,梳理上下游的脉络关系;数据变更影响范围评估和数据价值评估;提供不同版本的数据,便于进行数据回溯和分析。

4、数据质量:提供数据字段校验、数据完整性分析等功能;实时监控数据处理任务,避免不完备的数据。

5、自助数据发现:提供一系列数据分析工具,包括:联合分析,交互式大数据SQL分析,机器学习,BI报表等等。

6、安全监管:对数据的使用权限进行监管;对敏感数据进行脱敏和加密。

数据湖操作系统具备以下特征:

1、保真性

数据湖操作系统对于业务系统中的数据都会存储一份“一模一样”的完整拷贝。

2、灵活性

使数据保持最为原始的状态,一旦需要,可以根据需求对数据进行加工处理。

3、可管理性

提供完善的数据管理能力,包括:数据源、数据连接、数据格式、数据管理、权限安全管理等能力。

4、可追溯性

对数据的全生命周期进行管理,支持对任意一条数据的接入、存储、处理、消费过程可追溯,能够清楚的重现数据完整的产生过程和流动过程。

5、丰富的计算引擎

支持各类计算引擎,从批处理、流式计算、交互式分析到机器学习,并支持计算引擎的可扩展、可插拔。

6、多模态的存储引擎

内置多模态的存储引擎,以满足不同的应用对于数据访问需求,并且在需要时与外置存储引擎协同工作,满足多样化的应用需求。