您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   Code  
会员   
   
 
     
   
 订阅
  捐助
生产场景数据湖平台建设实践
 
 
   次浏览      
2021-7-9
 
编辑推荐:
本文主要数据湖平台简介、数据建设准则、典型数据应用场景、IT日志数据、数据存储方案及数据设计规范等。
本文来自搜狐,由火龙果软件Linda编辑、推荐。

数据湖平台简介

数据湖平台是一套混合架构,以传统Oracle与华为FusionInsight HD&LibrA为主,依托统一融合的数据平台,全流程拉通公司产品的研发制造、供应储存、安装交付多环节数据,增强数据交互,使能数字孪生,自动化、智能化提升公司运作效率。

该平台围绕数据分如下三大逻辑模块:

系统架构如下:

数据建设准则

数据接入原则

以应用驱动为主,优先建设高价值数字孪生项目;

入湖数据必须有数据管理部认证,发布对应数据资产标准,匹配对应数据责任人;

数据建模原则以原始数据、清洗整合数据、三范式结构、服务化宽表逐级向上规范;

整体平台需符合高可用、平行扩容原则,符合业务3-5年的数据规划。

数据湖指导思想

大数据只有开放生态才可能最大化发挥价值,订单不拉通生产制造、交付验收,就难以预估产能周期、用户期望等,我们必须数据开放,才能提供更优质的数据服务。

大数据膨胀迅猛特别是IOT应用的普及,提升数据精度才能发现更多生产问题,AI算法也需要大数据训练模型,我们需要拥抱开源,持续引入工业界优秀平台提升自己。

典型数据应用场景

下图按应用场景,对数据流程、处理平台进行的标注:

(绿色)结构化数据通过批处理、虚拟镜像到Hive数据,再通过Kylin预处理将数据储存在Cube中,封装成RESTAPI服务,提供高并发亚秒级查询服务,监测物料质量情况;

(红色)IoT数据,通过sensor采集上报到MQS,走storm实时分拣到HBase,通过算法模型加工后进行ICT物料预警监测;

(黄色)条码数据通过ETLloader到IQ列式数据湖,经过清洗加工后,提供千亿规模条码扫描操作。

IoT数据应用 (数据场景:Sensor数据)

MQS(UMP):负责缓存消息数据,消息队列服务(Message Queue Service,简称MQS)是针对华为IT场景打造的专业消息中间件,是企业级互联网架构的核心产品,基于高可用分布式集群技术,搭建了包括发布订阅、消息轨迹、资源统计、监控报警等一套完整的消息云服务。支持全球路由、隔离网络、云间集成三大业务场景。

Storm:hadoop体系流处理平台,负责将MQS数据进行处理分发到Hive、Hbase、Oracle等数据平台储存。

IT日志数据

获取IT应用如办公内web应用、APP应用等日志数据,通过SDK嵌入实现数据的实时采集,上报到kafka(类同于MQS的消息中间件),然后通过批处理方式进行日志分析、访问性能等统计,或者走Flink进行实时监测计算。

SD质检图片数据(数据场景:非结构化数据)

通过web前台、数据API服务,进行图片数据的上传及查询,图片需要有唯一ID作为标示,确保可检索。海量图片数据以ID为rowkey,储存于Hbase平台,提供快速储存及查询能力。数据资产上有以下方面的构建:

统一索引描述非结构数据,方便数据检索分析。

增加维护及更新时间作为对象描述字段(图片类型、像素大小、尺寸规格)。非对象方式及数字化属性编目(全文文本、图像、声音、影视、超媒体等信息),自定义元数据。

不同类型的数据可以形成了关联并处理非结构化数据。

数据存储方案

目前数据湖储存介质以FusionInsight HD&LibrA和Oracle两套平台为主,总体接入原则:

高价值及高热度数据,以FusionInsight HD&LibrA或Oracle为主,如FIN数据;

创新性、非结构化数据以FusionInsight HD平台为主,如图片、视频、地图等数据;

贴源建设,如源系统为关系型数据库接入Oracle,源系统为Hadoop则对接FusionInsight HD;

领域级优先建设原则,如IT、制造、研发代码;

我们按照数据类型、数据规范、适用场景建议如下:

数据设计规范

入湖数据,原则上作为生产环境的全量镜像方式储存,部分数据甚至以数据湖作为第一可信源发布,出于以下考虑:

数据湖体量大,能冷热备生产数据,可将保持较长时间生产环境数据;

OLAP扫描数据量大,多数场景会全量扫描数据,这对OLTP为主的作业系统是不合适,所以我们需要集中在数据湖中进行数据分析工作,和原系统解耦。

数据入湖流程

计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等,所以我们按数据类型分为如下两大流程:

结构化数据

结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进存储和管理。

非结构化数据

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。

建模必要要求:统一索引描述非结构数据,方便数据检索分析,可增加维护人员及更新时间作为对象描述字段。

非结构化储存,是对对象方式及数字化属性编目,自定义元数据,关联大量非结构化异构数据采用统一的文件元数据对数据进行建模,每一个元数据可以作为该数据的一个维度,索引引擎会对数据的每个元数据属性进行多维索引,这样不同类型的数据就可以形成了关联并处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。

储存平台:HBase、mongoDB、HDFS。

增量方式:支持push、pull两种策略,如选择HBase储存需考虑储存的版本个数方便业务查看历史版本。

如push方式,需业务先将数据以消息方式推送MQS(消息中间件),数据湖负责分拣入湖;

如pull方式,由数据湖主动部署agent上报、或者jdbc等方式去get业务数据,实现组键以flume、爬虫或者数据库驱动为主。

 

   
次浏览       
相关文章

基于EA的数据库建模
数据流建模(EA指南)
“数据湖”:概念、特征、架构与案例
在线商城数据库系统设计 思路+效果
 
相关文档

Greenplum数据库基础培训
MySQL5.1性能优化方案
某电商数据中台架构实践
MySQL高扩展架构设计
相关课程

数据治理、数据架构及数据标准
MongoDB实战课程
并发、大容量、高性能数据库设计与优化
PostgreSQL数据库实战培训
最新活动计划
Node+Vue3.0前端全栈开发 7-5 [特惠]
Spring Cloud微服务架构 7-5[特惠]
SysML和EA系统设计与建模 7-26[特惠]
Python、数据分析与机器学习 8-23[特惠]
嵌入式软件架构设计 8-22[线上]
Linux内核编程及设备驱动 7-25[北京]
 
最新文章
InfluxDB概念和基本操作
InfluxDB TSM存储引擎之数据写入
深度漫谈数据系统架构——Lambda architecture
Lambda架构实践
InfluxDB TSM存储引擎之数据读取
最新课程
Oracle数据库性能优化、架构设计和运行维护
并发、大容量、高性能数据库设计与优化
NoSQL数据库(原理、应用、最佳实践)
企业级Hadoop大数据处理最佳实践
Oracle数据库性能优化最佳实践
更多...   
成功案例
某金融公司 Mysql集群与性能优化
北京 并发、大容量、高性能数据库设计与优化
知名某信息通信公司 NoSQL缓存数据库技术
北京 oracle数据库SQL优化
中国移动 IaaS云平台-主流数据库及存储技术
更多...