编辑推荐: |
本文以元数据、数据标准、主数据、数据交换、数据资产、数据质量、数据安全、数据生命周期八大核心模块为脉络,梳理了一份数据治理体系指南,各位可参考借鉴。希望对你的学习有帮助。
本文来自于微信公众号数据工程师,由Linda编辑、推荐。 |
|
数据治理是组织中涉及数据使用的一整套管理行为,是关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。我们常说,用数据说话,用数据支撑决策管理,但低质量的数据、甚至存在错误的数据,必然会"说假话"!!!
数据治理即提高数据的质量,发挥数据资产价值。
本文以元数据、数据标准、主数据、数据交换、数据资产、数据质量、数据安全、数据生命周期八大核心模块为脉络,梳理了一份数据治理体系指南,各位可参考借鉴。
一、元数据
1. 定义
元数据是是关于数据的组织、数据域及其关系的信息,简单来说,元数据就是被用来描述数据的数据。
元数据管理是指为确保正确创建、存储和管理元数据,在企业中一致地定义数据有关的活动。
2. 类型
元数据分为业务元数据、技术元数据和操作元数据,各类型的元数据采集内容见下表。
三种元数据关系紧密,互为支撑。业务元数据指导技术元数据,技术元数据以业务元数据为参考进行设计,操作元数据为另外两种元数据管理提供支撑。
3. 元数据管理五大步骤
(1)定义元数据战略:制定元数据战略计划,深度协同利益相关方,评估现有的元数据资源和信息架构,对关键员工重点访谈,制定战略目标。
(2)理解元数据需求:梳理元数据需求,需要由更新频次,同步情况,历史信息,访问权限,存储结构,运维要求,管理要求,质量要求等具体需求点满足。
(3)定义元数据架构:通常分为3类:集中式,分布式和混合式,不同技术框架满足不同情境需求,可结合自身情况因地制宜选择。
(4)创建和维护元数据:结合企业业务范围,梳理和整合元数据,把技术元数据,与业务,流程和管理元数据集成在一起,使元数据管理变得规范统一。
(5)查询、报告和分析元数据:元数据存储库应具有前端可视化应用程序,支持查询和分析,从而满足各类数据资产管理的需求。
4. 元数据管理应用
(1)数据资产地图:由元数据字典自动生成的数据资产全景地图,通过可视化方式展示数据处理过程,满足不同场景下业务分析需求。
(2)元数据血缘关系:描述不同数据之间的联系。当下游的数据出现错误,可以通过血缘关系快速找到上游的数据来源,了解数据处理过程,定位错误原因。
(3)元数据影响度分析:描述数据由谁产生,去了哪里,经过哪些加工,哪些应用或部门使用了这些数据。当数据出现问题的时候,可以迅速定位错误并进行解决。
二、主数据
1. 定义
主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单、账户等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。
主数据管理是指一整套的用于生成和维护企业主数据的规范、技术和方案,以保证主数据的完整性、一致性和准确性。
2. 主数据项目管理实施架构
通过现状分析与评估、规划管理体系、建设实施方案,平台落地部署四个步骤,逐步推动主数据项目管理的落地实施。
3.主数据项目实现阶段的十大重要环节
(1)主数据标准化体系
以物料为例, 完整的物料标准化体系主要包括物料数据标准的制定和物料数据标准化管理相关基础能力建设两大内容。
(2)分类设计原则
四大原则:不重不漏;粗细颗粒度合理;满足业务需求;符合行业习惯。
(3)编码设计
编码设计需遵守全局性,唯一性、扩展性等原则。不同编码方式满足不同业务场景,各有优劣,可参考下表。
(4)属性标准梳理:可以从业务标准、技术标准、管理标准三个层面来梳理。
(5)管控流程设计:在业务系统建设过中进行流程审核以及校验。
(6)历史数据整合:分为数据接入、初步标记、分类清理、先分后合、整理清洗、检查反馈6个步骤。
(7)数据切换策略:以下是三种数据切换策略各自优缺点。
(8)数据生产与维护策略:有集中式和分布式两种。
(9)主数据分发策略:主数据的分发方式有以下三种。
(10)主数据集成示例
三、数据标准
1. 定义
数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。
数据标准管理是一套由管理制度、管控流程、技术工具共同组成的体系,基于该体系应用统一的数据定义、数据分类、编码等实现数据的标准化。
2. 分类
(1)业务标准规范:包括业务的定义,标准的名称,标准的分类等。
(2)技术标准规范:是从技术角度定义数据标准,包括数据的类型、格式、编码规则等。
(3)管理标准规范:比如数据标准的管理者及使用者有哪些,如何增删改查,访问标准等。
3. 数据标准管理实施步骤
(1)制定目标和界定范围:首先明确数据标准目标,然后根据企业自身的管理和业务发展需求制定数据标准。
(2)数据标准调研:调研企业数据标准现状,梳理问题点,为后续的数据标准落地提供支撑和指导。
(3)明确组织和流程:确定数据治理管控委员会,数据标准管理岗,数据标准管理专员等岗位角色及责权分配,同步制定标准变更、落地、管理流程,充分保障数据标准落实。
(4)数据标准编制与发布:通过收集国标、行标要求,结合企业自身管理和业务要求,经过各部门的协调沟通后,制定出初版的数据标准管理文档。经过数据标准审核后,正式发布。
(5)数据标准宣贯:向内部组织数据标准宣贯会,提升企业内部人员对数据标准管理的理解及重视程度,让数据标准可以更好更快实行,从而发挥价值。
(6)数据标准平台落地运营:落地数据标准管理平台,通过管理、技术、业务不同维度验证有效性,确定满足要求后,投入到实际场景中。此外,还需定期评估,保障数据标准与企业管理经营发展的适应性。
四、数据质量
1. 定义
数据质量是指数据符合数据消费者的使用目的,需要满足业务场景具体的需求。数据质量包含两个维度:数据自身的质量和数据的过程质量。
数据质量管理是对数据整个生命周期每个阶段里可能引发的数据质量问题,进行识别、度量、监控等一系列管理活动,不断改善组织的管理水平进一步提高数据质量。
2. 四种常见数据质量问题
(1)数据缺失:指的是一些重要数据未被填充。
针对缺失数据,可通过基础统计分析,找到未填写数据,进行填充。
(2)数据异常:指的是数据与实际业务有较大差别,影响数据分析结果。
针对异常数据,需要基于基础数据,判断数据变量是否超出合理范围,如果异常,系统会自动报警提醒。
(3)数据不一致:指的是在数据集成汇总的时候,多个系统分布的相同数据,出现不一致的现象。
针对数据不一致,可以基于数据抽取规则,对于大部分相同但不一致的数据,进行鉴别和修订。
(4)数据重复或错误:指的是一些数据出现重复统计,数据填写错误。
针对重复数据,可以在系统中设置过滤限定条件,自动查重,清除重复数据.
3. 数据质量评判六大维度
全国信息技术标准化技术委员会提出了数据质量评价指标(参考GB/T36344-2018 ICS 35.24.01),具体参考下图。
4. 数据质量管理七部曲
(1)定义高质量数据
通过全面了解痛点、风险和业务驱动因素,梳理业务流程、系统应用情况、技术结构和数据依赖关系,对数据质量改进的目标达成一致。
(2)定义数据质量战略
数据质量优先级必须与业务战略一致,定义数据质量框架有助于指导战略及开展数据质量管理活动。
(3)识别关键业务和质量规则
根据监管要求、财务价值和对客户的直接影响等因素对数据进行优先级排序。在确定关键数据后,识别梳理数据质量特征要求的业务规则。
(4)执行初始数据质量评估
确定关键的业务需求和数据后,通过执行初始数据质量评估了解数据,定义可操作的改进计划,通过评估结果确认问题及优先级,并作为数据质量规划的基础。
(5)识别改进方向并确定优先级
在经过初步数据质量评估后,识别改进措施,确定优先级,可以通过对大数据集进行全面的数据分析来了解问题的广度,或与利益相关方进行沟通,分析问题的业务影响,最终讨论确定优先顺序。
(6)定义数据质量改进目标
根据数据质量改进带来的业务价值进行量化,设定具体的、可实现的目标。
(7)开发和部署数据质量操作
围绕数据质量方案制定实施计划,管理数据质量规则和标准、监控数据与规则的执行一致性,识别质量问题,并报告质量水平。
五、数据资产
1. 定义
数据资产是是指由个人或企业拥有或者控制的,能够为企业带来经济利益的,以物理或电子的方式记录的数据资源。
数据资产管理是指对数据资产进行规划、控制和提供的一组活动职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。
2. 数据资产盘点
(1)自上而下梳理
以业务视角,通过对企业的制度文件、业务流程、业务单据等进行梳理分析,逐层分解,梳理数据资产的逐级目录、业务属性等。
(2)自下而上盘点
以技术视角,从IT系统—数据库表—数据结构出发,进行自下而上总结,逐步明确数据资产相关的技术属性。
3. 数据资产目录
通过数据资产目录,能够明确数据在哪里、由谁负责,如何使用等一系列问题。
4、数据资产管理4大步骤
(1)统筹规划:是数据资产管理实施的第一阶段,包括评估管理能力、发布数据战略、建立企业责任体系三个步骤,为后续数据资产管理和运营锚定方向。
(2)管理实施:该阶段的目标主要是通过建立数据资产管理的规则体系,依托数据资产管理平台工具,以数据生命周期为主线,全面开展数据资产管理各项活动,推动第一阶段成果落地。
(3)稽核检查:稽核检查阶段是保障数据资产管理实施阶段涉及各管理职能有效落地执行的重要一环。该阶段包括检查数据标准执行情况、稽核数据质量、监管数据生命周期等具体任务。
(4)资产运营:资产运营阶段是数据资产管理实现价值的最终阶段,该阶段包括开展数据资产价值评估、数据资产运营流通等。
六、数据交换
1. 定义
数据交换共享是指为了满足不同信息系统之间数据资源的共享需要,依据一定的原则,采取相应的技术,实现不同信息系统之间数据资源共享的过程。
2. 数据交换与共享方法
(1)电子或数字文件传输
数据可以通过电子或数字文件传输进行交换,通过文件传输(通信)协议在两个系统之间传输文件(数据)。各组织需要考虑与使用不同文件传输协议带来的安全风险;文件传输协议包括FTPS、HTTPS和SCP。
(2)便携式存储设备
在某些情况下,可能需要使用便携式存储设备交换数据, 例如可移动磁盘(数字视频光盘 (DVD))或通用串行总线
(USB)等)。组织需要考虑被传输数据的影响级别以及数据将要传输到的系统的影响级别,以确定所交换的数据是否采取了足够的措施。
(3)电子邮件
组织经常通过电子邮件以附件的形式共享数据。组织需要考虑参与组织的电子邮件基础设施的影响级别和已经实施的安全控制,以确定是否实施了足够的控制措施来保护正在交换的数据,例如,在中等影响级别受保护的电子邮件基础设施不足以保护高影响级别的数据。
(4)数据库
数据库共享或数据库事务信息交换,包括来自另一个组织的用户对数据的访问。组织需要考虑的是提供数据访问而不是传输数据的可行性,以减少重复数据集以及数据机密性和完整性损失的风险。
(5)文件共享服务
文件共享服务包括但不限于通过基于 Web 的文件共享或存 储共享数据和访问数据(例如 Drop Box、Google
Drive、MS Teams 或 MS One Drive)。使用基于Web的文件共享或存储系统,该系统无法让数据所有者了解服务器所在位置,或对设施、服务器和数据的物理和逻辑访问。
3. 数据交换共享的五个原则
(1)一致性原则:提供数据共享服务前,要确定每项数据的源头单位, 由源头单位对数据的准确性、一致性负责。减少数据“搬家”,从而减少向下游二次传递所造成的数据不一致问题。
(2)黑盒原则:数据使用方不用关注技术细节,满足不同类型的数据共享服务需求。
(3)敏捷响应原则:数据共享服务一旦建设完成,并不需要按数据使用方重复构建集成通道,而是通过“订阅”该数据共享服务快速获取数据。
(4)自助使用原则:数据共享服务的提供者并不需要关心数据使用方怎么“消费”数据,避免了供应方持续开发却满足不了数据使用方灵活多变的数据使用诉求的问题。
(5)可溯源原则:所有数据共享服务的使用都可管理,数据供应方能够准确、及时地了解“谁”使用了自己的数据,确保数据使用的合理。
七、数据安全
1. 定义
数据安全是保护数字信息资产免遭未经授权的访问、披露、修改或盗窃的做法。
数据安全治理是基于安全合规要求、业务发展需要和风险承受能力等多重因素,实现业务与安全融合发展的安全建设机制。
2. 数据安全管理能力
(1)组织治理
数据安全治理组织可采用5层结构,即决策层、管理层、执行层、监督层和参与层。
(2)制度治理
数据安全制度体系主要从4个层面进行建设。
3. 数据安全技术能力
数据安全技术能力治理主要是对技术措施的建设,围绕数据全生命周期的各个阶段采取相应的安全防护措施,包括分类分级、数据库审计、加密传输、数据防泄漏、数据脱敏、数据水印、用户行为分析等。
4. 数据安全运营能力
通过构建数据安全隐患发现及处置机制、数据安全风险评估机制、数据安全突发事件应急响应机制、数据安全监控与审计机制,形成规范化、流程化、智能化运营的长效安全运营体系。
八、数据生命周期
1. 定义
数据生命周期分为:采集、存储、整合、呈现与使用、分析与应用、归档和销毁几个阶段。
数据生命周期管理是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从数据创建和初始的存储,直到被删除或销毁。
2. 常见的数据生命周期管理模型
在数据管理领域,学术界和企业界的许多研究人员提出了不同的数据生命周期管理模型,如下图所示。
3. 数据生命周期管理的四个阶段
(1)“入”期
该阶段不仅仅指数据的创建,有效的数据资产管理应在数据的产生之前开始。首先应该做好规划和计划,包括数据资产盘点、数据治理计划、数据需求计划等;然后对数据标准进行定义,制定数据管理规范,确保数据按照标准产生。
(2)“存”期
面对不同数据结构、数据形式、时效性、性能要求和存储与计算成本等因素,应该使用适合的存储形式与计算引擎。
(3)“用”期
该阶段是数据真正产生价值的周期。在“用”期间要特别强调“数据复用”,这对于节省成本,提高效率非常重要。未来企业或组织在评估一个数据产品是否值得开发关键的一个指标应该看能否复用。
(4)“出”期
“出”期是将生命周期步入尾声的数据保存到低性能廉价的存储介质或直接销毁,是必不可少的步骤。对于数据的销毁,企业应该有严格的管理制度,建立数据销毁的审批流程。只有通过流程审批的数据才可被销毁。
|