数据治理之数据质量管理 -大数据

捐助

数据治理之数据质量管理

次浏览

2021-5-17

编辑推荐:

数据质量管理贯穿数据生命周期的全过程，覆盖质量评估、数据监控、数据探查、数据清洗、数据诊断等方面，更多详细内容请看下文。
本文来自于公众号_大数据私房菜，由火龙果软件Anna编辑、推荐。

一.数据质量基本概念

二.影响因素

在此附上数据的生命周期图，包括各环节的数据流转和数据处理。

三.评估维度

1.完整性

数据完整性问题包括：模型设计不完整，例如：唯一性约束不完整、参照不完整；数据条目不完整，例如：数据记录丢失或不可用；数据属性不完整，例如：数据属性空值。不完整的数据所能借鉴的价值就会大大降低，也是数据质量问题最为基础和常见的一类问题。

2.一致性

多源数据的数据模型不一致，例如：命名不一致、数据结构不一致、约束规则不一致。数据实体不一致，例如：数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。

3.准确性

准确性也叫可靠性，是用于分析和识别哪些是不准确的或无效的数据，不可靠的数据可能会导致严重的问题，会造成有缺陷的方法和糟糕的决策。

4.唯一性

用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素，也是数据治理需要解决的最基本的数据问题。

5.关联性

数据关联性问题是指存在数据关联的数据关系缺失或错误，例如：函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题，会直接影响数据分析的结果，进而影响管理决策。

6.真实性

数据必须真实准确的反映客观的实体存在或真实的业务，真实可靠的原始统计数据是企业统计工作的灵魂，是一切管理工作的基础，是经营者进行正确经营决策必不可少的第一手资料。

7.及时性

数据的及时性(In-time)是指能否在需要的时候获到数据，数据的及时性与企业的数据处理速度及效率有直接的关系，是影响业务处理和管理效率的关键指标。

需要新增的规则：(待优化)

四.稽核计算方式

1.主键唯一性计算

字段A的唯一性百分比 = count(distinct 字段A)/count(字段A)

2.非空完整性计算

字段A的完整性百分比 = sum(case when 字段A is not null then 1 else 0 end )/count(字段A)

3.字典一致性计算

枚举类型的数据都会维护在一张标准表中然后和目标表进行比对字段A的有效性百分比= sum(字段A in (维护的标准表) then 1 else 0 end )/count(字段A)

4.长度准确性计算

字段A的长度有效性百分比 = sum(case when length(字段A)<=设置数值 then 1 else 0 end )/count(字段A)

五.如何提升数据质量

1.事前定义数据的监控规则

提炼规则：梳理对应指标、确定对象（多表、单表、字段）、通过影响程度确定资产等级、质量规则制定

2.事中监控和控制数据生产过程

质量监控和工作流无缝对接

支持定时调度

强弱规则控制ETL流程

对脏数据进行清洗

3.事后分析和问题跟踪

邮件短信报警并及时跟踪处理

稽核报告查询

数据质量报告的概览、历史趋势、异常查询、数据质量表覆盖率

异常评估、严重程度、影响范围、问题分类

六.开发技术

pyspark hive datax mysql

七.开发流程

八.核心表核心字段梳理

九.数据质量报表产出

报表产出需要新增：(待优化)

十.重大问题告警

十一.质量报告及订阅

十二.总结

数据质量管理贯穿数据生命周期的全过程，覆盖质量评估、数据监控、数据探查、数据清洗、数据诊断等方面。数据源在不断增多，数据量在不断加大，新需求推动的新技术也不断诞生，这些都对大数据下的数据质量管理带来了困难和挑战。因此，数据质量管理要形成完善的体系，建立持续改进的流程和良性机制，持续监控各系统数据质量波动情况及数据质量规则分析，适时升级数据质量监控的手段和方法，确保持续掌握系统数据质量状况，最终达到数据质量的平稳状态，为业务系统提供良好的数据保障。

次浏览