编辑推荐: |
数据质量管理贯穿数据生命周期的全过程,覆盖质量评估、数据监控、数据探查、数据清洗、数据诊断等方面,更多详细内容请看下文
。
本文来自于公众号_大数据私房菜,由火龙果软件Anna编辑、推荐。 |
|
一.数据质量基本概念


二.影响因素

在此附上数据的生命周期图,包括各环节的数据流转和数据处理。

三.评估维度

1.完整性
数据完整性问题包括:模型设计不完整,例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。
2.一致性
多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。
3.准确性
准确性也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。
4.唯一性
用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。
5.关联性
数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。
6.真实性
数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料。
7.及时性
数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。
需要新增的规则:(待优化)

四.稽核计算方式

1.主键唯一性计算
字段A的唯一性百分比 = count(distinct 字段A)/count(字段A)
2.非空完整性计算
字段A的完整性百分比 = sum(case when 字段A is not null then 1
else 0 end )/count(字段A)
3.字典一致性计算
枚举类型的数据都会维护在一张标准表中 然后和目标表进行比对字段A的 有效性百分比= sum(字段A
in (维护的标准表) then 1 else 0 end )/count(字段A)
4.长度准确性计算
字段A的长度有效性百分比 = sum(case when length(字段A)<=设置数值
then 1 else 0 end )/count(字段A)
五.如何提升数据质量
1.事前定义数据的监控规则
提炼规则:梳理对应指标、确定对象(多表、单表、字段)、通过影响程度确定资产等级、质量规则制定
2.事中监控和控制数据生产过程
质量监控和工作流无缝对接
支持定时调度
强弱规则控制ETL流程
对脏数据进行清洗
3.事后分析和问题跟踪
邮件短信报警并及时跟踪处理
稽核报告查询
数据质量报告的概览、历史趋势、异常查询、数据质量表覆盖率
异常评估、严重程度、影响范围、问题分类
六.开发技术
pyspark hive datax mysql
七.开发流程

八.核心表核心字段梳理

九.数据质量报表产出


报表产出需要新增:(待优化)

十.重大问题告警

十一.质量报告及订阅

十二.总结
数据质量管理贯穿数据生命周期的全过程,覆盖质量评估、数据监控、数据探查、数据清洗、数据诊断等方面。数据源在不断增多,数据量在不断加大,新需求推动的新技术也不断诞生,这些都对大数据下的数据质量管理带来了困难和挑战。因此,数据质量管理要形成完善的体系,建立持续改进的流程和良性机制,持续监控各系统数据质量波动情况及数据质量规则分析,适时升级数据质量监控的手段和方法,确保持续掌握系统数据质量状况,最终达到数据质量的平稳状态,为业务系统提供良好的数据保障。
|