德拓讲师分享大数据质量管理方法,助力“数据夜校”培育实战型数据运营人才

10月27日晚,上海市大数据中心第八期“数据夜校”开课,德拓信息大数据产品研发总监陈大伟为学员们分享《大数据质量管理探索与实践》,并受聘为“数据夜校”讲师

作为德拓大数据产品研发总监,大伟专注于数据技术研发,曾主导非结构化数据管理系统、分布式数据库系统、内存数据库系统等众多大数据建设项目,对大数据构架设计、数据质量管理、数据治理等领域有着深刻理解。

《大数据质量管理探索与实践》课程聚焦于数据质量的概念及目标、数据质量管理的计划与思路、工具与方法,以及实践案例与反馈;同时,他还从数据生产层、处理加工层、服务层以及使用层四个阶段介绍了对大数据质量管理的探索。

数据质量是数据分析结论有效性和准确性的基础,如何实现数据质量的改进,确保数据质量的稳定可靠?围绕这一点,大伟向学员们分享了数据质量建设的方法。

从改进思路来看,数据质量改进的生命周期是一个PDCA的循环过程:

在计划环节(Plan),需要对当前已知数据质量问题及影响进行评估,制定需求对数据质量的期望值并制定对应的质量度量维度,计划数据质量的目标。

在执行环节(Do),需要根据已知的计划目标,设计具体的数据质量改善工作计划,采用计划中的工具、技术、度量维度,达到计划中目标的期望值。

在检查环节(Check),需要监控数据质量是否低于度量维度的阈值,是否满足业务需求期望,检查前期计划内容的执行质量,总结执行计划的结果和原因,以及数据质量的偏差。

在处理环节(Act),根据数据质量检查的结果,总结效果和期望的偏差,分析原因和方法,随着问题原因评估和解决方案的提出,进入下一周期计划。

通过数据治理,可以有效对数据质量实现改进,数据治理又包含数据清洗、数据增强、数据解析格式化、数据转换和标准化等环节。

数据清洗:数据清洗一般在数据生产层进行控制,防止错误数据的原始输入;纠正原系统中数据;改善数据录入的业务流程。

数据增强:可以添加数据的相关属性提高其质量和可用性;也可以进行内部数据集成或购买外部高质量数据达到增强效果。

数据解析格式化:根据某些数据的代码规则,将数据代码解析和再存储,作为高质量数据匹配验证其他数据;数据解析原子化后,进行重新组合形成业务规范。

数据转换和标准化:可将多业务系统汇总,形成统一标准;也可以参照国标、行标进行统一规范。

分享中,大伟借助日常化的案例生动地诠释了在大数据质量管理领域较为抽象的概念,并向学员们展示了上海某区大数据中心数据效能监控及数据管理平台,让学员们直观地感受到了数据质量报告对数据质量管理的有效性和必要性。

在介绍了实践案例后,他还与学员们分享了其自身对于数据质量管理的心得,他指出,数据质量是数据治理工作的一部分,其质量问题是治理发起的原因和目的大数据从业者不必设想彻底消除数据质量问题,应尽量从产品化和工程化的视角处理实际问题

“数据夜校”以分享促进交流,充分整合业内先进的数据技术资源,为上海市公共数据管理领域的人才梯队培养持续提供创新动能,德拓作为上海市大数据中心的“金甲战友”,也十分荣幸能够为大数据实战人才的培养提供支持,为上海市“一网通办”、“一网统管”建设贡献力量。

据悉,“数据夜校”由上海市大数据中心主办,云赛智联股份有限公司承办,“数据夜校”培训活动是为进一步支持上海市一网通办、一网统管两张网建设,培养实战型数据运营人才、营造更优质的公共数据服务生态体系,持续形成数据产业集群优势而举办;“数据夜校”将作为承载平台,充分整合先进的技术能力资源,促进交流互动、知识共享,进一步提升数据生态的服务能力。

-END-

小拓拍了拍你,请你点赞、分享、在看

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部