推荐阅读文章列表:大数据开发面试笔记V4.0   ||   面试聊数仓第一季  ||   小白大数据学习路线 小明:"完蛋了,故障被定了P1,今年白干了,没奖金了"我相信很多工作的同学都或多或少发生过P1故障,没发生过P1故障的同学,职业生涯还不够完美~今天就来回顾一下数据质量的一些理论实践,教会大家如何工作中避免P1故障~建议目前有找工作需求的在校大学生们认真看一看这篇文章,对你会有很大的帮助~1. 数据质量保障原则1.1 完整性定义:完整性是指数据的记录和信息是否完整,是否存在缺失的情况。数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确,所以说完整性是数据质量最基础的保障。案例:比如交易中每天支付订单数都在100万笔左右,如果某天支付订单数突然下降到1万笔,那么很可能就是记录缺失了。对于记录中某个字段信息的缺失,比如订单的商品ID、卖家ID都是必然存在的,这些字段的空值个数肯定是0,一旦大于0就必然违背了完整性约束。1.2 准确性定义:指数据中记录的信息和数据是否准确, 是否存在异常或者错误的信息。案例:比如一笔订单如果出现确认收货金额为负值,或者下单时间在公司成立之前,或者订单没有买家信息等,这些必然都是有问题的。1.3 一致性定义:一致性一般体现在跨度很大的数据仓库体系中,比如阿里巴巴数据仓库,内部有很多业务数据仓库分支,对于同一份数据,必须保证一致性案例:例如用户ID,从在线业务库加工到数据仓库,再到各个消费节点,必须是同一种类型,长度也需要保持一致1.4 及时性定义:在确保数据的完整性、准确性和一致性后,接下来就要保障数据能够及时产出,这样才能体现数据的价值。一般决策支持分析师都希望当天就能够看到前一天的数据,而不是等三五天才能看到某一个数据分析结果;否则就已经失去了数据及时性的价值,分析工作变得毫无意义。案例:现在对时间要求更高了,越来越多的应用都希望数据是小时级别或者实时级别的。比如阿里巴巴“双11” 的交易大屏数据,就做到了秒级2. 数据质量方法概述2.1 风险点监控风险点监控主要是针对数据在日常运行过程中容易出现的风险进行监控并设置报警机制,主要包括在线数据和离线数据运行风险点监控。在线业务系统的数据生产过程需要保证数据质量,主要根据业务规在线业务系统的数据生产过程需要保证数据质量,主要根据业务规则对数据进行监控。离线数据风险点监控主要包括对数据准确性和数据产出及时性的监控。2.2 质量衡量主要从以下三个方面来进行衡量:数据质量起夜率数据质量事件数据质量故障体系
点赞 4
评论 0
全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务