Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rank-math domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/www-data/www/wordpress/wp-includes/functions.php on line 6121

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rank-math domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/www-data/www/wordpress/wp-includes/functions.php on line 6121
4点告诉你!数据质量问题要如何解决 - DataModeling Help

4点告诉你!数据质量问题要如何解决


说到数据质量问题,很多企业难免会碰到数据质量问题,要想很好的解决数据质量问题,究其根本原因很重要。

数据质量.jpg

一、数据质量问题包括哪些

接下来我们盘点下企业一般都会遇到哪些数据质量问题:

数据真实性:数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料。

数据准确性:准确性也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。

数据唯一性:用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。

数据完整性:数据完整性问题包括:模型设计不完整,例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。

数据一致性:多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。

数据关联性:数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。

数据及时性:数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。

二、数据质量问题如何解决

面对数据质量问题,有两个基本原则,那就是“早发现、早恢复”,也就是早点发现数据的异常点,同时尽快能够恢复正常。下面有一些方法可以参考一下的:

锦囊1:添加稽核校验任务

这个很好理解了,就是通过预先设置好的一些规则来验证当前调度任务执行结果表的质量,如果触发规则就自动发送预警给到相关的开发人员。

这里,规则可以划分重要等级,不同登记的规则可以采取不同的预警方式和处理方式,比如重要规则的,就停止调度任务的执行(那么后续链路的任务就会处理等待状态,等到上游任务结束才执行),同时通知运维人员对当前任务进行处理(建议通过电话通知)。如果是一些不那么重要的规则,就可以通过短信或者推送的方式告知。

锦囊2:建立全链路的监控

中台建设的目的就是抽象出可以公用的模型,这样子往往会有一个比较现实的问题,那就是数据加工的链路可能会很长,那么应用层上的指标出现问题了,排查问题也会比较困难了,所以我们需要对中台的数据模型的数据质量进行质量监控,也就是对链路中的表增加了一些稽核校验规则,如果结果数据出现问题,可以快速排查链路上的相关表的质量报告,快速定位到问题所在然后进行修复。

锦囊3:智能预警功能

这个idea很棒!它其实就是通过分析过去任务运行的时间以及任务需要输出的时间节点,然后根据当前物理资源的情况,自动判断这个调度任务是否可以在规定的时间节点前完成计算,如果不行的话就发起预警,让开发人员暂停一些低级别的任务或者说对时效性不高的任务,释放资源给重要任务使用。

锦囊4:规范化管理制度

我们上面讲了这么多,其实都是建立在我们配置了完整的数据链路以及稽核规则之上的,万一一开始我们就没有配置这些东西呢?那么一切都是浮云了。

所以我们必须得设计一些规范化的管理制度,比如评审机制,从而确保依赖关系的完整配置,同时对稽核规则也要进行评审,确保规则的完备性。