Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rank-math domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/www-data/www/wordpress/wp-includes/functions.php on line 6121

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rank-math domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/www-data/www/wordpress/wp-includes/functions.php on line 6121
数据质量问题的归纳与分析 - DataModeling Help

数据质量问题的归纳与分析

  在实践中我们会遇见大量的数据质量问题,基于这些数据质量问题,数语科技从人员、流程、技术和信息等多个方面总结了引起数据质量问题的十个常见原因。

数据质量.jpg

  1、数据的多源性:当同一个数据有多个数据来源时,很可能会导致不同的值,这在系统设计和业务流程设计时都可能会引起这一问题。但是,很多企业往往会忽视数据多源性这个根源,因为企业内部的多个数据生产流程绝大部分时间依旧是独立运作,持续地产生着不同的数据值,导致这个根源很难被直接察觉。
  2、数据生成过程中的主观判断:如果在数据的生成过程中包含主观判断结果,那么会导致数据中含有主观偏见因素。通常认为存储在数据库中的数据都是客观事实,却忽略了采集这些“事实”的过程可能存在主观的判断。
 3、计算资源有限:缺乏足够的计算资源会限制相关数据的可访问性。
 4、安全性和可访问性之间的权衡:数据的可访问性与数据的安全性、隐私和保密性本质上是矛盾的。对数据消费者而言,必须能够访问高质量的数据;同时,出于保护隐私、保密和安全性的考量,必须对访问设置权限。因此,高质量的数据可访问性与数据的安全性之间就产生了冲突。
 5、跨学科的数据编码:由于缺乏不同专业领域的数据编码互相映射或缺乏可解释性,因此对于不同专业领域的编码总是难以辨识和理解,这也导致了数据采集的不全面和检索不到相应的信息。
 6、复杂数据的表示方法:对于文本和图像数据等数据,其可分析性很差且没有定义属性,不能进行汇总、处理数据以及判断变化的趋势,为数据的处理带来不便。
 7、数据量过大:过大数据量会使数据消费者难以在合理的时间内获得所需的数据。
 8、输入规则过于严苛或被忽视:过于严苛的数据库编写规则或不必要的数据输入规则引入,都可能会导致某些重要数据的丢失,或者产生错误的数据。这是因为数据采集者可能为了遵守这些规则,随意改变某个或某些字段的值,或者由于某些值无法输入对应的字段而丢弃整条记录。
 9、数据需求的改变:当数据消费者的任务和组织环境发生变化时,所谓“有用的”数据也随之改变,只有满足数据消费者需求的数据才是高质量的数据。
 10、分布式异构系统:对于分布式、异构的数据系统,缺乏适当的整合机制会导致其内部出现数据定义、格式、规则和值的不一致性。跨系统的查询和汇总数据往往需要太多的时间,降低了数据的可访问性。