Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rank-math domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/www-data/www/wordpress/wp-includes/functions.php on line 6121

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the rank-math domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/www-data/www/wordpress/wp-includes/functions.php on line 6121
元数据有什么作用? - DataModeling Help

元数据有什么作用?

大数据时代的到来意味着数据的海量性和复杂性,也意味着对原数据处理过程的更高要求,那么什么是元数据,元数据又有什么作用呢?元数据是提升数据价值的前提,是数据治理的基石。

例如金融大数据,特别是银行大数据建设过程中,必然遇到数据种类繁杂,体量庞大,多组件的ETL交叉加工。随着平台在应用上的不断推广创新,作为基础的数据也会随之飞速增长,增长的数据带来数据血缘不清晰,数据重复存储加工,数据口径混乱,数据质量参差不齐等一系列问题。而要解决这个问题,就要做好最核心的元数据管理。

元数据.jpg

一、什么是元数据?

元数据是关于数据的数据,是为了描述数据的相关信息而存在的数据。

元数据不仅仅表示数据的类型、名称、值等信息,它可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息,都描述/反映了某个数据的某方面特征,则该信息组/数据组可称为一个元数据。

例如:元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。在日常生活中,元数据无所不在。只要有一类事物,就可以定义一套元数据。

除此以外,在数据仓库体系中,元数据代表了一种统计数据从元数据、数据仓库到数据应用的全链路信息,记录了统计数据从产生到展示的全部过程。可以说,有了元数据,开发人员便可以方便的找到统计数据背后的计算逻辑与过程,用于指导开发工作并追踪数据问题,可以极大的提升工作的效率。

二、元数据都有哪些类型?

元数据按照其描述对象的不同可以分为三大类,分别是“技术元数据”、“业务员数据”、“管理元数据”。

1.技术元数据

技术元数据主要是描述系统中技术领域的相关概念信息,包括数据结构、数据处理方面的特征描述,以及数据源接口、数据仓库、数据集市、存储等全面数据处理环节的信息。这类元数据主要被系统建设的技术人员使用。

2.业务元数据

业务元数据主要用来描述记录在系统中业务的相关概念等信息,包括业务术语、信息分类、指标定义、业务规则等内容。它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。这类元数据主要的使用者是业务人员和公司决策人员,主要有以下几种类型,如图所示:

3.管理元数据

管理元数据用来定义系统中涉及管理领域的相关概念等信息,包括人员角色、岗位职责等内容,例如对项目管理、IT运维、IT资源设备等相关信息的描述,这里元数据主要被企业IT部门的管理人员使用。利用此类元数据可以进行工作分配、网络资源等方面的管理。

管理元数据进一步细分又可以划分出认责元数据、稽核元数据、安全元数据、操作元数据、存储元数据等分类。例如操作元数据有系统执行日志;访问模式、访问频率和执行时间;程序名称和描述;版本维护等;备份、归档时间、归档存储信息等。

不管分类如何变化,实质性内容都是围绕数据的统一定义、数据的标准规范、数据的处理过程、数据从存储要求、数据的安全管理要求等等内容进行规范管理。

三、元数据的作用是什么?

在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。在传统意义上,元数据有两方面的用处:

第一,帮助数据平台了解自己本身的情况。例如:有哪些数据、存储的数据有多大、如何找到所需要的数据、数据何时产出等等信息,当我们拿到这些信息后,就可以做对应运维报警等工作。

第二,帮助数据平台制定数据统计的标准。例如:数据口径如何统一、计算指标如何统一、数据之间的关系如何、数据的上下游关联数据是什么等等信息,打通了上下游数据之间的关联关系,就可以为数据质量及维护可视化奠定基础。

四、如何管理元数据?

元数据也是根据实际业务场景定义属性,元数据会有通用的属性,比如名称、类型,不同类型的元数据还会有自己特定的属性。元数据既然也是数据,肯定是存储在数据库中的。元数据存储库是指存储元数据的物理数据库表,通常采用开源的关系型数据库(MySQL)实现元数据存储,下面从几个方面展开说说如何管理元数据:

1.确定元数据范围

首先确定元数据来源范围,在实际的工作中,不是所有数据都是要做元数据管理,通常我们会选择业务数据做元数据管理,非业务数据是不会纳入管理范围内的,主要还是因为元数据管理是提供业务和开发人员快速掌握业务数据。

确定规则后,就要结合公司的实际情况去梳理哪些业务系统、数据库、数据库用户、哪些表需要做元数据管理。当然也可以支持非结构化的元数据抽取,例如:word、pdf等。

2.接入元数据

元数据从哪接入,一般都是从源系统接入。假如公司已经存在数仓或者实时性要求不高,为了节约开发工作量,对于已有的元数据会从数仓接入,还未接入的会从源系统进行接入。但这种方案也是存在风险的,假如数仓的数据和源系统出现不一致,就会导致元数据出错。现在大部分的元数据抽取都是采用配置自动化的方式进行。