数据治理 数据仓库_数据治理技术

(5) 2024-06-06 10:12

Hi,大家好,我是编程小6,很荣幸遇见你,我把这些年在开发过程中遇到的问题或想法写出来,今天说一说数据治理 数据仓库_数据治理技术,希望能够帮助你!!!。

目录

0 参考列表

1 概念

2 应用场景

3 特征

3.1 数据血缘关系的层次

4 数据血缘的可视化


0 参考列表

数据仓库7_数据治理_数据血缘

       

1 概念

        数据血缘:数据从产生、ETL处理、加工、融合、流转,到最终消亡,这一过程中产生的数据之间的关系,称为数据血缘.血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯.

2 应用场景

        在数据的处理过程中,从数据源头到最终的数据生成,每个环节都可能会导致我们出现数据质量的问题.比如我们数据源本身数据质量不高,在后续的处理环节中如果没有进行数据质量的检测和处理,那么这个数据信息最终流转到我们的目标表,它的数据质量也是不高的.也有可能在某个环节的数据处理中,我们对数据进行了一些不恰当的处理,导致后续环节的数据质量变得糟糕.因此,对于数据的血缘关系,我们要确保每个环节都要注意数据质量的检测和处理,那么我们后续数据才会有优良的基因,即有很高的数据质量.

3 特征

        (1) 归属性:特定的数据归属特定的组织(或个人),数据具有归属性.

        (2) 多源性:同一个数据可以有多个来源, 一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个.

        (3) 可追溯性: 数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性.

        (4) 层次性: 数据的血缘关系是有层次的.对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次.

3.1 数据血缘关系的层次

所有者层次,体现了数据的提供方和需求方,其他的层次则体现了数据的来龙去脉.通过不同层级的血缘关系,可以很清楚地了解数据的迁徙流转,为数据价值的评估、数据的管理提供依据.

结构化数据的数据血缘关系的层次

数据治理 数据仓库_数据治理技术_https://bianchenghao6.com/blog__第1张

 非结构化数据的数据血缘关系的层次

数据治理 数据仓库_数据治理技术_https://bianchenghao6.com/blog__第2张

4 数据血缘的可视化

数据治理 数据仓库_数据治理技术_https://bianchenghao6.com/blog__第3张

        血缘关系的可视化图形包括5种可视化元素.

(1) 信息节点

        信息节点用来表现数据的所有者和数据层次信息或终端信息.所有者层次只有所有者的信息,其他层次则包括所有者信息和数据层次信息或者终端信息.

        信息节点有三种类型:

        ①主节点:只有一个,位于整个图形的中间,是可视化图形的核心节点.图形展示的血缘关系就是此节点的血缘关系,其他与此节点无关的血缘关系都不在图形上展示;

        ②数据流入节点:可以有多个,是主节点的父节点,表示数据来源;

        ③数据流出节点:即终端节点,可以有多个,是主节点的子节点,表示数据的去向,数据不再往下进行流转,这种数据一般用来做可视化展示.

(2) 数据流转线路

        数据流转线路表现的是数据的流转路径,从左到右流转.数据流转线路从数据流入节点出来往主节点汇聚,又从主节点流出往数据流出节点扩散.

        数据流转线路表现了三个维度的信息,分别是方向、数据更新量级、数据更新频次:

        ①方向的表现方式,没有做特别的设计,默认从上到下流转;

        ②数据更新的量级:通过线条的粗细来表现.线条越粗表示数据量级越大,线条越细则表示数据量级越小;

        ③数据更新的频次:用线条中线段的长度来表现.线段越短表示更新频次越高,线段越长表示更新频次越底,一根实线则表示只流转一次.

(3) 清洗规则节点

        清洗规则节点用来表现数据流转过程中的筛选标准.大量的数据分布在不同的地方,每个地方对数据质量的要求都有所不同,数据接受方会根据自己对数据的要求来过滤接入的数据,这些要求就形成数据标准,并依据这些标准来做数据清洗.

        在可视化图形上,清洗规则用一个标有大写字母“E”的圆圈表示,把各种规则简略化表达,以保证图形的简洁、清晰.洗规则的简略图形位于数据流转线路上,表示该线路上流转的数据符合这些标准才能继续流转下去.

(4) 转换规则节点

        从数据提供方出来的数据,有时候需要进行特殊处理才能接入到数据需求方,转换规则节点在表现形式上类似于清洗规则节点,用一个标有大写字母“T”的圆圈表示.位于数据流转线路上,用来表现数据流转过程中发生的变化、变换.

(5) 数据归档销毁规则节点

        数据是有生命周期的,当数据不再具备使用价值,他的生命就结束了,或者归档或者直接销毁.

今天的分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。

上一篇

已是最后文章

下一篇

已是最新文章

发表回复