データのソースと流れの追跡は手間がかかる作業です。組織が情報システムを蓄積するにつれて、データのエントリポイントや移動し続けるデータの変換ルールも蓄積されていきます。加えて、データ統合ツール、抽出/変換/書き出し(ETL)ツール、手続き型コード、さらにはAPIおよびビジネスインテリジェンス(BI)レポートも、絶えずデータを集約し、変換しています。このため、組織内のシステム間に形成された複雑なデータ網を手作業でまとめ、把握し、その流れをシンプルに視覚化するのは困難です。自動化されたデータリネージュは、IT部門、データ・ガバナンス・チーム、およびビジネスユーザに組織データの最新の可視性とコンテキストを提供します。これにより、作業効率を上げ、意思決定をより健全にし、自由に利用できるデータの活用と保護を向上することができます。
データリネージュによってデータがどこで生成され、どのように変換され、組織内をどのように移動したかを把握できます。また、これだけではなく、技術的属性、ビジネス属性、ガバナンスをまとめ、機密データやその他のデータの分類に注目し、データ品質の問題の根本原因分析をユーザが迅速に実行できるようサポートするなど、データ品質を可視化することもできます。自動影響分析機能がない場合でも、この機能と組み合わせて使用する場合でも、データリネージュは、潜在的なデータ管理、データインテリジェンス、およびデータプラットフォームの移行による影響の範囲を確認し、評価するうえできわめて有効です。
データリネージュには、ビジネスリネージュと技術リネージュの両方が含まれます。
ビジネスリネージュでは、データ・ガバナンス・チームおよびビジネスユーザが、組織のデータランドスケープ内の異なるデータソース間のデータの流れを把握するために役立つようデータソースの概要に注目します。
技術リネージュでは、技術ユーザが組織のデータ過程を把握できるよう、テーブルや列のレベルにおける組織のデータの流れ、基礎となる変換階層およびルール、一時テーブル/ファイル、対象となるその他のオブジェクトに注目します。
組織がデータの価値を理解し、変更の影響を簡単に評価するためには、ビジネスリネージュと技術リネージュの両方の視点が非常に重要です。ビジネスリネージュから技術リネージュへ、またその逆へドリルダウンする機能により、データアナリストにさらなる柔軟性を提供するため、データの流れの適切な見解を迅速に得ることができます。自動化されたすべてのデータリネージュが同じ方法で提供されるわけではありません。参照されたリネージュは、要素または属性名と構成に基づいてリネージュをまとめることができます。さらに詳細なデータリネージュは要素レベルのコードに基づいており、より信頼性が高くなります。
データリネージュは、解析が困難なコードのパターンを取得するAIを使用することで、さらなるインテリジェントを実現できるように急速に進化しています。