Amazon のデータ系統 DataZone (プレビュー) - Amazon DataZone

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon のデータ系統 DataZone (プレビュー)

重要

現在、Amazon のデータ系統機能はプレビューリリース DataZone 中です。

Amazon のデータ系統 DataZone は、 API 駆動型の OpenLineage互換性のある機能であり、 OpenLineage対応システムから、または APIs を介して系統イベントをキャプチャして視覚化し、データオリジンの追跡、変換の追跡、組織間のデータ使用量の表示に役立ちます。これにより、データアセットを包括的に表示して、アセットのオリジンとその接続チェーンを確認できます。系統データには、カタログ化されたアセット、それらのアセットのサブスクライバー、APIs を使用してプログラムでキャプチャされたビジネス DataZoneデータカタログ外で発生するアクティビティに関する情報など、Amazon のビジネスデータカタログ内のアクティビティに関する情報が含まれます。

Amazon DataZoneの OpenLineage互換 APIs を使用すると、ドメイン管理者とデータプロデューサーは、Amazon S3 DataZone、 AWS Glue、その他の サービスでの変換など、Amazon で利用可能なものを超える系統イベントをキャプチャして保存できます。 Amazon S3 これにより、データコンシューマーが包括的なビューを表示し、アセットのオリジンの信頼性を高めることができます。一方、データプロデューサーは、その使用状況を理解することで、アセットへの変更の影響を評価できます。さらに、Amazon DataZone バージョンは各イベントにリネージされるため、ユーザーは任意の時点でリネージを視覚化したり、アセットまたはジョブの履歴全体の変換を比較したりできます。この過去の系統は、データの進化方法をより深く理解し、トラブルシューティング、監査、データアセットの整合性の確保に不可欠です。

データ系統を使用すると、Amazon で次のことを実行できます DataZone。

  • データの出所を理解する: データの出所を知ると、その起源、依存関係、変換を明確に理解できるため、データの信頼が促進されます。この透明性は、信頼できるデータ主導の意思決定に役立ちます。

  • データパイプラインへの変更の影響を理解します。データパイプラインに変更が加えられると、系統を使用して、影響を受けるすべてのダウンストリームコンシューマーを特定できます。これにより、重要なデータフローを中断することなく、変更を確実に行うことができます。

  • データ品質の問題の根本原因を特定します。ダウンストリームレポートでデータ品質の問題が検出された場合、系統、特に列レベルの系統を使用してデータをトレースし (列レベルで)、問題を特定してソースに戻すことができます。これにより、データエンジニアは問題を特定して修正できます。

  • データガバナンスとコンプライアンスの向上: データガバナンスとプライバシー規制への準拠を示すために、列レベルの系統を使用できます。例えば、列レベルの系統を使用して、機密データ (PII など) の保存場所とダウンストリームアクティビティでの処理方法を表示できます。

Amazon の系統ノードのタイプ DataZone

Amazon では DataZone、データ系統情報はテーブルとビューを表すノードに表示されます。プロジェクトのコンテキストに応じて、例えば、データポータルの左上で選択されたプロジェクトでは、プロデューサーはインベントリアセットと公開アセットの両方を表示できますが、コンシューマーは公開アセットのみを表示できます。アセットの詳細ページで系統タブを初めて開くと、カタログ化されたデータセットノードが、系統グラフの系統ノードを上流または下流に移動する開始点になります。

Amazon でサポートされているデータ系統ノードのタイプは次のとおりです DataZone。

  • データセットノード - このノードタイプには、特定のデータアセットに関するデータ系統情報が含まれます。

    • Amazon DataZone カタログで公開された AWS Glue または Amazon Redshift アセットに関する情報を含むデータセットノードは自動生成され、ノード内に対応する AWS Glue または Amazon Redshift アイコンが含まれます。

    • Amazon DataZone カタログで公開されていないアセットに関する情報を含むデータセットノードは、ドメイン管理者 (プロデューサー) によって手動で作成され、ノード内のデフォルトのカスタムアセットアイコンで表されます。

  • ジョブ (実行) ノード - このノードタイプには、特定のジョブの最新の実行や実行の詳細など、ジョブの詳細が表示されます。このノードはジョブの複数の実行もキャプチャし、ノードの詳細の履歴タブで表示できます。ノードアイコンを選択すると、ノードの詳細を表示できます。

系統ノードの主要な属性

系統ノードの sourceIdentifier 属性は、データセットで発生するイベントを表します。系統ノードsourceIdentifierの は、データセット (テーブル/ビューなど) の識別子です。これは系統ノードでの一意性の適用に使用されます。例えば、同じ を持つ 2 つの系統ノードを持つことはできませんsourceIdentifier。以下は、さまざまなタイプのノードsourceIdentifierの値の例です。

  • それぞれのデータセットタイプを持つデータセットノードの場合:

    • アセット: amazon.datazone.asset/<assetId >

    • 一覧表示 (公開アセット): amazon.datazone.listing/<listingId >

    • AWS Glue テーブル: arn:aws:glue:<region>:<account-id>:table/<database>/<table-name>

    • Amazon Redshift テーブル/ビュー: arn:aws:<redshift/redshift-serverless>:<region>:<account-id>:<table-type(table/view etc)>/<clusterIdentifier /workgroupName >/<database>/<schema>/<table-name>

    • オープン系統実行イベントを使用してインポートされた他のタイプのデータセットノードの場合、入出力データセットの <名前空間>/<名前> がノードsourceIdentifierの として使用されます。

  • ジョブの場合:

    • オープン系統実行イベントを使用してインポートされたジョブノードの場合、<jobs_namespace>.<job_name> が sourceIdentifier として使用されます。

  • ジョブ実行の場合:

    • オープン系統実行イベントを使用してインポートされたジョブ実行ノードの場合、<jobs_namespace>.<job_name>/<run_id> が sourceIdentifier として使用されます。

createAsset API を使用して作成されたアセットの場合、 は createAssetRevision API を使用して更新し、アセットをアップストリームリソースにマッピングできるようにsourceIdentifierする必要があります。

データ系統の視覚化

Amazon DataZoneのアセット詳細ページでは、データ系統をグラフィカルに表示できるため、アップストリームまたはダウンストリームのデータ関係を簡単に視覚化できます。アセットの詳細ページには、グラフをナビゲートするための以下の機能があります。

  • 列レベルの系統: データセットノードで使用可能な場合は、列レベルの系統を拡張します。これにより、ソース列情報が利用可能な場合、アップストリームまたはダウンストリームのデータセットノードとの関係が自動的に表示されます。

  • 列検索: 列数のデフォルト表示が 10 の場合。列が 10 を超える場合、ページ分割がアクティブ化され、残りの列に移動します。特定の列をすばやく表示するには、検索された列のみを一覧表示するデータセットノードで検索できます。

  • データセットノードのみを表示する: データセット系統ノードのみを表示し、ジョブノードを除外するように切り替える場合は、グラフビューワーの左上にあるオープンビューコントロールアイコンを選択し、データセットノードのみの表示オプションを切り替えることができます。これにより、グラフからすべてのジョブノードが削除され、データセットノードのみをナビゲートできます。ビューのみのデータセットノードがオンになっている場合、グラフをアップストリームまたはダウンストリームに展開することはできません。

  • 詳細ペイン: 各系統ノードには詳細がキャプチャされ、選択時に表示されます。

    • データセットノードには、特定のタイムスタンプについてそのノードについてキャプチャされたすべての詳細を表示する詳細ペインがあります。すべてのデータセットノードには、系統情報、スキーマ、履歴タブの 3 つのタブがあります。履歴タブには、そのノードでキャプチャされた系統イベントのさまざまなバージョンが一覧表示されます。API からキャプチャされたすべての詳細は、メタデータフォームまたは JSON ビューワーを使用して表示されます。

    • ジョブノードには、ジョブの詳細を、ジョブ情報、履歴などのタブで表示する詳細ペインがあります。詳細ペインには、ジョブ実行の一部としてキャプチャされたクエリまたは式もキャプチャされます。履歴タブには、そのジョブでキャプチャされたジョブ実行イベントのさまざまなバージョンが一覧表示されます。API からキャプチャされたすべての詳細は、メタデータフォームまたは JSON ビューワーを使用して表示されます。

  • バージョンタブ: Amazon DataZone データ系統のすべての系統ノードにはバージョニングがあります。すべてのデータセットノードまたはジョブノードについて、バージョンは履歴としてキャプチャされ、異なるバージョン間を移動して、時間の経過とともに何が変更されたかを特定できます。各バージョンでは、リネージページに新しいタブが開き、比較やコントラストに役立ちます。

Amazon でのデータ系統認証 DataZone

書き込みアクセス許可 - Amazon に系統データを発行するには DataZone、PostLineageEventAPI に対する ALLOWアクションを含むアクセス許可ポリシーを持つ IAM ロールが必要です。この IAM 認証は API Gateway レイヤーで行われます。

読み取りアクセス許可 - 2 つのオペレーションがあります。 GetLineageNode ListLineageNodeHistory と はAmazonDataZoneDomainExecutionRolePolicy管理ポリシーに含まれているため、Amazon DataZone ドメインのすべてのユーザーがこれらを呼び出してデータ系統グラフをトラバースできます。

Amazon でのデータ系統サンプルエクスペリエンス DataZone

データ系統サンプルエクスペリエンスを使用して、データ系統グラフのアップストリームまたはダウンストリームのトラバース DataZone、バージョンと列レベルのリネージの探索など、Amazon のデータ系統を参照および理解できます。

Amazon でサンプルデータ系統エクスペリエンスを試すには、以下の手順を実行します DataZone。

  1. Amazon DataZone データポータル URL に移動し、シングルサインオン (SSO) または AWS 認証情報を使用してサインインします。Amazon DataZone 管理者の場合は、https://console.aws.amazon.com/datazone で Amazon DataZone コンソールに移動し、 AWS アカウント ドメインが作成された でサインインし、データポータルを開く を選択します。

  2. 使用可能なデータアセットを選択して、アセットの詳細ページを開きます。

  3. アセットの詳細ページで、系統タブを選択し、プレビュー を選択しサンプル系統を試す を選択します。

  4. データ系統ポップアップウィンドウで、ガイド付きデータ系統ツアーの開始を選択します

    この時点で、系統情報のすべてのスペースを提供する全画面表示タブが表示されます。サンプルデータ系統グラフは、最初は、アップストリームとダウンストリームの両端に深さが 1 のベースノードで表示されます。グラフはアップストリームまたはダウンストリームに展開できます。列情報は、系統がノードをどのように流れるかを選択して確認することもできます。

Amazon DataZone データ系統をプログラムで使用する

Amazon でデータ系統機能を使用するには DataZone、次の APIsを呼び出すことができます。