AWS Glue データ品質 - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue データ品質

AWS Glue Data Quality では、データの品質を測定およびモニタリングできるため、ビジネス上の適切な意思決定を行うことができます。オープンソース DeeQu フレームワーク上に構築された AWS Glue Data Quality は、マネージド型のサーバーレスエクスペリエンスを提供します。 AWS Glue Data Quality は、データ品質ルールの定義に使用するドメイン固有の言語である Data Quality Definition Language (DQDL) と連携します。DQDL とサポートされているルールタイプの詳細については、「データ品質定義言語 (DQDL) リファレンス」を参照してください。

製品の詳細および価格に関するその他詳細は、AWS Glue Data Quality のサービスページを参照してください。

利点と主な特徴

AWS Glue Data Quality の利点と主な機能は次のとおりです。

  • サーバーレス — インストール、パッチ適用、メンテナンスは不要です。

  • すぐに開始 — AWS Glue Data Quality はデータをすばやく分析し、データ品質ルールを作成します。[Create Data Quality Rules] と [Recommend rules] をクリックするだけですぐに始められます。

  • データ品質の問題の検出 — 機械学習 (ML) を使用して異常や hard-to-detect データ品質の問題を検出します。

  • ルールを改善 – 開始する 25 以上の out-of-the-box DQ ルールを使用して、特定のニーズに合ったルールを作成できます。

  • 品質を評価し、自信を持って判断を下せる — ルールを評価すると、データの状態に関する概要を示した Data Quality スコアを確認できます。この Data Quality スコアを使用すれば、自信を持ってビジネス上の判断を下せます。

  • 不良データをゼロにする – AWS Glue Data Quality は、品質スコアの低下の原因となった正確なレコードを特定するのに役立ちます。それらをすぐに特定し、隔離して、修正できます。

  • 従量制料金 – AWS Glue Data Quality を使用するために必要な年間ライセンスはありません。

  • ロックインなし – AWS Glue Data Quality はオープンソース 上に構築されているため DeeQu、オーサリングするルールをオープン言語で保持できます。

  • データ品質チェック – AWS Glue データ品質 Data Catalogおよび ETL AWS Glue パイプラインにデータ品質チェックを適用することで、保管中および転送中のデータ品質を管理できます。

  • ML ベースのデータ品質検出 — 機械学習 (ML) を使用して、異常や hard-to-detect データ品質の問題を検出します。

仕組み

AWS Glue Data Quality には、 AWS Glue Data Catalog と AWS Glue ETL ジョブの 2 つのエントリポイントがあります。このセクションでは、各エントリポイントがサポートするユースケースと AWS Glue 機能の概要を説明します。

のデータ品質 AWS Glue Data Catalog

AWS Glue Data Quality AWS Glue Data Catalog は、 に保存されているオブジェクトを評価します。非コーダーを使用すると、データ品質ルールを簡単にセットアップできます。例えば、データスチュワードやビジネスアナリストなどです。

この方法は、以下のようなユースケースに適しています。

  • 既に AWS Glue Data Catalogでカタログ化しているデータセットに対してデータ品質タスクを実行したい場合

  • データガバナンスに取り組んでおり、データレイク内のデータ品質に関する問題を、継続的に特定または評価する必要がある場合

データカタログのデータ品質は、次のインターフェイスで管理できます。

  • AWS Glue マネジメントコンソール

  • AWS Glue APIs

の AWS Glue Data Quality の使用を開始するには、 AWS Glue Data Catalog 「」を参照してくださいData Catalog で AWS Glue Data Quality を使用する

AWS Glue ETL ジョブのデータ品質

AWS Glue AWS Glue ETL ジョブの Data Quality を使用すると、プロアクティブなデータ品質タスクを実行できます。プロアクティブなタスクは、データセットをデータレイクにロードする前に不良データを特定し、除外するのに役立ちます。

ETL ジョブ向けの Data Quality は以下のようなユースケースに使用できます。

  • データ品質タスクを ETL ジョブに組み込む場合

  • データ品質タスクを定義するコードを ETL スクリプトで記述する場合

  • ビジュアルデータパイプラインに送信されるデータの品質を管理する場合

ETL ジョブのデータ品質は、次のインターフェイスで管理できます。

  • AWS Glue Studio、 AWS Glue Studio ノートブック、 AWS Glue インタラクティブセッション

  • AWS Glue ETL スクリプト用の ライブラリ

  • AWS Glue APIs

ETL ジョブ向け Data Quality の使用方法については、「AWS Glue Studio ユーザーガイド」の「チュートリアル: Data Quality の使用開始」を参照してください。

データカタログ向け Data Quality と ETL ジョブ向け Data Quality の比較

この表は、 AWS Glue Data Quality の各エントリポイントがサポートする機能の概要を示しています。

機能 データカタログ向け Data Quality ETL ジョブ向け Data Quality
データソース Amazon S3、Amazon Redshift、データカタログと互換性のある JDBC ソース、および Apache Iceberg、Apache Hudi、Delta Lake などトランザクションデータレイク形式。テーブルが AWS Lake Formation 管理されている場合、Iceberg、Delta、HUDI テーブルはサポートされません。 でカタログ化されている Amazon Athena ビュー AWS Glue Data Catalog はサポートされません。 カスタムコネクタとサードパーティーコネクタを含む AWS Glue、 でサポートされているすべてのデータソース。
Data Quality ルールの推奨事項 サポート サポートされていません
DQDL ルールの作成と実行 サポート サポート
Auto scaling サポート外 サポート
AWS Glue Flex サポート サポート外 サポート
スケジューリング Data Quality ルールを評価するときおよび Step Functions を使用する場合にサポート Step Functions とワークフローを使用する場合にサポート
データ品質チェックに失敗したレコードの特定 サポート外 サポート
Amazon EventBridge との統合 サポート サポート
AWS Cloudwatch との統合 サポート サポート
データ品質評価の結果を Amazon S3 に書き込む サポート サポート
増分的なデータ品質 プッシュダウン述語によりサポート AWS Glue ブックマークでサポート
AWS CloudFormation サポート サポート サポート
ML ベースの異常検出 サポートされていません プレビュー
動的ルール サポート外 サポート

考慮事項

AWS Glue Data Quality を使用する前に、次の項目を考慮してください。

  • データ品質ルールは、ネストされたデータソースやリストタイプのデータソースを評価することはできません。ネストされた Struct のフラット化 を参照してください。

用語

次のリストでは、 AWS Glue Data Quality に関連する用語を定義します。

データ品質定義言語 (DQDL)

AWS Glue Data Quality ルールの記述に使用できるドメイン固有の言語。

DQDL の詳細については、データ品質定義言語 (DQDL) リファレンス のガイドを参照してください。

データ品質

データセットが特定の目的にどの程度役立つかについて説明します。 AWS Glue Data Quality は、データセットに対してルールを評価し、データ品質を測定します。各ルールは、データの鮮度や整合性などの特性を確認します。データ品質を数値化するには、データ品質スコアを使用できます。

データ品質スコア

Data Quality でルールセットを評価するときに合格する (true になる) AWS Glue データ品質ルールの割合。

ルール

データにおける特性を確認し、ブール値を返す DQDL 式。詳細については、「ルールの構造」を参照してください。

analyzer

データ統計を収集する DQDL 式。アナライザーは、ML アルゴリズムが異常やデータ品質の問題を経時的に検出するために使用できる hard-to-detect データ統計を収集します。

ルールセット

一連のデータ品質ルールで構成される AWS Glue リソース。ルールセットは、 AWS Glue Data Catalog内のテーブルと関連付ける必要があります。ルールセットを保存すると、 AWS Glue は Amazon リソースネーム (ARN) をルールセットに割り当てます。

データ品質スコア

AWS Glue Data Quality でルールセットを評価する際に、合格する (結果が true になる) データ品質ルールの割合。

監視

ルールやアナライザーから収集されたデータ統計を経時的に分析することで、AWS Glue によって得られる未確認のインサイト。

制限

AWS Glue Data Quality サービスの制限:

  • ルールセットには 2000 個のルールを含めることができます。ルールセットが大きい場合は、複数のルールセットに分割することをお勧めします。

  • ルールセットのサイズは 65KBです。ルールセットが大きい場合は、複数のルールセットに分割することをお勧めします。

AWS Glue Data Quality のリリースノート

このトピックでは、 AWS Glue Data Quality で導入された機能について説明します。

一般提供を開始: 新機能

AWS Glue Data Quality の一般提供では、以下の新機能が利用可能です。

  • で、失敗したデータ品質チェックのレコードを識別する機能がサポートされるようになりました。 AWS Glue Studio

  • 新しいデータ品質のルールタイプ。2 つのデータセット間におけるデータの参照整合性の検証、2 つのデータセット間におけるデータの比較、データタイプのチェックなど

  • でのユーザーエクスペリエンスの向上 AWS Glue Data Catalog

  • Apache Iceberg、Apache Hudi、Delta Lake のサポート

  • Amazon Redshift のサポート

  • Amazon による通知の簡素化 EventBridge

  • AWS CloudFormation ルールセットの作成のサポート

  • パフォーマンスの向上: ETL および のキャッシュオプション AWS Glue Studio により、データ品質を評価する際のパフォーマンスが向上します。

2023 年 11 月 27 日 (プレビュー)

2024 年 3 月 12 日

2024 年 6 月 26 日

  • DQDL の改良点

    • DQDL は where 句をサポートするようになり、DQ ルールを適用する前にデータをフィルタリングできるようになりました。