AWS Glue データ品質 - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue データ品質

AWS Glue Data Quality では、データの品質を測定およびモニタリングできるため、ビジネス上の意思決定を適切に行うことができます。オープンソース DeeQu フレームワーク上に構築された AWS Glue Data Quality は、マネージド型のサーバーレスエクスペリエンスを提供します。 AWS Glue Data Quality は、データ品質ルールの定義に使用するドメイン固有の言語であるデータ品質定義言語 (DQDL) と連携します。DQDL とサポートされているルールタイプの詳細については、「データ品質定義言語 (DQDL) リファレンス」を参照してください。

製品の詳細および価格に関するその他詳細は、AWS Glue Data Quality のサービスページを参照してください。

利点と主な特徴

AWS Glue Data Quality の利点と主な機能は次のとおりです。

  • サーバーレス — インストール、パッチ適用、メンテナンスは不要です。

  • すぐに開始 — AWS Glue Data Quality はデータをすばやく分析し、データ品質ルールを作成します。[Create Data Quality Rules] と [Recommend rules] をクリックするだけですぐに始められます。

  • データ品質問題の検出 — 機械学習 (ML) を使用して、異常や hard-to-detect データ品質の問題を検出します。

  • ルールを改善 — 開始する 25 以上の out-of-the-box DQ ルールを使用して、特定のニーズに合ったルールを作成できます。

  • 品質を評価し、自信を持って判断を下せる — ルールを評価すると、データの状態に関する概要を示した Data Quality スコアを確認できます。この Data Quality スコアを使用すれば、自信を持ってビジネス上の判断を下せます。

  • 不良データにゼロイン — AWS Glue Data Quality を使用すると、品質スコアが引き下げられた正確なレコードを特定できます。それらをすぐに特定し、隔離して、修正できます。

  • 従量制料金 — AWS Glue Data Quality を使用するために必要な年間ライセンスはありません。

  • ロックインなし — AWS Glue Data Quality はオープンソース 上に構築されているため DeeQu、作成しているルールをオープン言語で維持できます。

  • データ品質チェック – AWS Glue データ品質 Data Catalogおよび ETL AWS Glue パイプラインにデータ品質チェックを適用することで、保管中および転送中のデータ品質を管理できます。

  • ML ベースのデータ品質検出 — 機械学習 (ML) を使用して、異常や hard-to-detect データ品質の問題を検出します。

仕組み

AWS Glue Data Quality には、 AWS Glue Data Catalog と AWS Glue ETL ジョブの 2 つのエントリポイントがあります。このセクションでは、各エントリポイントがサポートするユースケースと AWS Glue 機能の概要を説明します。

のデータ品質 AWS Glue Data Catalog

AWS Glue Data Quality は、 に保存されているオブジェクトを評価します AWS Glue Data Catalog 。これにより、非コーダーでデータ品質ルールを簡単に設定できます。例えば、データスチュワードやビジネスアナリストなどです。

この方法は、以下のようなユースケースに適しています。

  • 既に AWS Glue Data Catalogでカタログ化しているデータセットに対してデータ品質タスクを実行したい場合

  • データガバナンスに取り組んでおり、データレイク内のデータ品質に関する問題を、継続的に特定または評価する必要がある場合

データカタログのデータ品質は、次のインターフェイスで管理できます。

  • AWS Glue マネジメントコンソール

  • AWS Glue APIs

の AWS Glue Data Quality の使用を開始するには、 AWS Glue Data Catalog 「」を参照してくださいData Catalog で AWS Glue Data Quality を使用する

AWS Glue ETL ジョブのデータ品質

AWS Glue AWS Glue ETL ジョブ用の Data Quality を使用すると、プロアクティブなデータ品質タスクを実行できます。プロアクティブなタスクは、データセットをデータレイクにロードする前に不良データを特定し、除外するのに役立ちます。

ETL ジョブ向けの Data Quality は以下のようなユースケースに使用できます。

  • データ品質タスクを ETL ジョブに組み込む場合

  • データ品質タスクを定義するコードを ETL スクリプトで記述する場合

  • ビジュアルデータパイプラインに送信されるデータの品質を管理する場合

ETL ジョブのデータ品質は、次のインターフェイスで管理できます。

  • AWS Glue Studio、 AWS Glue Studio ノートブック、 AWS Glue インタラクティブセッション

  • AWS Glue ETL スクリプト用のライブラリ

  • AWS Glue APIs

ETL ジョブ向け Data Quality の使用方法については、「AWS Glue Studio ユーザーガイド」の「チュートリアル: Data Quality の使用開始」を参照してください。

データカタログ向け Data Quality と ETL ジョブ向け Data Quality の比較

この表は、 AWS Glue Data Quality の各エントリポイントがサポートする機能の概要を示しています。

機能 データカタログ向け Data Quality ETL ジョブ向け Data Quality
データソース Amazon S3、Amazon Redshift、データカタログと互換性のある JDBC ソース、および Apache Iceberg、Apache Hudi、Delta Lake などトランザクションデータレイク形式。テーブルが AWS Lake Formation 管理されている場合、Iceberg、Delta、HUDI テーブルはサポートされません。 でカタログ化された Amazon Athena ビュー AWS Glue Data Catalog はサポートされません。 カスタムコネクタやサードパーティーコネクタなど AWS Glue、 でサポートされているすべてのデータソース。
Data Quality ルールの推奨事項 サポート サポートされていません
DQDL ルールの作成と実行 サポート サポート
Auto scaling サポート外 サポート
AWS Glue Flex サポート サポート外 サポート
スケジューリング Data Quality ルールを評価するときおよび Step Functions を使用する場合にサポート Step Functions とワークフローを使用する場合にサポート
データ品質チェックに失敗したレコードの特定 サポート外 サポート
Amazon EventBridge との統合 サポート サポート
AWS Cloudwatch との統合 サポート サポート
データ品質評価の結果を Amazon S3 に書き込む サポート サポート
増分的なデータ品質 プッシュダウン述語によりサポート AWS Glue ブックマークでサポートされる
AWS CloudFormation サポート サポート サポート
ML ベースの異常検出 サポートされていません プレビュー
動的ルール サポート外 サポート

考慮事項

AWS Glue Data Quality を使用する前に、次の項目を考慮してください。

  • データ品質ルールは、ネストされたデータソースやリストタイプのデータソースを評価することはできません。ネストされた Struct のフラット化 を参照してください。

用語

次のリストでは、 AWS Glue Data Quality に関連する用語を定義します。

データ品質定義言語 (DQDL)

AWS Glue Data Quality ルールの記述に使用できるドメイン固有の言語。

DQDL の詳細については、データ品質定義言語 (DQDL) リファレンス のガイドを参照してください。

データ品質

データセットが特定の目的をどの程度果たしているかについて説明します。 AWS Glue Data Quality は、データセットに対してルールを評価してデータ品質を測定します。各ルールは、データの鮮度や整合性などの特性を確認します。データ品質を数値化するには、データ品質スコアを使用できます。

データ品質スコア

Data Quality でルールセットを評価するときに合格する (true になる) AWS Glue データ品質ルールの割合。

ルール

データにおける特性を確認し、ブール値を返す DQDL 式。詳細については、「ルールの構造」を参照してください。

analyzer

データ統計を収集する DQDL 式。アナライザーは、ML アルゴリズムが異常やデータ品質の問題を経時的に検出するために使用できる hard-to-detect データ統計を収集します。

ルールセット

一連のデータ品質ルールで構成される AWS Glue リソース。ルールセットは、 AWS Glue Data Catalog内のテーブルと関連付ける必要があります。ルールセットを保存すると、 AWS Glue は Amazon リソースネーム (ARN) をルールセットに割り当てます。

データ品質スコア

AWS Glue Data Quality でルールセットを評価する際に、合格する (結果が true になる) データ品質ルールの割合。

監視

ルールやアナライザーから収集されたデータ統計を経時的に分析することで、AWS Glue によって得られる未確認のインサイト。

AWS Glue Data Quality のリリースノート

このトピックでは、 AWS Glue Data Quality で導入された機能について説明します。

一般提供を開始: 新機能

AWS Glue Data Quality の一般提供では、以下の新機能が利用可能です。

  • データ品質チェックに失敗したレコードを特定する機能が でサポートされるようになりました。 AWS Glue Studio

  • 新しいデータ品質のルールタイプ。2 つのデータセット間におけるデータの参照整合性の検証、2 つのデータセット間におけるデータの比較、データタイプのチェックなど

  • でのユーザーエクスペリエンスの向上 AWS Glue Data Catalog

  • Apache Iceberg、Apache Hudi、Delta Lake のサポート

  • Amazon Redshift のサポート

  • Amazon EventBridge による簡素化された通知

  • AWS CloudFormation ルールセット作成の サポート

  • パフォーマンスの向上: ETL のキャッシュオプションと AWS Glue Studio によるデータ品質の評価時のパフォーマンスの向上

2023 年 11 月 27 日 (プレビュー)

2024 年 3 月 12 日

  • NULL、BLANKS、WHITESPACES_ONLY などのキーワードのサポート

  • バグ修正: 行に NULL 値があると失敗する ColumnValues ようになりました

  • 複合ルールを評価するオプション