Data Quality ルールビルダー - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Data Quality ルールビルダー

データ品質定義言語 (DQDL) ルールビルダーを使用すると、データを評価するデータ品質ルールを作成できます。最初にルールタイプを選択し、次にルールエディタでパラメータを指定します。ルールエディタには、ルールを作成する際のエラーや警告も表示されます。

DQDL のガイドには、DQDL 構文、組み込みのルールタイプ、および例を使用してルールを作成する方法に関する、包括的なドキュメントが用意されています。

データ品質評価ノード

データ品質評価変換ノードと DQDL ルールビルダーを使用する際に、作業スペースを拡張できます。

  • [変換] タブを画面全体に展開するには、ノードの詳細パネルの右上隅にある展開アイコンを選択します。

  • DQDL ルールエディタを展開するには、[<<] アイコンを選択してルールエディタを展開し、[Rule types] タブと [スキーマ] タブを折りたたみます。

    このスクリーンショットは、データ品質評価ノードを含むジョブ図を示しています。

コンポーネント

AWS Glue Studio には 26 のルールタイプが組み込まれています。各ルールタイプには、その使用方法の説明と例があります。

データ品質ルールタイプ

AWS Glue Studio には、ルールを簡単に作成するためのルールタイプが組み込まれています。ルールタイプの詳細については、「DQDL ルールタイプリファレンス」を参照してください。

Schema

[Schema] (スキーマ) タブには、親ノードの列名とデータ型が表示されます。複数のノードのスキーマが表示されます。入力スキーマを表示したり、列名で検索したり、ルールエディタに列を挿入したりできます。

このスクリーンショットは、ルールエディタに「完全性」ルールタイプを使用した完全なルールを示しています。

ルールエディタ

ルールエディタは、ルールを作成および編集できるテキストエディタす。DQDL ルールビルダーからルールタイプを選択すると、そのルールタイプがルールエディタに追加されます。その後、テキストを変更することで、必要に応じてパラメータを指定したり、ルールを追加したり、ルールを編集したりできます。AWS Glue Studio はルールエディタ内のルールを検証し、エラーと警告がある場合はそれらを表示します。

エラーおよび警告

ルールが DQDL ルール構文に従っていない場合、エラーがあることを視覚的に示すいくつかのインジケータがルールエディタに表示されます。

  • ルールエディタにエラーアイコンが表示され、エラーのある行が赤くなります。

  • ルールエディタでは、赤いエラーアイコンの横にエラーの数が表示されます。

  • エラーのある行を選択すると、エラーの説明と場所 (行と列) がルールエディタの下部に表示されます。

このスクリーンショットは、1 行目にエラーインジケータがあり、ルールエディタの下部にエラー数が表示された DQDL ルールエディタを示しています。その下はエラーの説明です。

データ品質アクション

デフォルトでは、このアクションは選択されておらず、データ品質ルールが失敗した場合でもそのジョブの実行は完了します。

次のアクションの中から選択します。アクションを使用して、特定の基準に基づいて結果を CloudWatch に公開したり、ジョブを停止したりできます。アクションは、ルールを作成した後にのみ使用できます。

  • [Publish results to CloudWatch] – ジョブを実行し、その結果を CloudWatch に追加します。

  • [Fail job when data quality fails] – データ品質ルールが失敗すると、結果的にジョブも失敗します。

データ品質変換出力

  • [Original data] – 元の入力データを出力することを選択します。このオプションは、品質の問題が検出されたときにジョブを停止する場合に理想的です。

  • [Data quality metrics] – 設定したルールとその合格または不合格のステータスを出力するように選択します。このオプションは、カスタムアクションを実行する場合に便利です。

データ品質出力設定

Amazon S3 の場所をデータ品質出力先として指定し、データ品質結果の場所を設定します。