異常検出の設定とインサイトの生成 - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

異常検出の設定とインサイトの生成

AWS Glue Data Quality (DQ) は、ユーザーが作成したデータ品質ルールに基づいてデータを評価し、長期にわたるデータに関するインサイトや観察結果を提供するため、ユーザーはすぐに行動を起こすことができます。Data Quality はデータをスキャンするため、行数、最大値、最小値などの統計メトリクスを計算し、それらをしきい値式と比較します。

Data Quality による異常検出には次のようなメリットがあります。

  • データの継続的な自動スキャン

  • 意図しないイベントや統計上の異常を示唆する異常の検出

  • Data Quality の異常検知で明らかになった観察結果に対して対策を講じるためのルールの推奨事項を提示

これは次のような場合に役立ちます。

  • データ品質を記述することなく、データの異常を自動的に検出したい

  • データをプロファイリングして、データがどのように見えるかを視覚的に表現したい

  • データの経時的変化を追跡したい

自分のデータについて、観察結果はどのように表示できますか?

Data Quality は、収集されたデータ統計における外れ値、データ形式の変更、データドリフト、スキーマの変更を特定します。Data Quality は観察結果に基づいて、ユーザーが簡単に運用できるデータ品質ルールを推奨します。統計には、完全性、一意性、平均、合計、エントロピー StandardDeviation、およびが含まれます。 DistinctValuesCount UniqueValueRatio

AWS Glue Studio での異常検出の有効化

異常検出を有効にするには、AWS Glue Studio ジョブを開いて [異常検出を有効にする] をオンにします。これをオンにするとデータの異常検出が可能になり、データを経時的に分析し、データや観察結果に関するデータ統計が提供され、それに基づいて行動できるようになります。

AWS Glue Studio で異常検出を有効にするには:
  1. ジョブの [Data Quality] ノードを選択し、[異常検出] タブをクリックします。[異常検出を有効にする] をオンに切り替えます。

    スクリーンショットでは、[異常検出を有効にする] のトグルがオンになっています。
  2. [アナライザーを追加] を選択して、異常を監視するデータを定義します。入力できるフィールドには、[統計] と [データ] の 2 つがあります。

    統計は、データの形状やその他の特性に関する情報です。一度に 1 つまたは複数の統計情報を選択することも、すべての統計情報を選択することもできます。統計には、完全性、一意性、平均、合計、エントロピー、およびが含まれます。 StandardDeviation DistinctValuesCount UniqueValueRatio

    データはデータセット内の列です。すべての列を選択することも、個々の列を選択することもできます。

    スクリーンショットは、[統計] と [データ] のフィールドを示しています。どの統計をデータセットに適用するか、どの列に適用するかを選択できます。
  3. [異常検出範囲を追加] を選択して変更を保存します。アナライザーを作成したら、[異常検出範囲] セクションで確認できます。

    [アクション] メニューを使用してアナライザーを編集したり、[ルールセットエディター] タブを選択してルールセットエディターのメモ帳でアナライザーを直接編集したりすることもできます。保存したアナライザーは、作成したルールのすぐ下に表示されます。

    Rules = [ ] Analyzers = [ Completeness “id” ]

    更新されたルールセットとアナライザーにより、Data Quality は受信データを継続的に監視し、設定に基づいてアラートやジョブ停止を通じて異常を通知します。

注記

観察結果は、データセット内のデータ統計ごとに 3 つ以上の値が観測された場合に生成されます。観察結果が表示されない場合、[データ品質] には観察結果を生成するのに十分なデータがありません。ジョブを数回実行することにより、[データ品質] でデータに関するインサイトを提供することができ、そのインサイトは [観察結果] セクションに表示されます。

アナライザーはデータ内の異常を検出して観察結果を生成し、ルールを段階的に構築するための推奨事項を提示します。観察結果は [データ品質] タブを選択すると表示できます。観察結果はジョブの実行ごとに異なります。[観察結果] セクションの上部には、特定の Data Quality ノードとジョブ実行が表示されます。新しいノードまたはジョブ実行を選択すると、そのノードとジョブに固有の観察結果が表示されます。

スクリーンショットは、ジョブの [データ品質] タブと、ジョブ実行時に表示される観察結果を示しています。

観察結果 — 各インサイトは、指定したルールセットとアナライザーによって設定された特定のジョブ実行に基づいています。

関連メトリクス — 観察結果が生成されると、[関連メトリクス] 列には、ルール、実際の値、期待値、下限と上限が表示されます。

ルールの推奨事項 — AWS Glue はその後、これに対処するためのルールを推奨します。推奨されている各ルールは、コピーアイコンをクリックしてコピーできます。推奨ルールをすべてコピーするには、各ルールの横にあるコピーアイコンをクリックし、[コピーしたルールを適用] をクリックします。

監視対象データ — [監視対象データ] 列には、監視対象となり観察結果をもたらす要因となった列または行が表示されます。

観察結果が生成され、推奨ルールが提供されたら、そのルールをデータ品質ノードに適用できます。これを実行するには:

  1. 各推奨ルールの横にあるコピーアイコンをクリックします。これでルール推奨事項がメモ帳に追加され、後で読み込むことができます。

  2. [推奨ルールを適用] をクリックします。メモ帳が開き、以前にコピーしたルールを確認できます。

  3. [ルールをコピー] を選択します。

  4. [ルールセットエディターに適用] を選択します。ルールセットエディターが開き、コピーしたルールを貼り付けることができます。

  5. コピーしたルールをルールセットエディターに貼り付けます。