機密データを検出して処理する - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

機密データを検出して処理する

Detect PII変換は、データソース内の個人を特定できる情報 (PII) を識別します。識別するPIIエンティティ、データのスキャン方法、Detect PII変換で識別されたPIIエンティティの処理方法を選択します。

Detect PII変換は、定義したエンティティ、または で事前定義されたエンティティを検出、マスク、または削除する機能を提供します AWS。これにより、コンプライアンスを高め、責任を軽減できます。例えば、読み取ることができるデータに個人を特定できる情報が存在しないことを確認し、社会保障番号を固定文字列 ( など xxx-xx-xxxx)、電話番号、または住所でマスクしたい場合があります。

AWS Glue Studio の外部で機密データを使用するには、「AWS Glue Studio 外での機密データ検出の使用」を参照してください。

データのスキャン方法の選択

データセットをスキャンして個人を特定できる情報 (PII) などの機密データを検索する場合、各行PIIで を検出するか、PIIデータを含む列を検出するかを選択できます。

スクリーンショットは、データソースに を含むフィールドを検出するように選択すると、Detect PII PII変換のオプションを示しています。

各セル PIIで Detect を選択すると、データソース内のすべての行をスキャンすることを選択できます。これは、PIIエンティティが特定されていることを確認するための包括的なスキャンです。

を含む Detect フィールドPIIを選択すると、PIIエンティティの行のサンプルをスキャンします。これは、PIIエンティティが見つかったフィールドを識別しながら、コストとリソースを低く抑える方法です。

を含むフィールドを検出する場合PII、行の一部をサンプリングすることでコストを削減し、パフォーマンスを向上させることができます。このオプションを選択すると、追加のオプションを指定できます。

  • Sample portion: これにより、サンプリングする行の割合を指定できます。例えば、「50」と入力すると、PIIエンティティのスキャンされた行の 50% を指定することになります。

  • 検出しきい値: これにより、列全体がPIIエンティティを持つものとして識別されるように、PIIエンティティを含む行の割合を指定できます。例えば、「10」と入力すると、スキャンされる行内のPIIエンティティ US Phone の数が 10% 以上であることを指定して、 フィールドがPIIエンティティ US Phone を持つものとして識別されます。PII エンティティを含む行の割合が 10% 未満の場合、そのフィールドにはPIIエンティティである米国電話が含まれているとラベル付けされません。

検出するPIIエンティティの選択

各セル PIIで Detect を選択した場合は、次の 3 つのオプションのいずれかを選択できます。

  • 使用可能なすべてのPIIパターン - これには AWS エンティティが含まれます。

  • カテゴリの選択 - カテゴリを選択すると、PII選択したカテゴリにパターンが自動的に含まれます。

  • 特定のパターンを選択する - 選択したパターンのみが検出されます。

マネージド機密データタイプの全リストについては、「Managed data types」を参照してください。

使用可能なすべてのPIIパターンから選択

使用可能なすべてのPIIパターン を選択した場合は、 で事前定義されたエンティティを選択します AWS。エンティティは、1 つでも、複数でも、すべてでも選択できます。

スクリーンショットは、事前定義された AWS エンティティのリストのオプションを示しています。

カテゴリを選択する

検出するPIIパターンとしてカテゴリの選択を選択した場合は、ドロップダウンメニューのオプションから選択できます。一部のエンティティは複数のカテゴリに属する場合があることに注意してください。例えば、Person の名前はユニバーサルおよびHIPAAカテゴリに属するエンティティです。

  • [Universal] (ユニバーサル) (例: [Email] (E メール)、[Credit Card] (クレジットカード))

  • HIPAA (例: 米国運転免許証、ヘルスケア共通プロシージャコーディングシステム (HCPCS) コード)

  • ネットワーク (例: IP アドレス、MACアドレス)

  • アルゼンチン

  • オーストラリア

  • オーストリア

  • ベルギー

  • ボスニア

  • ブルガリア

  • カナダ

  • チリ

  • コロンビア

  • クロアチア

  • キプロス

  • チェコ共和国

  • デンマーク

  • エストニア

  • フィンランド

  • フランス

  • ドイツ

  • ギリシャ

  • ハンガリー

  • アイルランド

  • 韓国

  • 日本

  • メキシコ

  • オランダ

  • ニュージーランド

  • ノルウェー

  • ポルトガル

  • ルーマニア

  • シンガポール

  • スロバキア

  • スロベニア

  • スペイン

  • スウェーデン

  • スイス

  • トルコ

  • ウクライナ

  • アメリカ

  • 英国

  • ベネズエラ

特定のパターンを選択する

検出するパターンとして特定のパターンを選択を選択した場合は、作成済みのパターンのリストから検索または参照するか、新しい検出エンティティパターンを作成できます。 PII

次のステップでは、機密データを検出する新しいカスタムパターンを作成する方法について説明します。カスタムパターンの名前を入力して、カスタムパターンを作成し、正規表現を追加して、オプションでコンテキスト単語を定義します。

  1. 新しいパターンを作成するには、[Create new] (新規作成) ボタンをクリックします。

    このスクリーンショットは、[Select patterns] (パターンを選択する) セクションを示しています。
  2. [Create detection entity] (検出エンティティの作成) ページで、エンティティ名と正規表現を入力します。正規表現 (Regex) は、AWS Glue がエンティティを照合するために使用するものです。

  3. [Validate] (検証) をクリックします。検証が成功すると、文字列が有効な正規表現であることを示す確認メッセージが表示されます。検証に失敗した場合は、文字列が適切なフォーマット、および許容される文字リテラル、演算子、構文のいずれかに準拠していないことを示すメッセージが表示されます。

  4. 正規表現にコンテキスト単語を追加することもできます。コンテキスト単語によって一致する可能性が高くなることがあります。コンテキスト単語は、フィールド名がエンティティを説明していない場合に有効です。例えば、社会保障番号にはSSN「」または「SS」という名前を付けることができます。これらのコンテキスト単語を追加すると、エンティティの照合に役立ちます。

  5. [Create] (作成) をクリックして、検出エンティティを作成します。作成されたエンティティは、AWS Glue Studio コンソールに表示されます。左側のナビゲーションメニューの [Detection entities] (検出エンティティ) をクリックします。

    [Detection entities] (検出エンティティ) ページから、検出エンティティの編集、削除、作成ができます。検索フィールドを使用してパターンを検索することもできます。

検出感度のレベルの指定

機密データの検出を使用する場合の感度レベルを設定できます。

  • [高] – (デフォルト) より高いレベルの感度が必要なユースケースのために、より多くのエンティティを検出します。2023 年 11 月よりも後に作成されたすべての AWS Glue ジョブは、この設定を自動的にオプトインします。

  • [低] - 検出するエンティティの数を減らし、誤検知を減らします。

スクリーンショットは、グローバル検出感度オプションを示しています。精度を高める [低] オプションもありますが、これはより厳密であり、全体的な検出数が少なくなる可能性があります。2 つ目のオプションは、より広範な検出用であり、より高度なPII検出が必要な場合に適しています。

識別されたPIIデータの処理方法の選択

データソースPII全体で検出することを選択した場合は、適用するグローバルアクションを選択できます。

  • 検出結果でデータを充実させる: 各セルPIIで Detect を選択した場合、検出されたエンティティを新しい列に保存できます。

  • 検出されたテキストを編集する: 検出されたPII値を、オプションのテキスト入力の置き換えフィールドで指定した文字列に置き換えることができます。文字列が指定されていない場合、検出されたPIIエンティティは「*******」に置き換えられます。

  • 検出されたテキストを部分的に編集: 検出されたPII値の一部を選択した文字列に置き換えることができます。可能なオプションは 2 つあります。すなわち、端をマスキングしないままにするか、または明示的な正規表現パターンを指定してマスキングするかのいずれかです。AWS Glue 2.0 では、この機能は使用できません。

  • 暗号化ハッシュを適用する: 検出されたPII値を SHA-256 暗号化ハッシュ関数に渡し、その値を関数の出力に置き換えることができます。

スクリーンショットは、 を検出するデータソース内のすべての行を選択するときの Detect PII変換のオプションを示していますPII。

AWS Glue バージョン 2.0 と 3.0 以降の相違点

AWS Glue 2.0 ジョブは、補足列の各列について検出されたPII情報 DataFrame を含む新しい を返します。マスキングまたはハッシュ作業は、ビジュアルタブの AWS Glue スクリプト内に表示されます。

AWS Glue 3.0 および 4.0 ジョブは、同じ補足列 DataFrame を持つ新しい を返します。actionUsed「」の新しいキーが存在し、DETECT、、REDACTPARTIAL_REDACTまたは のいずれかになりますSHA256_HASH。マスキングアクションが選択されている場合、 DataFrame は機密データがマスクされたデータを返します。

詳細なアクションオーバーライドの追加

追加の検出およびアクションの設定を、詳細なアクションオーバーライドテーブルに追加できます。これにより、次のことが可能になります。

  • [検出から特定の列を包含または除外] – データソース上の推論されたスキーマによって、使用可能な列がテーブルに入力されます。

  • [グローバルアクションを使用するよりも詳細な特定の設定を指定] – 例えば、エンティティタイプごとに異なるマスキングテキストの設定を指定できます。

  • [グローバルアクションとは異なるアクションを指定] – 異なる機密データタイプに異なるアクションを適用する場合は、ここで実行できます。2 つの異なる edit-in-place アクション (リダクションとハッシュ) を同じ列で使用することはできませんが、検出は常に使用できます。

スクリーンショットは、詳細なアクションオーバーライドを示しています。ジョブのJSONアクションオーバーライドとして、追加、編集、削除、編集を行うことができます。