Amazon Macie でのカスタムデータ識別子の構築 - Amazon Macie

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Macie でのカスタムデータ識別子の構築

カスタムデータ識別子は、機密データを検出するために定義する基準のセットです。基準は、一致するテキストパターン、オプションで文字シーケンス、結果を絞り込む近接ルールを定義する正規表現 (正規表現) から設定されています。

カスタムデータ識別子を使用すると、従業員 ID、顧客アカウント番号、内部データの分類など、組織の特定のシナリオ、知的財産、または独自のデータを反映する検出基準を定義できます。機密データ検出ジョブまたは機密データ自動検出をこれらの識別子を使用するように設定すると、Amazon Macie が提供しているマネージドデータ識別子を補足する方法で S3 オブジェクトを分析できます。

検出基準に加えて、カスタムデータ識別子が生成する機密データ結果のカスタム重要度設定を定義できます。デフォルトでは、Macie はカスタムデータ識別子が生成するすべての結果に中重要度を自動的に割り当てます。カスタムデータ識別子の検出基準に一致するテキストの出現回数に基づいて重要度が変化することはありません。カスタム重要度設定を定義することにより、基準に一致するテキストの出現回数に基づいて、割り当てる重要度を指定できます。

カスタムデータ識別子の検出基準の定義

各カスタムデータ識別子を作成するときに、S3 オブジェクト内で一致するテキストパターンを定義する正規表現 (正規表現) を指定します。Macie は、Perl 互換正規表現 (PCRE) ライブラリによって提供される正規表現パターン構文のサブセットをサポートしています。詳細については、このセクションで後述する正規表現のサポートを参照してください。

また、単語やフレーズなどの文字シーケンス、および結果を絞り込む近接ルールを指定することもできます。

キーワード

これらは、正規表現パターンに一致するテキストの近接内にある必要がある文字シーケンスです。近接要件は、S3 オブジェクトのストレージ形式またはファイルタイプによって異なります。

  • 構造化列データでは、テキストが正規表現パターンに一致し、キーワードがテキストを保存するフィールドまたは列の名前に含まれている場合、またはテキストの前にキーワードがあり、かつテキストが同じフィールドまたはセル値内のキーワードの最大一致距離内にある場合に、Macie は結果をレポートします。これは、Microsoft Excel ワークブック、CSV ファイル、および TSV ファイルに当てはまります。

  • 構造化レコードベースデータでは、テキストが正規表現パターンに一致し、テキストがキーワードの最大一致距離内にある場合、Macie は結果を含めます。キーワードは、テキストを保存するフィールドまたは配列へのパス内の要素の名前に含めるか、またはテキストを保存するフィールドまたは配列内の同じ値の前にくるかその一部にすることができます。これは Apache Avro オブジェクトコンテナ、Apache Parquet ファイル、JSON ファイル、および JSON Lines ファイルに当てはまります。

  • 非構造化データでは、テキストが正規表現パターンに一致し、テキストの前にキーワードがあり、かつテキストがキーワードの最大一致距離内にある場合、Macie は結果をレポートします。これは、Adobe ポータブルドキュメント形式ファイル、Microsoft Word ドキュメント、E メールメッセージ、および CSV、JSON、JSON Lines、および TSV ファイル以外の非バイナリテキストファイルに当てはまります。これには、これらのタイプのファイルに含まれるテーブルなどの構造化データが含まれます。

最大 50 個のキーワードを指定できます。各キーワードには、3~90 の UTF-8 文字を含めることができます。キーワードでは、大文字と小文字が区別されません。

Maximum match distance (最大一致距離)

これは文字ベースのキーワードの近接ルールです。Macie はこの設定を使用して、キーワードが正規表現パターンに一致するテキストの前に置かれているかどうかを判断します。この設定は、キーワード全体の終わりと正規表現パターンに一致するテキストの終わりの間に存在できる最大文字数を定義します。テキストが正規表現パターンに一致し、少なくとも 1 つのキーワードが完了した後に出現し、キーワードから指定された距離内にある場合、Macie はそのテキストを結果に含めます。それ以外の場合、Macie はそのテキストを結果から除外します。

1~300 文字の距離を指定できます。デフォルトの距離は 50 文字です。最良の結果を得るには、この距離が正規表現が検出するように設計されているテキストの最小文字数よりも大きくなければなりません。テキストの一部だけがキーワードの最大一致距離内にある場合、Macie はそのテキストを結果に含めません。

無視する単語

これらは、結果から除外する文字シーケンスです。テキストが正規表現パターンと一致しても、無視する単語が含まれている場合、Macie はそのテキストを結果に含めません。

無視する単語を 10 個まで指定できます。無視する単語には、4~90 の UTF-8 文字を含めることができます。無視する単語では、大文字と小文字が区別されます。

たとえば、多くの企業は、従業員 ID の特定の構文を持っています。そのような構文の 1 つは、従業員がフルタイム (F) またはパートタイム (P) の従業員であるかを示す大文字で、その後にハイフン (-)、その後に従業員を識別する 8 桁のシーケンスが続きます。例としては、正社員の場合は F-12345678、パートタイムの従業員の場合は P-87654321です。

この構文を使用する従業員 ID を検出するためのカスタムデータ識別子を作成する場合は、次の正規表現を使用できます: [A-Z]-\d{8}。分析を絞り込み、誤検出を回避するために、カスタムデータ識別子を設定して、キーワード従業員と 従業員 ID の最大一致距離を 20 文字にすることもできます。これらの基準では、テキストが従業員 ID または従業員 ID というキーワードの後にあり、すべてのテキストがいずれかのキーワードから 20 文字以内の場合にのみ、正規表現に一致するテキストが結果に含まれます。

キーワードが機密データの検索や誤検出の回避にどのように役立つかについては、以下の動画をご覧ください。

カスタムデータ識別子の結果の重要度設定の定義

カスタムデータ識別子を作成するときに、識別子が生成する機密データの結果のカスタム重要度設定を定義することもできます。デフォルトでは、Macie はカスタムデータ識別子が生成するすべての結果に中重要度を割り当てます。S3 オブジェクトに、カスタムデータ識別子の検出基準に一致するテキストが少なくとも 1 つ含まれている場合、Macie は結果を作成し、結果に中重要度を自動的に割り当てます。

カスタム重要度設定を使用すると、カスタムデータ識別子の検出基準に一致するテキストの出現回数に基づいて、割り当てる重要度を指定できます。これを行うには、以下の最大 3 つの重要度レベルで 頻度しきい値を定義します: (最小重要度)、および (最大重要度)。頻度しきい値は、指定された重要度で結果を生成するために S3 オブジェクトに存在する必要がある一致の最小数です。しきい値を超える値を指定する場合、しきい値は重要度で昇順 (低 から 高 に移動) である必要があります。

たとえば、次の図は 3 つの頻度しきい値を指定するカスタムデータ識別子の重要度設定 (Macie がサポートする重要度レベルごとに 1 つ) を示しています。


				3 つの頻度しきい値がある カスタムデータ識別子 ページの 重要度 セクションページ: 低 重要度レベルでは 1、中重要度レベルでは 50、および 高 重要度レベルでは 100。

次のテーブルに、カスタムデータ識別子が生成する結果の重要度を示します。

頻度しきい値 重要度レベル 結果
1 S3 オブジェクトに、検出基準に一致するテキストの出現が 1~49 回含まれている場合、Macie はオブジェクトで低重要度の結果を作成します。
50 S3 オブジェクトに、検出基準に一致するテキストの出現が 50~99 回含まれている場合、Macie はオブジェクトで中重要度の結果を作成します。
100 S3 オブジェクトに、検出基準に一致するテキストの出現が 100 回以上含まれている場合、Macie はオブジェクトで高重要度の結果を作成します。

重要度設定を使用して、結果を作成するかどうかを指定することもできます。S3 オブジェクトに含まれる出現の回数が最小頻度しきい値よりも少ない場合、Macie は結果を作成しません。

カスタムデータ識別子の作成

Amazon Macie コンソールを使用してカスタムデータ識別子を作成するには、次のステップに従います。カスタムデータ識別子をプログラムで作成するには、Amazon Macie APIの CreateCustomDataIdentifier オペレーションを使用します。

カスタムデータ識別子を作成するには
  1. Amazon Macie コンソール (https://console.aws.amazon.com/macie/) を開きます。

  2. ナビゲーションペインの 設定 の下で、カスタムデータ識別子 を選択します。

  3. 作成 を選択します。

  4. 名前 では、カスタムデータ識別子の名前を入力します。名前には最大 128 文字を含めることができます。

    名前に機密データを含めないようにしてください。Macie で実行できるアクションによっては、アカウントの他のユーザーが名前を確認できる場合があります。

  5. 説明 では、カスタムデータ識別子の簡単な説明を入力します。説明には最大 512 文字を含めることができます。

    説明に機密データを含めないようにしてください。Amazon Macie で実行できるアクションによっては、アカウントの他のユーザーが説明を確認できる場合があります。

  6. 正規表現 では、一致するテキストパターンを定義する正規表現 (正規表現) を入力します。正規表現には最大 512 文字を含めることができます。サポートされている構文と制約の詳細については、このセクションで後ほど説明される正規表現のサポートを参照してください。

  7. (オプショナル) キーワード では、一致する特定のテキストを定義する 50 文字のシーケンス (カンマ区切り) を入力します。各キーワードには、3~90 の UTF-8 文字を含めることができます。キーワードでは、大文字と小文字が区別されません。

    Macie は、前のトピック で説明されているとおり、テキストが正規表現パターンに一致し、これらのキーワードの 1 つの最大一致距離内にある場合に出現を含めます。

  8. (オプショナル) 無視する単語 では、結果から除外する特定のテキストを定義する最大 10 文字シーケンス (カンマ区切り) を入力します。無視する単語には、4~90 の UTF-8 文字を含めることができます。無視する単語では、大文字と小文字が区別されます。

    Macie は、テキストが正規表現パターンと一致しても、これらの無視する単語のいずれかが含まれている出現を結果から除外します。

  9. 最大一致距離は、正規表現に一致するテキストとキーワードの間に存在できる文字の最大数です。距離は 1〜300 文字です。デフォルトの距離は 50 文字です。

    Macie は、前のトピック で説明されているとおり、テキストが正規表現パターンに一致し、キーワードのこの距離内にある場合にのみ出現を含めます。

  10. 重要度 の下で、Macie が、カスタムデータ識別子が生成する機密データの調査結果に重要度を割り当てる方法を選択します。

    • 重要度をすべての結果に自動的に割り当てるには、任意の数の一致に対して中重要度を使用する (デフォルト) を選択します。このオプションでは、影響を受ける S3 オブジェクトに検出基準と一致するテキストが 1 つ以上含まれている場合、Macie は検出結果に自動的に重大度中を割り当てます。

    • 指定したカスタム頻度しきい値に基づいて重要度を割り当てるには、カスタム設定を使用して重要度を判断する を選択します。次に、頻度しきい値 および 重要度レベル オプションを使用して、選択した重要度で結果を生成するために S3 オブジェクトに存在する必要がある一致の最小数を指定します。

      たとえば、 高 重要度を、識別子の検出基準に一致するテキストの 100 回以上の出現をレポートしている結果に割り当てるには、100頻度しきい値 ボックスに入力し、重要度 リストから を選択します。

      Macie がサポートする重大度レベルごとに 1 つずつ、最大 3 つの頻度しきい値を指定できます: Low (低) (最小の重要度の場合)、 または (最大の重要度の場合)。1 を超える値を指定する場合、しきい値は重要度で昇順 ( から に移動) である必要があります。S3 オブジェクトに含まれる出現の回数が最小指定しきい値よりも少ない場合、Macie は結果を作成しません。

  11. (オプショナル) タグタグを追加 を選択し、カスタムデータ識別子に割り当てるタグを 50 個まで入力します。

    タグは、ユーザーが定義して特定のタイプの AWS リソースに割り当てるラベルです。各タグは、必要なタグキーとオプションのタグ値で設定されています。タグを使用することで、目的、所有者、環境、その他の条件など、さまざまな方法でリソースを特定、分類および管理できます。詳細については、Amazon Macie リソースへのタグ付けを参照してください。

  12. (オプショナル) 評価 では、サンプルデータ ボックスに最大 1,000 文字を入力し、テスト を選択して検出条件をテストします。Macie はサンプルデータを評価し、基準に一致するテキストの出現回数をレポートします。基準を調整して最適化するために、このステップを何回でも繰り返すことができます。

    注記

    カスタムデータ識別子を保存する前に、検出基準をテストして調整することを強くお勧めします。カスタムデータ識別子は、機密データ検出ジョブで使用されるため、カスタムデータ識別子は保存後に編集することはできません。これにより、実施するデータプライバシーと保護の監査または調査に関する機密データの調査結果と検出結果のイミュータブルな履歴を確実に保持できます。

  13. 完了したら、送信 を選択します。

Macie は設定をテストし、正規表現をコンパイルできることを確認します。設定や正規表現のいずれかに問題があると、エラーが発生し、問題の性質が示されます。問題を解決したら、カスタムデータ識別子を保存できます。

カスタムデータ識別子での正規表現のサポート

Macie は、Perl 互換正規表現 (PCRE) ライブラリによって提供される正規表現パターン構文のサブセットをサポートしています。PCRE ライブラリによって提供される設定のうち、Macie は次のパターン要素をサポートしていません。

  • バックリファレンス

  • キャプチャグループ

  • 条件付きパターン

  • 埋め込みコード

  • グローバルパターンフラグ (/i/m、および /x など)

  • 再帰的なパターン

  • 正と負のルックビハインドおよびルックアヘッドのゼロ幅アサーション (?=?!?<=、および ?<! など)。

カスタムデータ識別子の効果的な正規表現パターンを作成するには、以下のヒントとレコメンデーションにも注意してください。

  • アンカー — 行の先頭または末尾ではなく、ファイルの先頭または末尾にパターンが表示されることを想定している場合にのみ、アンカー (^ または $) を使用します。

  • 有界リピート — パフォーマンス上の理由から、Macie は有界リピートグループのサイズを制限します。たとえば、\d{100,1000} は Macie ではコンパイルしません。この機能に近づくには、\d{100,} のようなオープンエンドリピートを使用できます。

  • 大文字と小文字を区別しない — パターンの一部で大文字と小文字を区別しないようにするには、/i フラグの代わりに (?i) 設定を使用します。

  • パフォーマンス — プレフィックスや交代を手動で最適化する必要はありません。たとえば、/hello|hi|hey/ から /h(?:ello|i|ey)/ に変更してもパフォーマンスは向上しません。

  • ワイルドカード — パフォーマンス上の理由から、Macie はワイルドカードの繰り返し数を制限します。たとえば、a*b*a* は Macie ではコンパイルしません。

不正な形式または長時間実行される式から保護するために、Macie はサンプルテキストのコレクションに対して正規表現パターンを自動的にテストします。