Amazon Macie でのカスタムデータ識別子の構築 - Amazon Macie

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Macie でのカスタムデータ識別子の構築

あるカスタムデータ識別子は、Amazon シンプルストレージサービス (Amazon S3) オブジェクト内の機密データを検出するために定義する一連の基準です。基準は、一致するテキストパターン、オプションで文字シーケンス、結果を絞り込む近接ルールを定義する正規表現 (regex) から構成されています。

カスタムデータ識別子を使用すると、組織の特定のシナリオ、知的財産、または独自データ(従業員 ID、顧客アカウント番号、内部データ分類など)を反映した検出基準を定義できます。設定する場合機密データディスカバリーの仕事または機密データの自動検出これらの識別子を使用するには、以下を補足する方法で S3 オブジェクトを分析できます。管理データ識別子アマゾン・メイシーが提供しているものです。

検出基準に加えて、カスタムデータ識別子によって生成される機密データの検出結果に対してカスタムの重要度設定を定義できます。デフォルトでは、Macie はミディアムカスタムデータ識別子によって生成されるすべての結果に対する重要度。重要度は、カスタムデータ識別子の検出基準に一致するテキストの出現回数によって変化しません。カスタムの重要度設定を定義することで、基準に一致するテキストの出現回数に基づいて割り当てる重要度を指定できます。

カスタムデータ識別子の検出基準の定義

各カスタムデータ識別子を作成するときに、S3 オブジェクト内で一致するテキストパターンを定義する正規表現 (regex) を指定します。Macie は、Perl 互換正規表現 (PCRE) ライブラリによって提供される正規表現パターン構文のサブセットをサポートしています。詳細については、を参照してください。正規表現のサポートこのセクションの後半で説明します。

単語やフレーズなどの文字列や近接ルールを指定して結果を絞り込むこともできます。

[Keywords] (キーワード)

これらは特定の文字シーケンスであり、正規表現パターンと一致するテキストの近くにある必要があります。近接要件は、S3 オブジェクトのストレージ形式またはファイルタイプによって異なります。

  • 構造化された列型データの場合、テキストが正規表現パターンと一致し、テキストを格納するフィールドまたは列の名前にキーワードが置かれているか、テキストの前に同じフィールドまたはセル値のキーワードの最大一致距離内にある場合、Macie は結果を含めます。これは、Microsoft Excel ワークブック、CSV ファイル、および TSV ファイルに当てはまります。

  • 構造化されたレコードベースのデータの場合、テキストが正規表現パターンと一致し、テキストがキーワードの最大一致距離内にある場合、Macie は結果を含めます。キーワードは、テキストを格納するフィールドまたは配列へのパス内の要素の名前にある場合もあれば、テキストを格納するフィールドまたは配列内の同じ値の前にある場合でも同じ値の一部であってもかまいません。これは Apache Avro オブジェクトコンテナ、Apache Parquet ファイル、JSON ファイル、および JSON Lines ファイルに当てはまります。

  • 非構造化データの場合、テキストが正規表現パターンに一致し、テキストの前にキーワードの最大一致距離内にある場合、Macie は結果を含めます。これは、Adobe ポータブルドキュメントフォーマットファイル、Microsoft Word 文書、電子メールメッセージ、および CSV、JSON、JSON ライン、TSV ファイル以外の非バイナリテキストファイルにも当てはまります。これには、これらのタイプのファイルに含まれるテーブルなどの構造化データが含まれます。

最大 50 個のキーワードを指定できます。各キーワードには、3~90 の UTF-8 文字を含めることができます。キーワードでは、大文字と小文字が区別されません。

[Maximum match distance] (最大一致距離)

これはキーワードの文字ベースの近接ルールです。Macie はこの設定を使用して、正規表現パターンに一致するテキストの前にキーワードがあるかどうかを判断します。この設定では、完全なキーワードの末尾から正規表現パターンに一致するテキストの末尾までの間に存在できる最大文字数を定義します。テキストが正規表現パターンと一致し、少なくとも 1 つのキーワードの後に出現し、かつキーワードから指定された距離内にある場合、Macie はそのテキストを結果に含めます。それ以外の場合、Macie はそれを結果から除外します。

1~300 文字の距離を指定できます。デフォルトの距離は 50 文字です。最良の結果を得るには、この距離を正規表現が検出するように設計されているテキストの最小文字数よりも大きくする必要があります。テキストの一部だけがキーワードの最大一致距離内にある場合、Macie はそのテキストを結果に含めません。

[Ignore words] (無視する単語)

これらは、結果から除外する文字シーケンスです。テキストが正規表現パターンと一致していても無視語が含まれている場合、Macie はその単語を結果に含めません。

無視する単語を 10 個まで指定できます。無視する単語には、4~90 の UTF-8 文字を含めることができます。無視する単語では、大文字と小文字が区別されます。

たとえば、多くの企業は、従業員 ID の特定の構文を持っています。そのような構文の 1 つとして、従業員がフルタイムかどうかを示す大文字を使用する方法があります (F) またはパートタイム (P) 従業員、その後にハイフン (-) が続き、その後に従業員を識別する 8 桁のシーケンスが続きます。例は以下のとおりです。12345678、正社員の場合、87654321、パートタイムの従業員の場合。

この構文を使用する従業員 ID を検出するためのカスタムデータ識別子を作成する場合は、次の正規表現を使用できます: [A-Z]-\d{8}。分析を絞り込んで誤検出を防ぐために、キーワードを使用するようにカスタムデータ識別子を設定することもできます。従業員そして従業員 ID最大マッチ距離は 20 文字です。これらの条件では、テキストがキーワードの後に出現する場合にのみ、正規表現に一致するテキストが結果に含まれます。従業員または従業員 IDすべてのテキストはそれらのキーワードのいずれかから20文字以内に表示されます。

キーワードが機密データを見つけて誤検出を防ぐのにどのように役立つかを示すデモについては、次の動画をご覧ください。

カスタムデータ識別子の検索重要度設定の定義

カスタムデータ識別子を作成するときに、識別子が生成する機密データの結果のカスタム重要度設定を定義することもできます。デフォルトでは、Macie はミディアムカスタムデータ識別子によって生成されるすべての結果に対する重要度 — S3 オブジェクトにカスタムデータ識別子の検出基準と一致するテキストが少なくとも 1 回含まれている場合、Macie は自動的に次の値を割り当てますミディアム結果として得られた知見の厳しさ

カスタムの重要度設定では、カスタムデータ識別子の検出基準に一致するテキストの出現回数に基づいて割り当てる重要度を指定できます。これを行うには、以下の最大 3 つの重要度レベルで [occurrences thresholds] (出現しきい値) を定義します: [Low] (低) (最小重要度)、[Medium] (ミディアム)、および [High] (高) (最大重要度)。アン出現回数のしきい値は、指定された重要度の結果を生成するためにS3オブジェクトに存在する必要がある最小一致数です。複数のしきい値を指定する場合、しきい値は重要度の昇順、つまり次の値から順にする必要があります低いハイ

たとえば、次の図は 3 つの出現しきい値を指定するカスタムデータ識別子の重要度設定 (Macie がサポートする重要度レベルごとに 1 つ) を示しています。


				3 つの出現しきい値がある [Custom Data Identifier] (カスタムデータ識別子) ページの [Severity] (重要度) セクションページ: [Low] (低) 重要度レベルでは 1、[Medium] (ミディアム) 重要度レベルでは 50、および [High] (高) 重要度レベルでは 100。

次の表は、カスタムデータ識別子が生成する結果の重要度を示しています。

出現しきい値 重要度レベル 結果
1 S3 オブジェクトに、検出基準に一致するテキストが 1 ~ 49 件含まれている場合、結果の重要度は低い
50 S3 オブジェクトに、検出基準に一致するテキストが 50 ~ 99 件含まれている場合、結果の重要度はミディアム
100 S3 オブジェクトに、検出基準に一致するテキストが 100 件以上含まれている場合、結果の重要度はハイ

重要度設定を使用して、結果を作成するかどうかを指定することもできます。S3 オブジェクトの出現回数が最低出現回数しきい値よりも少ない場合、Macie は結果を作成しません。

カスタムデータ識別子の作成

Amazon Macie コンソールを使用してカスタムデータ識別子を作成するには、次のステップに従います。カスタムデータ識別子をプログラムで作成するには、CreateCustomDataIdentifierAmazon Macie API の運用。

カスタムデータ識別子を作成するには
  1. Amazon Macie コンソール (https://console.aws.amazon.com/macie/) を開きます。

  2. ナビゲーションペインの [Settings] (設定) の下で、[Custom Data Identifier] (カスタムデータ識別子) を選択します。

  3. [Create] (作成) を選択します。

  4. [Name] (名前) では、カスタムデータ識別子の名前を入力します。名前には最大 128 文字を含めることができます。

    名前に機密データを含めないでください。Macie で実行できるアクションによっては、アカウントの他のユーザーにも名前が表示される場合があります。

  5. (オプション) 対象[説明]、カスタムデータ識別子の簡単な説明を入力します。説明には最大 512 文字を含めることができます。

    説明には機密データを含めないでください。Macie で実行できるアクションによっては、アカウントの他のユーザーにも説明が表示される場合があります。

  6. [Regular expression] (正規表現) では、一致するテキストパターンを定義する正規表現 (regex) を入力します。正規表現には 512 文字まで含めることができます。サポートされている構文と制約の詳細については、このセクションで後ほど説明される「正規表現のサポート」を参照してください。

  7. (オプション) 対象キーワードには、正規表現パターンに一致するテキストの近くにある必要がある特定のテキストを定義するには、(カンマで区切って)最大50文字のシーケンスを入力します。各キーワードには、3~90 の UTF-8 文字を含めることができます。キーワードでは、大文字と小文字が区別されません。

    Macie が結果にオカレンスを含めるのは、テキストが正規表現パターンと一致し、かつテキストがこれらのキーワードのいずれかと一致する最大距離内にある場合だけです。これについては、を参照してください。前のトピック

  8. (オプション) 対象単語を無視には、結果から除外する特定のテキストを定義する最大 10 文字のシーケンス(カンマで区切る)を入力します。無視する単語には、4~90 の UTF-8 文字を含めることができます。無視する単語では、大文字と小文字が区別されます。

    Macie は、テキストが正規表現パターンに一致するけれども、そのテキストに次の無視語のいずれかが含まれている場合、結果からその出現を除外します。

  9. (オプション) 対象最大マッチ距離には、キーワードの最後から正規表現パターンに一致するテキストの末尾までの最大文字数を入力します。距離は 1 ~ 300 文字です。デフォルトの距離は 50 文字です。

    Macie が結果にオカレンスを含めるのは、テキストが正規表現パターンと一致し、かつ、テキストがキーワード全体からこの距離内にある場合だけです。これについては、を参照してください。前のトピック

  10. にとって重要度、カスタムデータ識別子が生成する機密データの検出結果に Macie がどのように重要度を割り当てるかを選択してください。

    • [Medium] (ミディアム) 重要度をすべての結果に自動的に割り当てるには、[任意の数の一致に対してミディアム重要度を使用する (デフォルト)] を選択します。このオプションでは、Macie が自動的に割り当てますミディアム該当する S3 オブジェクトに検出基準に一致するテキストが 1 回以上含まれている場合の検出結果の重大度。

    • 指定したオカレンスのしきい値に基づいて重要度を割り当てるには、カスタム設定を使用して重要度を判断する。次に、[occurrences threshold] (出現しきい値) および [Severity level] (重要度レベル) オプションを使用して、選択した重要度で結果を生成するために S3 オブジェクトに存在する必要がある一致の最小数を指定します。

      たとえば、割り当てるにはハイ検出基準に一致するテキストが 100 件以上出現したと報告された結果の重大度100発生回数のしきい値ボックスを選択してから選択してくださいハイから重要度レベルリスト。

      Macie がサポートする重大度レベルごとに 1 つずつ、最大 3 つの出現しきい値を指定できます: [Low] (低) (最小の重要度の場合)、[Medium] (ミディアム)、または [High] (高) (最大の重要度の場合)。1 を超える値を指定する場合、しきい値は重要度で昇順 ([Low] (低) から [High] (高) に移動) である必要があります。S3 オブジェクトに含まれる出現回数が指定された最低しきい値よりも少ない場合、Macie は結果を作成しません。

  11. (オプション) 対象タグ、選択タグを追加次に、カスタムデータ識別子に割り当てるタグを最大 50 個入力します。

    ある鬼ごっこは、ユーザーが定義して特定のタイプに割り当てるラベルですAWS資源。各タグは、必要なタグキーとオプションのタグ値で構成されています。タグは、目的、所有者、環境、その他の基準など、さまざまな方法でリソースを識別、分類、管理するのに役立ちます。詳細については、Amazon Macie リソースへのタグ付け を参照してください。

  12. (オプション) 対象評価、最大 1,000 文字まで入力できますサンプルデータボックスを選択して、テスト検出基準をテストします。Macie はサンプルデータを評価し、基準に一致するテキストの出現回数を報告します。基準を調整して最適化するために、このステップを何回でも繰り返すことができます。

    注記

    カスタムデータ識別子を保存する前に、検出条件をテストして調整することを強くお勧めします。カスタムデータ識別子は、機密データ検出ジョブで使用されるため、カスタムデータ識別子は保存後に編集することはできません。これにより、実施するデータプライバシーと保護の監査または調査に関する機密データの調査結果と検出結果のイミュータブルな履歴を確実に保持できます。

  13. 完了したら、[Submit] (送信) を選択します。

Macie は設定をテストし、正規表現をコンパイルできることを確認します。設定または正規表現のいずれかに問題があると、エラーが発生し、問題の性質が示されます。問題に対処したら、カスタムデータ識別子を保存できます。

カスタムデータ識別子での正規表現のサポート

Macie は、Perl 互換正規表現 (PCRE) ライブラリによって提供される正規表現パターン構文のサブセットをサポートしています。PCRE ライブラリによって提供される構成のうち、Macie は次のパターン要素をサポートしていません。

  • バックリファレンス

  • キャプチャグループ

  • 条件付きパターン

  • 埋め込みコード

  • グローバルパターンフラグ (/i/m、および /x など)

  • 再帰的なパターン

  • 正と負のルックビハインドおよびルックアヘッドのゼロ幅アサーション (?=?!?<=、および ?<! など)。

カスタムデータ識別子に効果的な正規表現パターンを作成するには、次のヒントと推奨事項にも注意してください。

  • アンカー— アンカーを使う (^または$) パターンが行の先頭または末尾ではなく、ファイルの先頭または末尾に表示されることを想定している場合に限ります。

  • [Bounded repeats] (有界リピート) — パフォーマンス上の理由から、Macie は有界リピートグループのサイズを制限します。たとえば、\d{100,1000} は Macie ではコンパイルしません。この機能に近づくには、\d{100,} のようなオープンエンドリピートを使用できます。

  • [Case insensitivity] (大文字と小文字を区別しない) — パターンの一部で大文字と小文字を区別しないようにするには、/i フラグの代わりに (?i) 構成を使用します。

  • [Performance] (パフォーマンス) — プレフィックスや交代を手動で最適化する必要はありません。たとえば、/hello|hi|hey/ から /h(?:ello|i|ey)/ に変更してもパフォーマンスは向上しません。

  • [Wildcards] (ワイルドカード) — パフォーマンス上の理由から、Macie はワイルドカードの繰り返し数を制限します。たとえば、a*b*a* は Macie ではコンパイルしません。

形式に誤りがあったり、実行時間が長かったりしないように、Macie はサンプルテキストのコレクションに対して正規表現パターンを自動的にテストします。