非同期ジョブによるPIIエンティティの編集 (API) - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

非同期ジョブによるPIIエンティティの編集 (API)

テキスト内のPIIエンティティを編集するには、非同期バッチジョブを開始します。ジョブを実行するには、ドキュメントを Amazon S3 にアップロードし、StartPiiEntitiesDetectionJobリクエストを送信します。

開始する前に

始める前に、次の有無を確認します。

  • 入出力バケット — 入力ファイルと出力ファイルに使用する Amazon S3 バケットを識別します。バケットは、呼びAPI出す と同じリージョンにある必要があります。

  • IAM サービスロール — 入出力バケットにアクセスするためのアクセス許可を持つ IAM サービスロールが必要です。詳細については、「バッチ操作に必要なロールベースのアクセス許可」を参照してください。

入力パラメータ

リクエストには次のパラメータを含めます。

  • InputDataConfig – ジョブの入力プロパティを含むリクエストInputDataConfigの定義を指定します。S3Uri パラメータには、入力文書の Amazon S3 の場所を指定します。

  • OutputDataConfig – ジョブの出力プロパティを含むリクエストOutputDataConfigの定義を指定します。S3Uriパラメータには、Amazon Comprehend が分析結果を書き込む Amazon S3 の場所を指定します。

  • DataAccessRoleArn – の Amazon リソースネーム (ARN) を指定します。 AWS Identity and Access Management ロール。このロールは、Amazon Comprehend S3 内の入力データに対する読み取りアクセス権と出力場所への書き込みアクセス権を付与します。詳細については、「バッチ操作に必要なロールベースのアクセス許可」を参照してください。

  • Mode — このパラメータを ONLY_REDACTION に設定します。この設定では、Amazon Comprehend は入力文書のコピーを Amazon S3 の出力場所に書き込みます。このコピーでは、各PIIエンティティが編集されます。

  • RedactionConfig – 秘匿化の設定パラメータを含むリクエストRedactionConfigの定義を指定します。編集PIIする のタイプを指定し、各PIIエンティティをそのタイプの名前または任意の文字に置き換えるかどうかを指定します。

    • PiiEntityTypes 配列で編集するPIIエンティティタイプを指定します。すべてのエンティティタイプを編集するには、配列の値を ["ALL"] に設定します。

    • 各PIIエンティティをそのタイプに置き換えるには、 MaskModeパラメータを に設定しますREPLACE_WITH_PII_ENTITY_TYPE。例えば、この設定では、PIIエンティティ「Jane Doe」は「〔NAME〕」に置き換えられます。

    • 各PIIエンティティの文字を任意の文字に置き換えるには、 MaskModeパラメータを に設定しMASKMaskCharacterパラメータを置換文字に設定します。1 文字のみ指定してください。有効な文字は !、#、$、%、&、*、@ です。例えば、この設定では、PIIエンティティ「Jane Doe」を「**** ***」に置き換えることができます。

  • LanguageCode – このパラメータを enまたは に設定しますes。Amazon Comprehend は、英語またはスペイン語のテキストでPIIの検出をサポートしています。

出力ファイル形式

次の例は、 を編集する分析ジョブの入力ファイルと出力ファイルを示していますPII。入力の形式は、行ごとにドキュメント 1 つです。

{ Managing Your Accounts Primary Branch Canton John Doe Phone Number 443-573-4800 123 Main StreetBaltimore, MD 21224 Online Banking HowardBank.com Telephone 1-877-527-2703 Bank 3301 Boston Street, Baltimore, MD 21224

この入力ファイルを編集する分析ジョブは、次の出力ファイルを生成します。

{ Managing Your Accounts Primary Branch ****** ******** Phone Number ************ ********************************** Online Banking ************** Telephone ************** Bank *************************************** }

PII を使用した の秘匿化 AWS Command Line Interface

次の例では、 で StartPiiEntitiesDetectionJobオペレーションを使用します。 AWS CLI.

例は、Unix、Linux、および macOS 用にフォーマットされています。Windows の場合は、各行末のバックスラッシュ (\) Unix 連結文字をキャレット (^) に置き換えてください。

aws comprehend start-pii-entities-detection-job \ --region region \ --job-name job name \ --cli-input-json file://path to JSON input file

cli-input-json パラメータには、次の例に示すように、リクエストデータを含むJSONファイルへのパスを指定します。

{ "InputDataConfig": { "S3Uri": "s3://input bucket/input path", "InputFormat": "ONE_DOC_PER_LINE" }, "OutputDataConfig": { "S3Uri": "s3://output bucket/output path" }, "DataAccessRoleArn": "arn:aws:iam::account ID:role/data access role" "LanguageCode": "en", "Mode": "ONLY_REDACTION" "RedactionConfig": { "MaskCharacter": "*", "MaskMode": "MASK", "PiiEntityTypes": ["ALL"] } }

イベント検出ジョブの開始リクエストが成功すると、以下のような応答が表示されます。

{ "JobId": "7c4fbe6e...e5b" "JobArn": "arn:aws:comprehend:us-west-2:123456789012:pii-entities-detection-job/7c4fbe6e...e5b" "JobStatus": "SUBMITTED", }

DescribeEventsDetectionJob オペレーションを使用して、既存のジョブのステータスを取得できます。

aws comprehend describe-pii-entities-detection-job \ --region region \ --job-id job ID

ジョブが正常に終了すると、以下のような応答が表示されます。

{ "PiiEntitiesDetectionJobProperties": { "JobId": "7c4fbe6e...e5b" "JobArn": "arn:aws:comprehend:us-west-2:123456789012:pii-entities-detection-job/7c4fbe6e...e5b" "JobName": "piiCLIredtest1", "JobStatus": "COMPLETED", "SubmitTime": "2022-05-05T14:54:06.169000-07:00", "EndTime": "2022-05-05T15:00:17.007000-07:00", "InputDataConfig": { (identical to the input data that you provided with the request) } }