Redigir entidades de PII com tarefas assíncronas (API) - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Redigir entidades de PII com tarefas assíncronas (API)

Para redigir as entidades de PII em seu texto, inicie uma tarefa em lotes assíncronos de tarefa. Para executar o trabalho, faça o upload de seus documentos para o Amazon S3 e envie uma StartPiiEntitiesDetectionJobsolicitação.

Antes de começar

Antes de começar, garanta que você tenha:

  • Buckets de entrada e saída: identifique os buckets do Amazon S3 que você deseja usar para entrada e saída. O buckets devem estar na mesma região que o API que você está chamando.

  • Perfil de serviço do IAM: você deve ter um perfil de serviço do IAM com permissão para acessar seus buckets de entrada e saída. Para ter mais informações, consulte Permissões baseadas em perfis necessárias para operações assíncronas.

Parâmetros de entrada

Em sua solicitação, inclua os seguintes parâmetros necessários:

  • InputDataConfig— forneça uma InputDataConfigdefinição para sua solicitação, que inclua as propriedades de entrada para o trabalho. Para o parâmetro S3Uri, especifique a localização dos documentos de entrada no Amazon S3.

  • OutputDataConfig— forneça uma OutputDataConfigdefinição para sua solicitação, que inclua as propriedades de saída do trabalho. Para o parâmetro S3Uri, especifique a localização do Amazon S3 em que o Amazon Comprehend grava os resultados de sua análise.

  • DataAccessRoleArn: forneça o nome do recurso da Amazon (ARN) de um perfil do AWS Identity and Access Management . Esse perfil deve conceder ao Amazon Comprehend acesso de leitura aos seus dados de entrada e acesso de gravação ao seu local de saída no Amazon S3. Para ter mais informações, consulte Permissões baseadas em perfis necessárias para operações assíncronas.

  • Mode: defina este parâmetro como ONLY_REDACTION. Com essa configuração, o Amazon Comprehend grava uma cópia dos seus documentos de entrada no local de saída no Amazon S3. Nessa cópia, cada entidade de PII é redigida.

  • RedactionConfig— forneça uma RedactionConfigdefinição para sua solicitação, que inclua os parâmetros de configuração para a redação. Especifique os tipos de PII a serem redigidos e se cada entidade de PII será substituída pelo nome de seu tipo ou por um caractere de sua escolha:

    • Especifique os tipos de entidade de PII a serem redigidos na matriz de PiiEntityTypes. Para redigir todos os tipos de entidade, defina o valor da matriz como ["ALL"].

    • Para substituir cada entidade de PII por seu tipo, defina o parâmetro MaskMode como REPLACE_WITH_PII_ENTITY_TYPE. Por exemplo, com essa configuração, a entidade de PII “Jane Doe” é substituída por “[NAME]”.

    • Para substituir os caracteres em cada entidade de PII por um caractere de sua escolha, defina o parâmetro MaskMode como MASK e defina o parâmetro MaskCharacter como o caractere substituto. Forneça somente um único caractere. Os caracteres válidos são !, #, $, %, &, *, and @. Por exemplo, com essa configuração, a entidade de PII “Jane Doe” é substituída por "**** ***"

  • LanguageCode— Defina esse parâmetro como en oues. O Amazon Comprehend oferece suporte à detecção de PII em texto em inglês ou espanhol.

Formato do arquivo de saída

O exemplo a seguir mostra os arquivos de entrada e saída de uma tarefa de análise que redige PII. O formato da entrada é um documento por linha.

{ Managing Your Accounts Primary Branch Canton John Doe Phone Number 443-573-4800 123 Main StreetBaltimore, MD 21224 Online Banking HowardBank.com Telephone 1-877-527-2703 Bank 3301 Boston Street, Baltimore, MD 21224

A tarefa de análise para redigir esse arquivo de entrada produz o seguinte arquivo de saída.

{ Managing Your Accounts Primary Branch ****** ******** Phone Number ************ ********************************** Online Banking ************** Telephone ************** Bank *************************************** }

Redação de PII usando o AWS Command Line Interface

O exemplo a seguir usa a operação StartPiiEntitiesDetectionJob com o AWS CLI.

O exemplo é formatado para Unix, Linux e macOS. Para Windows, substitua o caractere de continuação Unix de barra invertida (\) no final de cada linha por um circunflexo (^).

aws comprehend start-pii-entities-detection-job \ --region region \ --job-name job name \ --cli-input-json file://path to JSON input file

Para o parâmetro cli-input-json, você fornece um caminho para um arquivo JSON contendo os dados da solicitação, conforme exibido no exemplo a seguir.

{ "InputDataConfig": { "S3Uri": "s3://input bucket/input path", "InputFormat": "ONE_DOC_PER_LINE" }, "OutputDataConfig": { "S3Uri": "s3://output bucket/output path" }, "DataAccessRoleArn": "arn:aws:iam::account ID:role/data access role" "LanguageCode": "en", "Mode": "ONLY_REDACTION" "RedactionConfig": { "MaskCharacter": "*", "MaskMode": "MASK", "PiiEntityTypes": ["ALL"] } }

Você receberá uma resposta parecida com a seguinte se a solicitação para iniciar a tarefa de detecção de eventos for bem-sucedida:

{ "JobId": "7c4fbe6e...e5b" "JobArn": "arn:aws:comprehend:us-west-2:123456789012:pii-entities-detection-job/7c4fbe6e...e5b" "JobStatus": "SUBMITTED", }

Você pode usar a DescribeEventsDetectionJoboperação para obter o status de um trabalho existente.

aws comprehend describe-pii-entities-detection-job \ --region region \ --job-id job ID

Quando a tarefa for concluída com êxito, você receberá uma resposta semelhante a seguinte:

{ "PiiEntitiesDetectionJobProperties": { "JobId": "7c4fbe6e...e5b" "JobArn": "arn:aws:comprehend:us-west-2:123456789012:pii-entities-detection-job/7c4fbe6e...e5b" "JobName": "piiCLIredtest1", "JobStatus": "COMPLETED", "SubmitTime": "2022-05-05T14:54:06.169000-07:00", "EndTime": "2022-05-05T15:00:17.007000-07:00", "InputDataConfig": { (identical to the input data that you provided with the request) } }