Detectar entidades de PII - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Detectar entidades de PII

Você pode usar o Amazon Comprehend para detectar entidades de PII em documentos de texto em inglês ou espanhol. Uma entidade PII é um tipo específico de informações de identificação pessoal (PII). Use a detecção de PII para localizar as entidades de PII ou redigir as entidades de PII no texto.

Localizar entidades de PII

Para localizar as entidades de PII em seu texto, você pode analisar rapidamente um único documento usando análise em tempo real, além de iniciar uma tarefa em lotes assíncronos em uma coleção de documentos.

Use o console ou a API para análise em tempo real de um único documento. Seu texto de entrada pode incluir até 100 kilobytes de caracteres codificados em UTF-8.

Por exemplo, você pode enviar o seguinte texto de entrada para localizar as entidades de PII:

Olá Paulo Santos. O extrato mais recente da sua conta de cartão de crédito 1111-0000-1111-0000 foi enviado para 123 Any Street, Seattle, WA 98109.

A saída inclui as informações de que “Paul Santos” tem o tipo NAME, “1111-0000-1111-0000" tem o tipo CREDIT_DEBIT_NUMBER, e “123 Any Street, Seattle, WA 98109" tem o tipo ADDRESS.

O Amazon Comprehend retorna uma lista de entidades de PII detectadas, com as seguintes informações para cada entidade de PII:

  • Uma pontuação que estima a probabilidade de que a extensão de texto detectada seja do tipo de entidade detectada.

  • O tipo de entidade PII.

  • A localização da entidade PII no documento, especificada como offsets de caracteres para o início e o fim da entidade.

Por exemplo, o texto de entrada mencionado anteriormente produz a seguinte resposta:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

Redigir entidades de PII

Para redigir as entidades de PII em seu texto, use o console ou a API para iniciar uma tarefa em lote assíncrono. O Amazon Comprehend retorna uma cópia do texto de entrada com redações para cada entidade de PII.

Por exemplo, você pode enviar o seguinte texto de entrada para redigir as entidades de PII:

Olá Paulo Santos. O extrato mais recente da sua conta de cartão de crédito 1111-0000-1111-0000 foi enviado para 123 Any Street, Seattle, WA 98109.

O arquivo de saída inclui o seguinte texto:

Olá ***** ******. O extrato mais recente da sua conta de cartão de crédito ***************** foi enviado para *** ********* ********** ** *******.

Tipos de entidades universais de PII

Alguns tipos de entidades de PII são universais (não específicos para países individuais), como endereços de e-mail e números de cartão de crédito. O Amazon Comprehend detecta os seguintes tipos de entidades universais de PII:

ADDRESS

Um endereço físico, como “100 Main Street, Anytown, EUA” ou “Suíte #12, Edifício 123". Um endereço pode incluir informações como rua, prédio, localização, cidade, estado, país, condado, código postal, distrito e bairro.

AGE

A idade de uma pessoa, incluindo a quantidade e a unidade de tempo. Por exemplo, na frase “Tenho 40 anos”, o Amazon Comprehend reconhece “40 anos” como uma idade.

AWS_ACCESS_KEY

Um identificador exclusivo associado a uma chave de acesso secreta; você usa o ID da chave de acesso e a chave de acesso secreta para assinar AWS solicitações programáticas criptograficamente.

AWS_SECRET_KEY

Um identificador exclusivo associado a uma chave de acesso. Você usa o ID da chave de acesso e a chave de acesso secreta para assinar AWS solicitações programáticas criptograficamente.

CREDIT_DEBIT_CVV

Um código de verificação de cartão (CVV) de três dígitos que está presente nos cartões de crédito e débito VISA e Discover. MasterCard Para cartões de crédito ou débito American Express, o CVV é um código numérico de quatro dígitos.

CREDIT_DEBIT_EXPIRY

Data de validade do cartão de crédito ou débito. Esse número geralmente tem quatro dígitos e é formatado como mês/ano ou MM/AA. O Amazon Comprehend reconhece datas de expiração como 01/21, 01/2021 e jan de 2021.

CREDIT_DEBIT_NUMBER

O número de um cartão de crédito ou débito. Esses números podem variar de 13 a 16 dígitos. No entanto, o Amazon Comprehend também reconhece números de cartão de crédito ou débito quando somente os últimos quatro dígitos estão presentes.

DATE_TIME

Uma data pode incluir um ano, mês, dia, dia da semana ou hora do dia. Por exemplo, o Amazon Comprehend reconhece “19 de janeiro de 2020" ou “11h” como datas. O Amazon Comprehend reconhecerá datas parciais, conjunto de datas e intervalos de datas. Também reconhecerá décadas, como “a década de 1990”.

DRIVER_ID

O número atribuído a uma carteira de motorista, que é um documento oficial permitindo que uma pessoa opere um ou mais veículos motorizados em uma via pública. O número da carteira de motorista consiste em caracteres alfanuméricos.

EMAIL

Um endereço de e-mail, como marymajor@email.com.

INTERNATIONAL_BANK_ACCOUNT_NUMBER

Um número de conta bancária internacional tem formatos específicos em cada país. Consulte www.iban.com/structure.

IP_ADDRESS

Um endereço IPv4, como 198.51.100.0.

LICENSE_PLATE

A placa de um veículo é emitida pelo estado ou país em que o veículo está registrado. O formato para veículos de passageiros normalmente tem de cinco a oito dígitos, consistindo em letras maiúsculas e números. O formato varia de acordo com a localização do estado ou país emissor.

MAC_ADDRESS

Um endereço MAC (controle de acesso à mídia) é um identificador exclusivo atribuído a um controlador de interface de rede (NIC).

NAME

O nome de uma pessoa. Esse tipo de entidade não inclui títulos, como Dr., Sr., Sra. ou Senhorita. O Amazon Comprehend não aplica esse tipo de entidade a nomes que fazem parte de organizações ou endereços. Por exemplo, o Amazon Comprehend reconhece a “Organização John Doe” como uma organização e reconhece a “Rua Jane Doe” como um endereço.

PASSWORD

Uma sequência alfanumérica usada como senha, como “*very20special #pass *”.

PHONE

Um número de telefone. Esse tipo de entidade também inclui números de fax e pager.

PIN

Um número de identificação pessoal (PIN) de quatro dígitos com o qual você pode acessar sua conta bancária.

SWIFT_CODE

Um código SWIFT é um formato padrão do Código identificador bancário (BIC) usado para especificar um determinado banco ou agência. Os bancos usam esses códigos para transferências de dinheiro, como transferências eletrônicas internacionais.

Os códigos SWIFT consistem em oito ou 11 caracteres. Os códigos de 11 dígitos se referem a filiais específicas, enquanto os códigos de oito dígitos (ou códigos de 11 dígitos terminados em 'XXX') se referem à sede ou ao escritório principal.

URL

Um endereço da web, como www.example.com.

USERNAME

Um nome de usuário que identifica uma conta, como nome de login, nome de tela, apelido ou identificador.

VEHICLE_IDENTIFICATION_NUMBER

Um Número de identificação de veículo (VIN) identifica um veículo de forma única. O conteúdo e o formato do VIN são definidos na especificação ISO 3779. Cada país tem códigos e formatos específicos para VINs.

Tipos de entidade de PII específicos de cada país

Alguns tipos de entidades de PII são específicos de cada país, como números de passaporte e outros números de identificação emitidos pelo governo. O Amazon Comprehend detecta os seguintes tipos de entidades de PII específicas de cada país:

CA_HEALTH_NUMBER

O Canadian Health Service Number (Número do serviço de saúde canadense) é um identificador exclusivo de 10 dígitos, necessário para que as pessoas tenham acesso aos benefícios de saúde.

CA_SOCIAL_INSURANCE_NUMBER

O Canadian Social Insurance Number (SIN — Número do seguro social canadense) é um identificador exclusivo de nove dígitos, necessário para que as pessoas acessem programas e benefícios governamentais.

O SIN é formatado como três grupos de três dígitos, como 123-456-789. Um SIN pode ser validado por meio de um processo simples de verificação de dígitos chamado algoritmo de Luhn.

IN_AADHAAR

Um Aadhaar indiano é um número de identificação exclusivo de 12 dígitos emitido pelo governo indiano para os residentes da Índia. O formato Aadhaar tem um espaço ou hífen após o quarto e oitavo dígitos.

IN_NREGA

Um número da Indian National Rural Employment Guarantee Act (NREGA — Lei nacional de garantia de emprego rural da Índia) consiste em duas letras seguidas por 14 números.

IN_PERMANENT_ACCOUNT_NUMBER

Um número de conta permanente indiano é um número alfanumérico exclusivo de 10 dígitos emitido pelo Departamento de Imposto de Renda.

IN_VOTER_NUMBER

Um ID de eleitor indiano consiste em três letras seguidas por sete números.

UK_NATIONAL_HEALTH_SERVICE_NUMBER

Um UK National Health Service Number (Número do Serviço Nacional de Saúde do Reino Unido) é um número de 10 a 17 dígitos, como 485 777 3456. O sistema atual formata o número de 10 dígitos com espaços após o terceiro e o sexto dígitos. O dígito final é uma soma de verificação que detecta erros.

O formato numérico de 17 dígitos tem espaços após o 10º e o 13º dígitos.

UK_NATIONAL_INSURANCE_NUMBER

Um UK National Insurance Number (NINO — Número de seguro nacional do Reino Unido) fornece às pessoas acesso aos benefícios do Seguro Nacional (previdência social). Também é usado para alguns fins no sistema tributário do Reino Unido.

O número tem nove dígitos e começa com duas letras, seguidas por seis números e uma letra. Um NINO pode ser formatado com um espaço ou um traço após as duas letras e depois do segundo, quarto e sexto dígitos.

UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER

Uma Unique Taxpayer Reference (UTR — Referência única de contribuinte) do Reino Unido é um número de 10 dígitos que identifica um contribuinte ou uma empresa.

BANK_ACCOUNT_NUMBER

Um número de conta bancária dos EUA, que normalmente tem de 10 a 12 dígitos. O Amazon Comprehend também reconhece números de contas bancárias quando somente os últimos quatro dígitos estão presentes.

BANK_ROUTING

Um número de roteamento de conta bancária dos EUA. Normalmente, eles têm nove dígitos, mas o Amazon Comprehend também reconhece números de roteamento quando somente os últimos quatro dígitos estão presentes.

PASSPORT_NUMBER

Um número de passaporte dos EUA. Os números dos passaportes variam de seis a nove caracteres alfanuméricos.

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

Um Individual Taxpayer Identification Number (ITIN — Número de identificação fiscal individual) dos EUA é um número de nove dígitos que começa com um “9" e contém um “7" ou “8" como quarto dígito. Um ITIN pode ser formatado com um espaço ou um traço após o terceiro e o quarto dígitos.

SSN

O Social Security Number (SSN — Número do seguro social) dos EUA é um número de nove dígitos emitido para cidadãos dos EUA, residentes permanentes e residentes temporários que trabalham. O Amazon Comprehend também reconhece números do seguro social quando somente os últimos quatro dígitos estão presentes.