Detección de entidades de PII - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Detección de entidades de PII

Puede usar Amazon Comprehend para detectar entidades de PII en documentos de texto en inglés o español. Una entidad de PII es un tipo específico de información de identificación personal (PII). Utilice la detección de PII para localizar las entidades de PII o redactar las entidades de PII en el texto.

Localización de las entidades de PII

Para localizar las entidades de PII en su texto, puede analizar rápidamente un único documento mediante un análisis en tiempo real. También puede iniciar un trabajo asíncrono por lotes en un conjunto de documentos.

Puede utilizar la consola o la API para analizar en tiempo real un único documento. El texto introducido puede incluir hasta 100 kilobytes de caracteres codificados en UTF-8.

Por ejemplo, puede enviar el siguiente texto de entrada para localizar las entidades de PII:

Hola, Paulo Santos: El último extracto de la cuenta de su tarjeta de crédito 1111-0000-1111-0000 se envió por correo a 123 Any Street, Seattle, WA 98109.

La salida incluye la información de que “Paul Santos” es del tipo NAME, que “1111-0000-1111-0000” es del tipo CREDIT_DEBIT_NUMBER y que “123 Any Street, Seattle, WA 98109” es del tipo ADDRESS.

Amazon Comprehend devuelve una lista de entidades de PII detectadas, en la que figura la siguiente información para cada entidad de PII:

  • Una puntuación que estima la probabilidad de que el tramo de texto detectado corresponda al tipo de entidad detectada.

  • El tipo de entidad de la PII.

  • La ubicación de la entidad de PII en el documento, especificada como desplazamientos de caracteres para el inicio y el final de la entidad.

Por ejemplo, el texto de entrada mencionado anteriormente produce la siguiente respuesta:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

Redacción de entidades de PII

Para redactar las entidades de PII en el texto, puede utilizar la consola o la API para iniciar un trabajo por lotes asíncrono. Amazon Comprehend devuelve una copia del texto de entrada con redacciones de cada entidad de PII.

Por ejemplo, puede enviar el siguiente texto de entrada para redactar las entidades de PII:

Hola, Paulo Santos: El último extracto de la cuenta de su tarjeta de crédito 1111-0000-1111-0000 se envió por correo a 123 Any Street, Seattle, WA 98109.

El archivo de salida incluye el siguiente texto:

Hola, ***** ******: El último extracto de la cuenta de su tarjeta de crédito ***************** se envió por correo a *** *** ******* ******** ** *****.

Tipos de entidades de PII universales

Algunos tipos de entidades de PII son universales (no son específicas a cada país), como las direcciones de correo electrónico y los números de tarjetas de crédito. Amazon Comprehend detecta los siguientes tipos de entidades de PII universales:

ADDRESS

Una dirección física, como, por ejemplo: “100 Main Street, Anytown, USA” or “Suite n.º 12, Building 123”. Una dirección puede incluir información como la calle, el edificio, la ubicación, la ciudad, el estado, el país, el condado, el código postal, el distrito y el barrio.

AGE

La edad de una persona, incluidas la cantidad y la unidad de tiempo. Por ejemplo, en la frase “Tengo 40 años”, Amazon Comprehend reconoce “40 años” como una edad.

AWS_ACCESS_KEY

Un identificador único que se asocia a una clave de acceso secreta; usted usa el ID de la clave de acceso y la clave de acceso secreta para firmar criptográficamente las solicitudes programáticas AWS .

AWS_SECRET_KEY

Se trata de un identificador único que está asociado a una clave de acceso. El identificador de la clave de acceso y la clave de acceso secreta se utilizan para firmar criptográficamente las solicitudes programáticas AWS .

CREDIT_DEBIT_CVV

Un código de verificación de tarjeta (CVV) de tres dígitos que está presente en las tarjetas de crédito y débito VISA y Discover. MasterCard En el caso de las tarjetas de crédito o débito American Express, el CVV es un código numérico de cuatro dígitos.

CREDIT_DEBIT_EXPIRY

Se trata de la fecha de caducidad de la tarjeta de crédito o débito. Este número suele tener cuatro dígitos y, por lo general, tiene el formato de mes/año o MM/AA. Amazon Comprehend reconoce las fechas de caducidad, como el 21/01/2021 y enero de 2021.

CREDIT_DEBIT_NUMBER

Se trata del número de una tarjeta de crédito o débito. La longitud de estos números puede oscilar entre 13 y 16 dígitos. Sin embargo, Amazon Comprehend también reconoce los números de las tarjetas de crédito o débito cuando solo están presentes los últimos cuatro dígitos.

DATE_TIME

Una fecha puede incluir un año, un mes, un día, un día de la semana o una hora del día. Por ejemplo, Amazon Comprehend reconoce “11 a. m.” o “19 de enero de 2020”. Amazon Comprehend reconocerá fechas parciales, rangos de fechas e intervalos de fechas. También reconocerá décadas, como “la década de 1990”.

DRIVER_ID

Se trata del número asignado a la licencia de conducir, que es un documento oficial que permite a una persona conducir uno o más vehículos motorizados en una vía pública. El número de licencia de conducir se compone de caracteres alfanuméricos.

CORREO ELECTRÓNICO

Se trata de una dirección de correo electrónico, como marymajor@email.com.

INTERNATIONAL_BANK_ACCOUNT_NUMBER

Un número de cuenta bancaria internacional tiene formatos específicos en cada país. Consulte www.iban.com/structure.

IP_ADDRESS

Se trata de una dirección IPv4, como 198.51.100.0.

LICENSE_PLATE

La matrícula de un vehículo es emitida por el estado o el país donde está registrado el vehículo. El formato de matrículas de los vehículos de pasajeros suele ser de cinco a ocho dígitos y consta de letras mayúsculas y números. El formato varía según la ubicación del estado o país emisor.

MAC_ADDRESS

Una dirección de control de acceso al medio (MAC) es un identificador único asignado a un controlador de interfaz de red (NIC).

NAME

Se trata del nombre de una persona. Este tipo de entidad no incluye títulos como Dr., Sr., Sra. o Srta. Amazon Comprehend no aplica este tipo de entidad a los nombres que forman parte de organizaciones o direcciones. Por ejemplo, Amazon Comprehend reconoce a la “Organización John Doe” como una organización y a “calle Jane Doe” como una dirección.

PASSWORD

Se trata de una cadena alfanumérica que se utiliza como contraseña, como, por ejemplo: “*seña#20muyespecial*”.

PHONE

Un número de teléfono. Este tipo de entidad también incluye números de fax y de bípers.

PIN

Se trata de un número de identificación personal (PIN) de cuatro dígitos con el que puede acceder a su cuenta bancaria.

SWIFT_CODE

Un código SWIFT es un formato estándar del código de identificación bancaria (BIC) que se utiliza para especificar un banco o sucursal en particular. Los bancos utilizan estos códigos para las transferencias de dinero, como las transferencias bancarias internacionales.

Los códigos SWIFT constan de 8 u 11 caracteres. Los códigos de 11 dígitos se refieren a sucursales específicas, mientras que los códigos de 8 dígitos (o los códigos de 11 dígitos que terminan en “XXX”) se refieren a la oficina central o principal.

URL

Una dirección web, como www.example.com.

USERNAME

Se trata de nombre de usuario que identifica una cuenta, como un nombre de inicio de sesión, un nombre de usuario, un apodo o un identificador.

VEHICLE_IDENTIFICATION_NUMBER

Un número de identificación de vehículo (VIN) identifica de manera única a un vehículo. El contenido y el formato del VIN se definen en la especificación ISO 3779. Cada país tiene códigos y formatos específicos para los VIN.

Tipos de entidades de PII específicos de cada país

Algunos tipos de entidades de PII son específicos de cada país, como los números de pasaporte y otros números de identificación emitidos por el Gobierno. Amazon Comprehend detecta los siguientes tipos de entidades de PII específicas de cada país:

CA_HEALTH_NUMBER

El número del Servicio de Salud de Canadá es un identificador único de 10 dígitos que se requiere para que las personas accedan a los beneficios de atención médica.

CA_SOCIAL_INSURANCE_NUMBER

El número de seguridad social canadiense (SIN) es un identificador único de nueve dígitos que las personas necesitan para acceder a los programas y beneficios del Gobierno.

El SIN tiene formato de tres grupos de tres dígitos, como 123-456-789. Se puede validar un SIN mediante un sencillo proceso de verificación de dígitos denominado algoritmo de Luhn.

IN_AADHAAR

Un Aadhaar indio es un número de identificación único de 12 dígitos emitido por el Gobierno de India a los residentes de ese país. El formato Aadhaar tiene un espacio o un guion después del cuarto y el octavo dígito.

IN_NREGA

Se trata de un número de la Ley Nacional de Garantía del Empleo Rural (NREGA) de India; consta de dos letras seguidas de 14 números.

IN_PERMANENT_ACCOUNT_NUMBER

Un número de cuenta permanente de India es un número alfanumérico único de 10 dígitos emitido por el Departamento de Impuestos sobre la Renta.

IN_VOTER_NUMBER

Se trata de una identificación de votante indio que consta de tres letras seguidas de siete números.

UK_NATIONAL_HEALTH_SERVICE_NUMBER

Un número del Servicio Nacional de Salud del Reino Unido es un número de 10 a 17 dígitos, como 485 777 3456. El sistema actual formatea el número de 10 dígitos con espacios después del tercer y el sexto dígito. El último dígito es una suma de comprobación que detecta errores.

El formato numérico de 17 dígitos tiene espacios después de los dígitos 10.º y 13.º.

UK_NATIONAL_INSURANCE_NUMBER

Un número de seguridad social del Reino Unido (NINO) proporciona a las personas acceso a las prestaciones del National Insurance (seguridad social). También se utiliza para algunos fines en el sistema tributario del Reino Unido.

El número tiene nueve dígitos y comienza con dos letras, seguidas de seis números y una letra. Se puede formatear un NINO con un espacio o un guion después de las dos letras y después del segundo, cuarto y sexto dígitos.

UK_UNIQUE_TAXADOR_REFERENCE_NUMBER

Una referencia tributaria única (UTR) del Reino Unido es un número de 10 dígitos que identifica a un contribuyente o a una empresa.

BANK_ACCOUNT_NUMBER

Se trata de un número de cuenta bancaria de EE. UU., que suele tener entre 10 y 12 dígitos. Amazon Comprehend también reconoce los números de cuentas bancarias cuando solo están presentes los últimos cuatro dígitos.

BANK_ROUTING

Se trata del número de ruta de la cuenta bancaria en EE. UU. Suelen tener nueve dígitos, pero Amazon Comprehend también reconoce los números de ruta cuando solo están presentes los últimos cuatro dígitos.

PASSPORT_NUMBER

Número de pasaporte de EE. UU. Los números de pasaporte oscilan entre seis y nueve caracteres alfanuméricos.

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

El número de identificación fiscal individual (ITIN) de los EE. UU. es un número de nueve dígitos que comienza con un “9” y contiene un “7” u “8” como cuarto dígito. Se puede formatear un ITIN con un espacio o un guion después del tercer y cuarto dígitos.

SSN

Un número de seguridad social (SSN) de los EE. UU. es un número de nueve dígitos que se emite a los ciudadanos estadounidenses, los residentes permanentes y los residentes que trabajan temporalmente. Amazon Comprehend también reconoce los números de seguridad social cuando solo están presentes los últimos cuatro dígitos.