Détection des entités PII - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Détection des entités PII

Vous pouvez utiliser Amazon Comprehend pour détecter les entités PII dans des documents texte en anglais ou en espagnol. Une entité PII est un type spécifique d'informations personnelles identifiables (PII). Utilisez la détection des PII pour localiser les entités PII ou supprimer les entités PII dans le texte.

Localiser les entités PII

Pour localiser les entités PII dans votre texte, vous pouvez analyser rapidement un seul document à l'aide d'une analyse en temps réel. Vous pouvez également démarrer un traitement par lots asynchrone sur un ensemble de documents.

Vous pouvez utiliser la console ou l'API pour analyser en temps réel un seul document. Le texte saisi peut inclure jusqu'à 100 kilo-octets de caractères codés en UTF-8.

Par exemple, vous pouvez envoyer le texte d'entrée suivant pour localiser les entités PII :

Bonjour Paulo Santos. Le dernier relevé de votre compte de carte de crédit 1111-0000-1111-0000 a été envoyé par la poste au 123 Any Street, Seattle, WA 98109.

La sortie inclut les informations selon lesquelles « Paul Santos » a le typeNAME, « 1111-0000-1111-0000 » a le type et « 123 Any StreetCREDIT_DEBIT_NUMBER, Seattle, WA 98109 » a le type. ADDRESS

Amazon Comprehend renvoie une liste des entités PII détectées, avec les informations suivantes pour chaque entité PII :

  • Un score qui estime la probabilité que l'étendue de texte détectée soit le type d'entité détecté.

  • Type d'entité PII.

  • L'emplacement de l'entité PII dans le document, spécifié sous forme de décalages de caractères pour le début et la fin de l'entité.

Par exemple, le texte d'entrée mentionné précédemment produit la réponse suivante :

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

Rédiger les entités PII

Pour supprimer les entités PII de votre texte, vous pouvez utiliser la console ou l'API pour démarrer un traitement par lots asynchrone. Amazon Comprehend renvoie une copie du texte saisi avec des modifications rédactionnelles pour chaque entité PII.

Par exemple, vous pouvez envoyer le texte d'entrée suivant pour supprimer les entités PII :

Bonjour Paulo Santos. Le dernier relevé de votre compte de carte de crédit 1111-0000-1111-0000 a été envoyé par la poste au 123 Any Street, Seattle, WA 98109.

Le fichier de sortie contient le texte suivant :

Bonjour ***** ******. Le dernier relevé de votre compte de carte de crédit ******************* a été envoyé à *** *** ******* ******** ** *****.

Types d'entités universelles PII

Certains types d'entités PII sont universels (ils ne sont pas spécifiques à chaque pays), tels que les adresses e-mail et les numéros de carte de crédit. Amazon Comprehend détecte les types d'entités PII universelles suivants :

ADDRESS

Une adresse physique, telle que « 100 Main Street, Anytown, États-Unis » ou « Suite #12, Building 123 ». Une adresse peut inclure des informations telles que la rue, le bâtiment, l'emplacement, la ville, l'État, le pays, le comté, le code postal, le quartier et le quartier.

AGE

L'âge d'une personne, y compris la quantité et l'unité de temps. Par exemple, dans la phrase « J'ai 40 ans », Amazon Comprehend reconnaît « 40 ans » comme un âge.

AWS_ACCESS_KEY

Identifiant unique associé à une clé d'accès secrète ; vous utilisez l'ID de clé d'accès et la clé d'accès secrète pour signer des AWS demandes programmatiques de manière cryptographique.

AWS_SECRET_KEY

Identifiant unique associé à une clé d'accès. Vous utilisez l'ID de clé d'accès et la clé d'accès secrète pour signer les AWS demandes programmatiques de manière cryptographique.

CREDIT_DEBIT_CVV

Code de vérification de carte (CVV) à trois chiffres présent sur les cartes de crédit et de débit VISA et Discover. MasterCard Pour les cartes de crédit ou de débit American Express, le CVV est un code numérique à quatre chiffres.

EXPIRATION_DEBIT_CRÉDIT/EXPIRATION

Date d’expiration d’une carte de crédit ou de débit. Ce numéro est généralement composé de quatre chiffres et est souvent formaté en mois/année ou MM/AA. Amazon Comprehend reconnaît les dates d'expiration telles que le 21/01, le 01/2021 et le 1er janvier 2021.

NUMÉRO DE CRÉDIT_DÉBIT

Numéro de carte de crédit ou de débit. La longueur de ces numéros peut varier de 13 à 16 chiffres. Toutefois, Amazon Comprehend reconnaît également les numéros de carte de crédit ou de débit lorsque seuls les quatre derniers chiffres sont présents.

DATE_HEURE

Une date peut inclure une année, un mois, un jour, un jour de la semaine ou une heure de la journée. Par exemple, Amazon Comprehend reconnaît les dates « 19 janvier 2020 » ou « 11 h ». Amazon Comprehend reconnaîtra les dates partielles, les plages de dates et les intervalles de dates. Il reconnaîtra également des décennies, telles que « les années 1990 ».

IDENTIFIANT_PILOTE

Le numéro attribué à un permis de conduire, qui est un document officiel permettant à une personne de conduire un ou plusieurs véhicules motorisés sur la voie publique. Le numéro de permis de conduire est composé de caractères alphanumériques.

EMAIL

Une adresse e-mail, telle que marymajor@email.com.

NUMÉRO_COMPTE_BANCAIRE INTERNATIONAL

Un numéro de compte bancaire international a des formats spécifiques dans chaque pays. Consultez le site www.iban.com/structure.

IP_ADDRESS

Une adresse IPv4, telle que 198.51.100.0.

PLAQUE D'IMMATRICULATION

La plaque d'immatriculation d'un véhicule est délivrée par l'État ou le pays où le véhicule est immatriculé. Le format des véhicules de tourisme est généralement composé de cinq à huit chiffres, composés de lettres majuscules et de chiffres. Le format varie en fonction de la localisation de l'État ou du pays émetteur.

MAC_ADDRESS

Une adresse MAC (Media Access Control) est un identifiant unique attribué à un contrôleur d'interface réseau (NIC).

NAME

Nom d’une personne. Ce type d'entité n'inclut pas les titres tels que Dr., Mr., Mrs., ou Miss. Amazon Comprehend n'applique pas ce type d'entité aux noms qui font partie d'organisations ou d'adresses. Par exemple, Amazon Comprehend reconnaît « John Doe Organization » comme une organisation, et reconnaît « Jane Doe Street » comme une adresse.

PASSWORD

Chaîne alphanumérique utilisée comme mot de passe, telle que « *very20special #pass * ».

PHONE

Numéro de téléphone. Ce type d’entité inclut également les numéros de télécopieur et de pager.

BROCHE

Numéro d'identification personnel (PIN) à quatre chiffres avec lequel vous pouvez accéder à votre compte bancaire.

CODE SWIFT_CODE

Un code SWIFT est un format standard de code d'identification bancaire (BIC) utilisé pour spécifier une banque ou une succursale en particulier. Les banques utilisent ces codes pour les transferts d'argent tels que les virements internationaux.

Les codes SWIFT sont composés de 8 ou 11 caractères. Les codes à 11 chiffres font référence à des succursales spécifiques, tandis que les codes à huit chiffres (ou les codes à 11 chiffres se terminant par « XXX ») font référence au siège social ou au bureau principal.

URL

Une adresse Web, telle que www.example.com.

USERNAME

Nom d'utilisateur qui identifie un compte, tel qu'un nom de connexion, un pseudonyme, un surnom ou un pseudo.

NUMÉRO D'IDENTIFICATION DU VÉHICULE

Un numéro d'identification du véhicule (VIN) identifie un véhicule de manière unique. Le contenu et le format du VIN sont définis dans la spécification ISO 3779. Chaque pays possède des codes et des formats spécifiques pour les VIN.

Types d'entités PII spécifiques à chaque pays

Certains types d'entités PII sont spécifiques à un pays, tels que les numéros de passeport et autres numéros d'identification émis par le gouvernement. Amazon Comprehend détecte les types suivants d'entités PII spécifiques à un pays :

CA_HEALTH_NUMBER

Un numéro de service de santé canadien est un identifiant unique à 10 chiffres, requis pour accéder aux prestations de santé.

CA_SOCIAL_INSURANCE_NUMBER

Le numéro d'assurance sociale (SIN) canadien est un identifiant unique à neuf chiffres, requis pour accéder aux programmes et aux prestations du gouvernement.

Le SIN est formaté en trois groupes de trois chiffres, tels que 123-456-789. Un SIN peut être validé au moyen d'un simple processus à chiffres de contrôle appelé algorithme de Luhn.

IN_AADHAAR

Un Aadhaar indien est un numéro d'identification unique à 12 chiffres délivré par le gouvernement indien aux résidents de l'Inde. Le format Aadhaar comporte un espace ou un trait d'union après le quatrième et le huitième chiffre.

IN_NREGA

Un numéro de la Loi nationale indienne sur la garantie de l'emploi rural (NREGA) se compose de deux lettres suivies de 14 chiffres.

IN_PERMANENT_ACCOUNT_NUMBER

Un numéro de compte permanent indien est un numéro alphanumérique unique à 10 chiffres émis par le service de l'impôt sur le revenu.

IN_VOTER_NUMBER

Un identifiant d'électeur indien se compose de trois lettres suivies de sept chiffres.

UK_NATIONAL_HEALTH_SERVICE_NUMBER

Un numéro du National Health Service du Royaume-Uni est un numéro de 10 à 17 chiffres, tel que le 485 777 3456. Le système actuel met en forme le numéro à 10 chiffres avec des espaces après les troisième et sixième chiffres. Le dernier chiffre est une somme de contrôle détectant les erreurs.

Le format numérique à 17 chiffres comporte des espaces après les 10e et 13e chiffres.

UK_NATIONAL_INSURANCE_NUMBER

Un numéro d'assurance nationale britannique (NINO) permet aux particuliers d'accéder aux prestations de l'assurance nationale (sécurité sociale). Il est également utilisé à certaines fins dans le système fiscal britannique.

Le numéro est composé de neuf chiffres et commence par deux lettres, suivies de six chiffres et d'une lettre. Un NINO peut être formaté avec un espace ou un tiret après les deux lettres et après les deuxième, quatrième et sixième chiffres.

UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER

Une référence unique de contribuable britannique (UTR) est un numéro à 10 chiffres qui identifie un contribuable ou une entreprise.

NUMÉRO_COMPTE_BANCAIRE

Un numéro de compte bancaire américain, généralement composé de 10 à 12 chiffres. Amazon Comprehend reconnaît également les numéros de compte bancaire lorsque seuls les quatre derniers chiffres sont présents.

ROUTAGE BANCAIRE

Numéro d’acheminement du compte bancaire aux États-Unis. Ils comportent généralement neuf chiffres, mais Amazon Comprehend reconnaît également les numéros de routage lorsque seuls les quatre derniers chiffres sont présents.

NUMÉRO_PASSEPORT

Un numéro de passeport américain. Les numéros de passeport sont composés de six à neuf caractères alphanumériques.

NUMÉRO_IDENTIFICATION_FISCAL INDIVIDUEL AMÉRICAIN

Un numéro d'identification de contribuable individuel (ITIN) américain est un numéro à neuf chiffres commençant par un « 9 » et contenant un « 7 » ou un « 8 » comme quatrième chiffre. Un ITIN peut être formaté avec un espace ou un tiret après le troisième et le quatrième chiffre.

SSN

Un numéro de sécurité sociale américain (SSN) est un numéro à neuf chiffres délivré aux citoyens américains, aux résidents permanents et aux résidents actifs temporaires. Amazon Comprehend reconnaît également les numéros de sécurité sociale lorsque seuls les quatre derniers chiffres sont présents.