Détecter PII des entités - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Détecter PII des entités

Vous pouvez utiliser Amazon Comprehend pour détecter des PIIentités dans des documents texte en anglais ou en espagnol. Une PII entité est un type spécifique d'informations personnellement identifiables (PII). Utilisez PII la détection pour localiser les PII entités ou les supprimer PII dans le texte.

Localiser PII les entités

Pour localiser les PII entités de votre texte, vous pouvez rapidement analyser un seul document à l'aide d'une analyse en temps réel. Vous pouvez également démarrer un traitement par lots asynchrone sur un ensemble de documents.

Vous pouvez utiliser la console ou l'analyse API en temps réel d'un seul document. Le texte saisi peut inclure jusqu'à 100 kilo-octets de UTF -8 caractères codés.

Par exemple, vous pouvez envoyer le texte d'entrée suivant pour localiser les PII entités :

Bonjour Paulo Santos. Le dernier relevé de votre compte de carte de crédit 1111-0000-1111-0000 a été envoyé par la poste au 123 Any Street, Seattle, WA 98109.

La sortie inclut les informations selon lesquelles « Paul Santos » a le typeNAME, « 1111-0000-1111-0000 » a le type et « 123 Any StreetCREDIT_DEBIT_NUMBER, Seattle, WA 98109 » a le type. ADDRESS

Amazon Comprehend renvoie une liste des PII entités détectées, avec les informations suivantes pour chaque PII entité :

  • Un score qui estime la probabilité que l'étendue de texte détectée soit le type d'entité détecté.

  • Type PII d'entité.

  • Emplacement de l'PIIentité dans le document, spécifié sous forme de décalages de caractères pour le début et la fin de l'entité.

Par exemple, le texte d'entrée mentionné précédemment produit la réponse suivante :

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

Rédiger les entités PII

Pour supprimer les PII entités de votre texte, vous pouvez utiliser la console ou API démarrer un traitement par lots asynchrone. Amazon Comprehend renvoie une copie du texte saisi avec les modifications rédactionnelles pour chaque entité. PII

Par exemple, vous pouvez envoyer le texte d'entrée suivant pour supprimer les PII entités :

Bonjour Paulo Santos. Le dernier relevé de votre compte de carte de crédit 1111-0000-1111-0000 a été envoyé par la poste au 123 Any Street, Seattle, WA 98109.

Le fichier de sortie contient le texte suivant :

Bonjour ***** ******. Le dernier relevé de votre compte de carte de crédit ******************* a été envoyé à *** *** ******* ******** ** *****.

PIItypes d'entités universels

Certains types d'PIIentités sont universels (ils ne sont pas spécifiques à chaque pays), tels que les adresses e-mail et les numéros de carte de crédit. Amazon Comprehend détecte les types d'entités universelles PII suivants :

ADDRESS

Une adresse physique, telle que « 100 Main Street, Anytown USA » ou « Suite #12, Building 123 ». Une adresse peut inclure des informations telles que la rue, le bâtiment, l'emplacement, la ville, l'État, le pays, le comté, le code postal, le quartier et le quartier.

AGE

L'âge d'une personne, y compris la quantité et l'unité de temps. Par exemple, dans la phrase « J'ai 40 ans », Amazon Comprehend reconnaît « 40 ans » comme un âge.

AWS_ACCESS_KEY

Identifiant unique associé à une clé d'accès secrète ; vous utilisez l'ID de clé d'accès et la clé d'accès secrète pour signer des AWS demandes programmatiques de manière cryptographique.

AWS_SECRET_KEY

Identifiant unique associé à une clé d'accès. Vous utilisez l'ID de clé d'accès et la clé d'accès secrète pour signer les AWS demandes programmatiques de manière cryptographique.

CREDIT_DEBIT_CVV

Code de vérification de carte à trois chiffres (CVV) présent sur VISA les cartes de crédit et de débit Discover et Discover. MasterCard Pour les cartes de crédit ou de débit American Express, il CVV s'agit d'un code numérique à quatre chiffres.

CREDIT_DEBIT_EXPIRY

Date d’expiration d’une carte de crédit ou de débit. Ce numéro est généralement composé de quatre chiffres et est souvent formaté comme month/year or MM/YY suit. Amazon Comprehend reconnaît les dates d'expiration telles que le 21/01, le 01/2021 et le 1er janvier 2021.

CREDIT_DEBIT_NUMBER

Numéro de carte de crédit ou de débit. La longueur de ces numéros peut varier de 13 à 16 chiffres. Toutefois, Amazon Comprehend reconnaît également les numéros de carte de crédit ou de débit lorsque seuls les quatre derniers chiffres sont présents.

DATE_TIME

Une date peut inclure une année, un mois, un jour, un jour de la semaine ou une heure de la journée. Par exemple, Amazon Comprehend reconnaît les dates « 19 janvier 2020 » ou « 11 h ». Amazon Comprehend reconnaîtra les dates partielles, les plages de dates et les intervalles de dates. Il reconnaîtra également des décennies, telles que « les années 1990 ».

DRIVER_ID

Le numéro attribué à un permis de conduire, qui est un document officiel permettant à une personne de conduire un ou plusieurs véhicules motorisés sur la voie publique. Le numéro de permis de conduire est composé de caractères alphanumériques.

EMAIL

Une adresse e-mail, telle que marymajor@email.com.

INTERNATIONAL_BANK_ACCOUNT_NUMBER

Un numéro de compte bancaire international a des formats spécifiques dans chaque pays. Consultez le site www.iban.com/structure.

IP_ ADDRESS

Une IPv4 adresse, telle que 198.51.100.0.

LICENSE_PLATE

La plaque d'immatriculation d'un véhicule est délivrée par l'État ou le pays où le véhicule est immatriculé. Le format des véhicules de tourisme est généralement composé de cinq à huit chiffres, composés de lettres majuscules et de chiffres. Le format varie en fonction de la localisation de l'État ou du pays émetteur.

MAC_ADDRESS

Une adresse de contrôle d'accès multimédia (MAC) est un identifiant unique attribué à un contrôleur d'interface réseau (NIC).

NAME

Nom d’une personne. Ce type d'entité n'inclut pas les titres tels que Dr., Mr., Mrs., ou Miss. Amazon Comprehend n'applique pas ce type d'entité aux noms qui font partie d'organisations ou d'adresses. Par exemple, Amazon Comprehend reconnaît « John Doe Organization » comme une organisation, et reconnaît « Jane Doe Street » comme une adresse.

PASSWORD

Chaîne alphanumérique utilisée comme mot de passe, telle que « *very20special #pass * ».

PHONE

Numéro de téléphone. Ce type d’entité inclut également les numéros de télécopieur et de pager.

PIN

Numéro d'identification personnel à quatre chiffres (PIN) avec lequel vous pouvez accéder à votre compte bancaire.

SWIFT_CODE

Un SWIFT code est un format standard de code d'identification bancaire (BIC) utilisé pour spécifier une banque ou une succursale en particulier. Les banques utilisent ces codes pour les transferts d'argent tels que les virements internationaux.

SWIFTles codes sont composés de 8 ou 11 caractères. Les codes à 11 chiffres font référence à des succursales spécifiques, tandis que les codes à huit chiffres (ou les codes à 11 chiffres se terminant par « XXX ») font référence au siège social ou au bureau principal.

URL

Une adresse Web, telle que www.example.com.

USERNAME

Nom d'utilisateur identifiant un compte, tel qu'un nom de connexion, un pseudonyme, un surnom ou un pseudo.

VEHICLE_IDENTIFICATION_NUMBER

Un numéro d'identification de véhicule (VIN) identifie un véhicule de manière unique. VINle contenu et le format sont définis dans la spécification ISO 3779. Chaque pays possède des codes et des formats spécifiques pourVINs.

Types d'PIIentités spécifiques à chaque pays

Certains types d'PIIentités sont spécifiques à un pays, tels que les numéros de passeport et autres numéros d'identification émis par le gouvernement. Amazon Comprehend détecte les types d'entités spécifiques à un pays PII suivants :

CA__ HEALTH NUMBER

Un numéro de service de santé canadien est un identifiant unique à 10 chiffres, requis pour que les personnes aient accès aux prestations de santé.

CA _ _ SOCIAL _ INSURANCE NUMBER

Un numéro d'assurance sociale canadien (SIN) est un identifiant unique à neuf chiffres, requis pour que les particuliers puissent accéder aux programmes et aux prestations du gouvernement.

Le SIN est formaté en trois groupes de trois chiffres, tels que 123-456-789. A SIN peut être validé par un simple processus à chiffres de contrôle appelé algorithme de Luhn.

DANS_ AADHAAR

Un Aadhaar indien est un numéro d'identification unique à 12 chiffres délivré par le gouvernement indien aux résidents de l'Inde. Le format Aadhaar comporte un espace ou un trait d'union après le quatrième et le huitième chiffre.

DANS_ NREGA

Un numéro de la Loi nationale indienne sur la garantie de l'emploi rural (NREGA) se compose de deux lettres suivies de 14 chiffres.

DANS_ _ PERMANENT _ ACCOUNT NUMBER

Un numéro de compte permanent indien est un numéro alphanumérique unique à 10 chiffres émis par le service de l'impôt sur le revenu.

DANS_ _ VOTER NUMBER

Un identifiant d'électeur indien se compose de trois lettres suivies de sept chiffres.

Royaume-Uni_ NATIONAL _ _ HEALTH _ SERVICE NUMBER

Un numéro du National Health Service du Royaume-Uni est un numéro de 10 à 17 chiffres, tel que le 485 777 3456. Le système actuel met en forme le numéro à 10 chiffres avec des espaces après les troisième et sixième chiffres. Le dernier chiffre est une somme de contrôle détectant les erreurs.

Le format numérique à 17 chiffres comporte des espaces après les 10e et 13e chiffres.

Royaume-Uni_ _ NATIONAL _ INSURANCE NUMBER

Un numéro d'assurance nationale britannique (NINO) permet aux particuliers d'accéder aux prestations de l'assurance nationale (sécurité sociale). Il est également utilisé à certaines fins dans le système fiscal britannique.

Le numéro est composé de neuf chiffres et commence par deux lettres, suivies de six chiffres et d'une lettre. A NINO peut être formaté avec un espace ou un tiret après les deux lettres et après les deuxième, quatrième et sixième chiffres.

Royaume-Uni_ UNIQUE _ _ TAXPAYER _ REFERENCE NUMBER

Une référence de contribuable unique au Royaume-Uni (UTR) est un numéro à 10 chiffres qui identifie un contribuable ou une entreprise.

BANK_ACCOUNT_NUMBER

Un numéro de compte bancaire américain, généralement composé de 10 à 12 chiffres. Amazon Comprehend reconnaît également les numéros de compte bancaire lorsque seuls les quatre derniers chiffres sont présents.

BANK_ROUTING

Numéro d’acheminement du compte bancaire aux États-Unis. Ils comportent généralement neuf chiffres, mais Amazon Comprehend reconnaît également les numéros de routage lorsque seuls les quatre derniers chiffres sont présents.

PASSPORT_NUMBER

Un numéro de passeport américain. Les numéros de passeport comprennent de six à neuf caractères alphanumériques.

États-Unis_ INDIVIDUAL _ _ TAX _ IDENTIFICATION NUMBER

Un numéro d'identification de contribuable individuel américain (ITIN) est un numéro à neuf chiffres commençant par un « 9 » et contenant un « 7 » ou un « 8 » comme quatrième chiffre. Un ITIN peut être formaté avec un espace ou un tiret après le troisième et le quatrième chiffre.

SSN

Un numéro de sécurité sociale américain (SSN) est un numéro à neuf chiffres délivré aux citoyens américains, aux résidents permanents et aux résidents actifs temporaires. Amazon Comprehend reconnaît également les numéros de sécurité sociale lorsque seuls les quatre derniers chiffres sont présents.