Rilevamento delle entità PII - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Rilevamento delle entità PII

Puoi usare Amazon Comprehend per rilevare le entità PII nei documenti di testo in inglese o spagnolo. Un'entità PII è un tipo specifico di informazioni di identificazione personale (PII). Utilizza il rilevamento delle informazioni PII per individuare le entità PII o oscurare le entità PII nel testo.

Individua le entità PII

Per individuare le entità PII nel testo, è possibile analizzare rapidamente un singolo documento utilizzando l'analisi in tempo reale. È inoltre possibile avviare un processo batch asincrono su una raccolta di documenti.

Puoi utilizzare la console o l'API per l'analisi in tempo reale di un singolo documento. Il testo di input può includere fino a 100 kilobyte di caratteri con codifica UTF-8.

Ad esempio, puoi inviare il seguente testo di input per individuare le entità PII:

Salve Paulo Santos. L'ultimo estratto conto relativo al conto della tua carta di credito 1111-0000-1111-0000 è stato inviato per posta a 123 Any Street, Seattle, WA 98109.

L'output include le informazioni che «Paul Santos» ha il tipo, «1111-0000-1111-0000" ha il tipo e «123 Any StreetNAME, Seattle, WA 98109" ha il tipo. CREDIT_DEBIT_NUMBER ADDRESS

Amazon Comprehend restituisce un elenco di entità PII rilevate, con le seguenti informazioni per ciascuna entità PII:

  • Un punteggio che stima la probabilità che l'intervallo di testo rilevato sia il tipo di entità rilevato.

  • Il tipo di entità PII.

  • La posizione dell'entità PII nel documento, specificata come offset di caratteri per l'inizio e la fine dell'entità.

Ad esempio, il testo di input menzionato in precedenza produce la seguente risposta:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

Redigi le entità PII

Per oscurare le entità PII nel testo, puoi utilizzare la console o l'API per avviare un processo batch asincrono. Amazon Comprehend restituisce una copia del testo di input con redazioni per ogni entità PII.

Ad esempio, puoi inviare il seguente testo di input per oscurare le entità PII:

Buongiorno Paulo Santos. L'ultimo estratto conto relativo al conto della tua carta di credito 1111-0000-1111-0000 è stato inviato per posta a 123 Any Street, Seattle, WA 98109.

Il file di output include il testo seguente:

Salve ***** ******. L'ultimo estratto conto relativo al conto della tua carta di credito ***************** è stato inviato per posta a *** ********* ******** *****.

Tipi di entità universali PII

Alcuni tipi di entità PII sono universali (non specifici per i singoli paesi), come gli indirizzi e-mail e i numeri di carte di credito. Amazon Comprehend rileva i seguenti tipi di entità PII universali:

ADDRESS

Un indirizzo fisico, ad esempio «100 Main Street, Anytown, USA» o «Suite #12, Building 123". Un indirizzo può includere informazioni come la via, l'edificio, l'ubicazione, la città, lo stato, il paese, la contea, il codice postale, il distretto e il quartiere.

AGE

L'età di un individuo, inclusa la quantità e l'unità di tempo. Ad esempio, nella frase «Ho 40 anni», Amazon Comprehend riconosce «40 anni» come età.

AWS_ACCESS_KEY

Un identificatore univoco associato a una chiave di accesso segreta; utilizzi l'ID della chiave di accesso e la chiave di accesso segreta per firmare le richieste AWS programmatiche in modo crittografico.

AWS_SECRET_KEY

Un identificatore univoco associato a una chiave di accesso. L'ID della chiave di accesso e la chiave di accesso segreta vengono utilizzati per firmare crittograficamente AWS le richieste programmatiche.

CREDIT_DEBIT_CVV

Un codice di verifica della carta a tre cifre (CVV) presente sulle carte di credito e debito VISA e Discover. MasterCard Per le carte di credito o di debito American Express, il CVV è un codice numerico a quattro cifre.

CREDIT_DEBIT_EXPIRY

Data di scadenza della carta di credito o della carta di debito. Questo numero è in genere composto da quattro cifre ed è spesso formattato come mese/anno o MM/YY. Amazon Comprehend riconosce date di scadenza come 21/01/2021, 01/2021 e gennaio 2021.

NUMERO_CREDIT_DEBIT_

Numeri di carta di credito o di debito. La lunghezza di questi numeri può variare da 13 a 16 cifre. Tuttavia, Amazon Comprehend riconosce i numeri delle carte di credito o di debito anche quando sono presenti solo le ultime quattro cifre.

DATA_ORA

Una data può includere un anno, un mese, un giorno, un giorno della settimana o un'ora del giorno. Ad esempio, Amazon Comprehend riconosce come date «19 gennaio 2020" o «11:00». Amazon Comprehend riconoscerà date parziali, intervalli di date e intervalli di date. Riconoscerà anche decenni, come «gli anni '90".

DRIVER_ID

Il numero assegnato alla patente di guida, che è un documento ufficiale che consente a una persona di guidare uno o più veicoli motorizzati su una strada pubblica. Il numero della patente di guida è composto da caratteri alfanumerici.

EMAIL

Un indirizzo e-mail, ad esempio marymajor@email.com.

NUMERO_CONTO_BANCARIO INTERNAZIONALE

Un numero di conto bancario internazionale ha formati specifici in ogni paese. Vedi www.iban.com/structure.

IP_ADDRESS

Un indirizzo IPv4, ad esempio 198.51.100.0.

TARGA_LICENZA

La targa di un veicolo viene emessa dallo stato o dal paese in cui il veicolo è immatricolato. Il formato per i veicoli passeggeri è in genere da cinque a otto cifre, composto da lettere maiuscole e numeri. Il formato varia a seconda dell'ubicazione dello stato o del paese di emissione.

MAC_ADDRESS

Un indirizzo MAC (Media Access Control) è un identificatore univoco assegnato a un controller di interfaccia di rete (NIC).

NAME

Il nome di una persona. Questo tipo di entità non include titoli come Dr., Mr., Mrs. o Miss. Amazon Comprehend non applica questo tipo di entità a nomi che fanno parte di organizzazioni o indirizzi. Ad esempio, Amazon Comprehend riconosce la «John Doe Organization» come organizzazione e riconosce «Jane Doe Street» come indirizzo.

PASSWORD

Una stringa alfanumerica utilizzata come password, ad esempio «*very20special #pass *».

PHONE

Un numero di telefono. Questo tipo di entità include anche numeri di fax e cercapersone.

PERNO

Un numero di identificazione personale (PIN) a quattro cifre con cui puoi accedere al tuo conto bancario.

CODICE SWIFT

Un codice SWIFT è un formato standard di Bank Identifier Code (BIC) utilizzato per specificare una particolare banca o filiale. Le banche utilizzano questi codici per i trasferimenti di denaro, come i bonifici internazionali.

I codici SWIFT sono composti da otto o 11 caratteri. I codici a 11 cifre si riferiscono a filiali specifiche, mentre i codici a otto cifre (o codici a 11 cifre che terminano con «XXX») si riferiscono alla sede centrale o principale.

URL

Un indirizzo Web, ad esempio www.example.com.

USERNAME

Un nome utente che identifica un account, ad esempio un nome di accesso, uno screen name, un soprannome o un handle.

NUMERO_IDENTIFICAZIONE_VEICOLO

Un numero di identificazione del veicolo (VIN) identifica in modo univoco un veicolo. Il contenuto e il formato del VIN sono definiti nella specifica ISO 3779. Ogni paese ha codici e formati specifici per i VIN.

Tipi di entità PII specifici per paese

Alcuni tipi di entità PII sono specifici del paese, come i numeri di passaporto e altri numeri di identità emessi dal governo. Amazon Comprehend rileva i seguenti tipi di entità PII specifiche del paese:

CA_HEALTH_NUMBER

Un Canadian Health Service Number è un identificatore univoco di 10 cifre, necessario per consentire alle persone di accedere alle prestazioni sanitarie.

CA_SOCIAL_INSURANCE_NUMBER

Il Canadian Social Insurance Number (SIN) è un identificativo univoco a nove cifre, necessario per consentire alle persone di accedere ai programmi e ai benefici governativi.

Il SIN è formattato come tre gruppi di tre cifre, ad esempio 123-456-789. Un SIN può essere convalidato tramite un semplice processo con cifre di controllo chiamato algoritmo di Luhn.

IN_AADHAAR

Un Aadhaar indiano è un numero di identificazione univoco di 12 cifre rilasciato dal governo indiano ai residenti dell'India. Il formato Aadhaar presenta uno spazio o un trattino dopo la quarta e l'ottava cifra.

IN_REGA

Un numero dell'Indian National Rural Employment Guarantee Act (NREGA) è composto da due lettere seguite da 14 numeri.

NUMERO_CONTO_PERMANENTE

Un numero di conto permanente indiano è un numero alfanumerico univoco di 10 cifre emesso dal Dipartimento delle imposte sul reddito.

IN_VOTER_NUMBER

Un ID elettorale indiano è composto da tre lettere seguite da sette numeri.

UK_NATIONAL_HEALTH_SERVICE_NUMBER

Il National Health Service Number del Regno Unito è un numero di 10-17 cifre, ad esempio 485 777 3456. Il sistema attuale formatta il numero a 10 cifre con spazi dopo la terza e la sesta cifra. L'ultima cifra è un checksum che rileva gli errori.

Il formato numerico a 17 cifre presenta degli spazi dopo la decima e la tredicesima cifra.

UK_NATIONAL_INSURANCE_NUMBER

Il National Insurance Number (NINO) del Regno Unito fornisce alle persone l'accesso alle prestazioni della National Insurance (previdenza sociale). Viene anche utilizzato per alcuni scopi nel sistema fiscale del Regno Unito.

Il numero è composto da nove cifre e inizia con due lettere, seguite da sei numeri e una lettera. Un NINO può essere formattato con uno spazio o un trattino dopo le due lettere e dopo la seconda, la quarta e la sesta cifra.

UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER

L'UTR (Unique Taxpayer Reference) del Regno Unito è un numero di 10 cifre che identifica un contribuente o un'azienda.

NUMERO_CONTO_BANCARIO

Un numero di conto bancario statunitense, che in genere è composto da 10 a 12 cifre. Amazon Comprehend riconosce anche i numeri di conto bancario quando sono presenti solo le ultime quattro cifre.

BANK_ROUTING

Numero di routing del conto bancario statunitense. Si tratta in genere di nove cifre, ma Amazon Comprehend riconosce anche i numeri di routing quando sono presenti solo le ultime quattro cifre.

NUMERO_PASSAPORTO

Un numero di passaporto statunitense. I numeri dei passaporti vanno da sei a nove caratteri alfanumerici.

US_NUMERO_INDIVIDUALE_IDENTIFICAZIONE_FISCALE

Un numero ITIN (Individual Taxpayer Identification Number) statunitense è un numero di nove cifre che inizia con «9" e contiene un «7" o «8" come quarta cifra. Un ITIN può essere formattato con uno spazio o un trattino dopo la terza e la quarta cifra.

SSN

Un numero di previdenza sociale degli Stati Uniti (SSN) è un numero di nove cifre rilasciato ai cittadini statunitensi, ai residenti permanenti e ai residenti che lavorano temporaneamente. Amazon Comprehend riconosce anche i numeri di previdenza sociale quando sono presenti solo le ultime quattro cifre.