Rileva ed elabora dati sensibili - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Rileva ed elabora dati sensibili

La trasformazione Detect PII identifica le informazioni personali di identificazione (PII) nell'origine dati. È possibile scegliere l'entità PII da identificare, come si desidera che i dati vengano scansionati e cosa fare con l'entità PII identificata dalla trasformazione Detect PII.

La trasformazione Detect PII fornisce la possibilità di rilevare, mascherare o rimuovere le entità definite o che sono predefinite da AWS. Ciò consente di aumentare la conformità e ridurre la responsabilità. Ad esempio, potresti voler assicurarti che nei tuoi dati non esistano informazioni di identificazione personale che possano essere lette e mascherare i numeri di previdenza sociale con una stringa fissa (ad esempio xxx-xx-xxxx), numeri di telefono o indirizzi.

Per lavorare con dati sensibili al di fuori di AWS Glue Studio, consulta Utilizzo del rilevamento di dati sensibili all'esterno di AWS Glue Studio

Come scegliere il modo in cui desideri che vengano scansionati i dati

Quando esegui la scansione del set di dati per i dati sensibili, come le informazioni di identificazione personale (PII), puoi scegliere di rilevare le PII in ogni riga o rilevare le colonne che contengono dati PII.

La schermata mostra le opzioni nella trasformazione Detect PII quando si seleziona il rilevamento dei campi che contengono PII nell'origine dati.

Quando scegli Detect PII in each cell (Rileva PII in ogni cella), stai scegliendo di scansionare tutte le righe nell'origine dati. Si tratta di una scansione completa per garantire che le entità PII siano identificate.

Quando scegli Detect fields containing PII (Rileva campi contenenti PII), stai scegliendo di scansionare un campione di righe per le entità PII. Questo è un modo per mantenere bassi costi e risorse, identificando al contempo i campi in cui si trovano le entità PII.

Quando si sceglie di rilevare i campi che contengono PII, è possibile ridurre i costi e migliorare le prestazioni campionando una parte di righe. La scelta di questa opzione ti permetterà di specificare opzioni aggiuntive:

  • Sample portion (Porzione campione): consente di specificare la percentuale di righe da campionare. Ad esempio, se si immette "50", si specifica che si desidera il 50% delle righe scansionate per l'entità PII.

  • Detection threshold (Soglia di rilevamento): consente di specificare la percentuale di righe che contengono l'entità PII in modo che l'intera colonna venga identificata come avente l'entità PII. Ad esempio, se inserisci "10", stai specificando che il numero dell'entità PII, US Phone, nelle righe scansionate deve essere pari o superiore al 10% per poter identificare il campo come entità PII, Numero di telefono degli Stati Uniti. Se la percentuale di righe che contengono l'entità PII è inferiore al 10%, tale campo non verrà etichettato come contenente l'entità PII, Numero di telefono degli Stati Uniti, al suo interno.

Scelta delle entità PII da rilevare

Se hai scelto Rileva PII in ogni cella puoi scegliere tra una delle tre opzioni:

  • Tutti i modelli PII disponibili, incluse AWS le entità.

  • Seleziona categorie: quando selezioni le categorie, i modelli PII includeranno automaticamente i modelli nelle categorie selezionate.

  • Seleziona modelli specifici: verranno rilevati solo i modelli selezionati.

Per un elenco completo dei tipi di dati sensibili gestiti, consulta la pagina Managed Sensitive Data Types.

Scegli tra tutti i modelli PII disponibili

Se scegli Tutti i modelli PII disponibili, seleziona le entità predefinite da. AWSÈ possibile selezionare una, più di una o tutte le entità.

La schermata mostra le opzioni nell'elenco delle entità predefinite AWS .

Categorie di selezione

Se hai scelto Categorie di selezione come i modelli PII da rilevare, è possibile selezionare tra le opzioni del menu a discesa. Alcune entità possono appartenere a più di una categoria. Ad esempio: Nome della persona è un'entità che appartiene alle categorie Universale e HIPAA.

  • Universale (esempi: e-mail, carta di credito)

  • HIPAA (esempi: patente di guida statunitense, codice HCPCS [Healthcare Common Procedure Coding System])

  • Rete (esempi: indirizzo IP, indirizzo MAC)

  • Argentina

  • Australia

  • Austria

  • Belgio

  • Bosnia

  • Bulgaria

  • Canada

  • Cile

  • Colombia

  • Croazia

  • Cipro

  • Cechia

  • Danimarca

  • Estonia

  • Finlandia

  • Francia

  • Germania

  • Grecia

  • Ungheria

  • Irlanda

  • Corea

  • Giappone

  • Messico

  • Paesi Bassi

  • Nuova Zelanda

  • Norvegia

  • Portogallo

  • Romania

  • Singapore

  • Slovacchia

  • Slovenia

  • Spagna

  • Svezia

  • Svizzera

  • Turchia

  • Ucraina

  • Stati Uniti

  • Regno Unito

  • Venezuela

Seleziona modelli specifici

Se scegli Seleziona modelli specifici come modelli PII da rilevare, è possibile cercare o sfogliare da un elenco di modelli già creati o creare un nuovo modello di entità di rilevamento.

I passaggi riportati di seguito descrivono come creare un nuovo modello personalizzato per il rilevamento di dati sensibili. Creerai il modello personalizzato inserendo un nome per il modello, aggiungerai un'espressione regolare e, facoltativamente, definirai le parole contestuali.

  1. Per creare un nuovo motivo, fare clic sul pulsante Creare nuovo.

    La schermata mostra la sezione Seleziona modello.
  2. Nella pagina Crea entità di rilevamento, immettere il nome dell'entità e un'espressione regolare. L'espressione regolare (Regex) è quella che AWS Glue utilizzerà per abbinare le entità.

  3. Fare clic su Convalida. Se la convalida ha esito positivo, verrà visualizzato un messaggio di conferma che indica che la stringa è un'espressione regolare valida. Se la convalida non ha esito positivo, verrà visualizzato un messaggio che indica che la stringa non è conforme alla formattazione corretta e ai valori letterali, operatori o costrutti dei caratteri accettati.

  4. È possibile scegliere di aggiungere parole di contesto oltre all'espressione regolare. Le parole contestuali possono aumentare la probabilità di una corrispondenza. Questi possono essere utili nei casi in cui i nomi dei campi non sono descrittivi dell'entità. Ad esempio, i numeri di previdenza sociale possono essere denominati "SSN" o "SS". L'aggiunta di queste parole contestuali può aiutare a far corrispondere l'entità.

  5. Fare clic su Crea per creare l'entità di rilevamento. Tutte le entità create sono visibili nella console AWS Glue Studio. Fai clic su Entità di rilevamento nel menu di navigazione a sinistra.

    È possibile modificare, eliminare o creare entità di rilevamento dalla pagina Entità di rilevamento. È inoltre possibile ricercare un modello utilizzando il campo di ricerca.

Specificazione del livello di distinzione di rilevamento

È possibile impostare il livello di distinzione quando si utilizza il rilevamento di dati sensibili.

  • Alto: (impostazione predefinita) rileva più entità per i casi d'uso che richiedono un livello di distinzione più elevato. Tutti i processi AWS Glue creati dopo novembre 2023 vengono automaticamente attivati per questa impostazione.

  • Bassa: rileva un minor numero di entità e riduce i falsi positivi.

La schermata mostra le opzioni globali della distinzione di rilevamento. Esiste un'opzione bassa, che consente una maggiore precisione ma è più rigorosa e può comportare un rilevamento complessivo inferiore. La seconda opzione è un'impostazione ad alta distinzione, che consente un rilevamento più ampio ed è più adatta quando è necessario un rilevamento PII più elevato.

Come scegliere cosa fare con i dati PII identificati

Se hai deciso di rilevare le PII nell'intera origine dati, puoi selezionare l'applicazione di un'azione globale:

  • Enrich data with detection results (Arricchisci i dati con i risultati di rilevamento): se scegli Detect PII in ogni cella, potrai archiviare le entità rilevate in una nuova colonna.

  • Redact detected text (Rivedi il testo rilevato): è possibile sostituire il valore PII rilevato con una stringa specificata nel campo opzionale Sostituzione del testo. Se non viene specificata alcuna stringa, l'entità PII rilevata viene sostituita con "*******".

  • Rivedi parzialmente il testo rilevato: è possibile sostituire il valore PII rilevato con una stringa scelta. Esistono due opzioni possibili: lasciare le estremità smascherate o mascherarle fornendo un modello regex esplicito. Questa caratteristica non è disponibile in AWS Glue 2.0.

  • Applica hash di crittografia: puoi passare il valore PII rilevato a una funzione hash di crittografia SHA-256 e sostituire il valore con l'output della funzione.

Quando si selezionano tutte le righe nell'origine dati per rilevare le PII, la schermata mostra le opzioni nella trasformazione Detect PII.

Differenze tra le versioni di AWS Glue 2.0 e 3.0+

AWS Glue2.0 jobs ne restituirà una nuova DataFrame con le informazioni PII rilevate per ogni colonna in una colonna supplementare. Qualsiasi processo di redazione o hash è visibile all'interno dello script AWS Glue nella scheda visiva.

AWS GlueI lavori 3.0 e 4.0 ne restituiranno uno nuovo DataFrame con la stessa colonna supplementare. È presente una nuova chiave per "actionUsed" che può essere una tra DETECT, REDACT, PARTIAL_REDACT o SHA256_HASH. Se viene selezionata un'azione di mascheramento, DataFrame restituirà dati con dati sensibili mascherati.

Aggiungere sostituzioni di operazioni granulari

È possibile aggiungere ulteriori impostazioni di rilevamento e azione alla tabella dettagliata delle sostituzioni di azioni. Ciò consente di:

  • Includere o escludere determinate colonne dal rilevamento: uno schema dedotto sull'origine dati popolerà la tabella con le colonne disponibili.

  • Definire le impostazioni specifiche più granulari rispetto all'utilizzo di azioni globali: ad esempio, è possibile specificare diverse impostazioni del testo di redazione per diversi tipi di entità.

  • Specificare un'azione diversa da quella globale: se si desidera applicare un'azione diversa a un tipo di dati sensibili diverso, è possibile farlo qui. Tieni presente che non è possibile utilizzare due edit-in-place azioni diverse (redazione e hashing) sulla stessa colonna, ma è sempre possibile utilizzare detect.

La schermata mostra le operazioni granulari delle operazioni. Puoi aggiungere, modificare, eliminare o modificare come JSON qualsiasi azione sostituisce il processo.