Creazione di identificatori di dati personalizzati in Amazon Macie - Amazon Macie

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creazione di identificatori di dati personalizzati in Amazon Macie

UNidentificatore di dati personalizzatoè un insieme di criteri che definisci per rilevare dati sensibili negli oggetti Amazon Simple Storage Service (Amazon S3). I criteri sono costituiti da un'espressione regolare (regex) che definisce uno schema di testo da abbinare e, facoltativamente, sequenze di caratteri e una regola di prossimità che perfeziona i risultati.

Con gli identificatori di dati personalizzati, puoi definire criteri di rilevamento che riflettono gli scenari particolari, la proprietà intellettuale o i dati proprietari della tua organizzazione, ad esempio ID dei dipendenti, numeri di account dei clienti o classificazioni interne dei dati. Se si configuralavori di rilevamento di dati sensibiliorilevamento automatico di dati sensibiliper utilizzare questi identificatori, puoi analizzare gli oggetti S3 in un modo che integri ilidentificatori di dati gestitiche Amazon Macie fornisce.

Oltre ai criteri di rilevamento, è possibile definire impostazioni di gravità personalizzate per i risultati di dati sensibili prodotti da un identificatore di dati personalizzato. Per impostazione predefinita, Macie assegna ilMediogravità per tutti i risultati prodotti da un identificatore di dati personalizzato: la gravità non cambia in base al numero di occorrenze di testo che corrispondono ai criteri di rilevamento di un identificatore di dati personalizzato. Definendo impostazioni di gravità personalizzate, puoi specificare quale severità assegnare in base al numero di occorrenze di testo che corrispondono ai criteri.

Definizione dei criteri di rilevamento per gli identificatori di dati personalizzati

Quando si crea un identificatore di dati personalizzato, si specifica un'espressione regolare (regex) che definisce uno schema di testo da abbinare agli oggetti S3. Macie supporta un sottoinsieme della sintassi del pattern regex fornita daLibreria di espressioni regolari compatibili con Perl (PCRE). Per ulteriori informazioni, vedereSupporto Regexpiù avanti in questa sezione.

Puoi anche specificare sequenze di caratteri, come parole e frasi, e una regola di prossimità per affinare i risultati.

Parole chiave

Si tratta di sequenze di caratteri specifiche che devono trovarsi in prossimità di un testo che corrisponde al modello di espressione regolare. I requisiti di prossimità variano in base al formato di archiviazione o al tipo di file di un oggetto S3:

  • Per i dati strutturati a colonne, Macie include un risultato se il testo corrisponde allo schema regex e una parola chiave è nel nome del campo o della colonna in cui è memorizzato il testo, oppure se il testo è preceduto da e si trova entro la distanza di corrispondenza massima di una parola chiave nello stesso valore di campo o cella. Questo vale per le cartelle di lavoro di Microsoft Excel, i file CSV e i file TSV.

  • Per i dati strutturati e basati su record, Macie include un risultato se il testo corrisponde allo schema regex e il testo si trova entro la distanza massima di corrispondenza di una parola chiave. La parola chiave può essere nel nome di un elemento nel percorso del campo o della matrice in cui è memorizzato il testo oppure può precedere e far parte dello stesso valore nel campo o nella matrice in cui è memorizzato il testo. Questo vale per i contenitori di oggetti Apache Avro, i file Apache Parquet, i file JSON e i file JSON Lines.

  • Per i dati non strutturati, Macie include un risultato se il testo corrisponde allo schema regex e il testo è preceduto e compreso nella distanza di corrispondenza massima di una parola chiave. Questo vale per i file Adobe Portable Document Format, i documenti Microsoft Word, i messaggi di posta elettronica e i file di testo non binari diversi dai file CSV, JSON, JSON Lines e TSV. Ciò include tutti i dati strutturati, come le tabelle, in questi tipi di file.

Puoi specificare fino a 50 parole chiave. Ogni parola chiave può contenere da 3 a 90 caratteri UTF-8. Le parole chiave non distinguono tra maiuscole e minuscole.

Distanza massima di partita

Questa è una regola di prossimità basata sui caratteri per le parole chiave. Macie utilizza questa impostazione per determinare se una parola chiave precede il testo che corrisponde al modello regex. L'impostazione definisce il numero massimo di caratteri che possono esistere tra la fine di una parola chiave completa e la fine del testo che corrisponde al modello regex. Se il testo corrisponde allo schema regex, compare dopo almeno una parola chiave completa e si trova entro la distanza specificata dalla parola chiave, Macie lo include nei risultati. Altrimenti, Macie lo esclude dai risultati.

È possibile specificare una distanza compresa tra 1 e 300 caratteri. La distanza predefinita è di 50 caratteri. Per ottenere risultati ottimali, questa distanza deve essere maggiore del numero minimo di caratteri di testo che l'espressione regolare è progettata per rilevare. Se solo una parte del testo rientra nella distanza massima di corrispondenza di una parola chiave, Macie non la include nei risultati.

Ignora le parole

Si tratta di sequenze di caratteri specifiche da escludere dai risultati. Se il testo corrisponde allo schema delle espressioni regolari ma contiene una parola da ignorare, Macie non la include nei risultati.

Puoi specificare fino a 10 parole da ignorare. Ogni parola da ignorare può contenere da 4 a 90 caratteri UTF-8. Le parole da ignorare distinguono tra maiuscole e minuscole.

Ad esempio, molte aziende hanno una sintassi specifica per gli ID dei dipendenti. Una di queste sintassi potrebbe essere: una lettera maiuscola che indica se il dipendente è un dipendente a tempo pieno (F) o a tempo parziale (P) dipendente, seguito da un trattino (-), seguito da una sequenza di otto cifre che identifica il dipendente. Alcuni esempi sono:F-12345678, per un dipendente a tempo pieno, eP-87654321, per un dipendente a tempo parziale.

Se crei un identificatore di dati personalizzato per rilevare gli ID dei dipendenti che utilizzano questa sintassi, potresti utilizzare la seguente espressione regolare:[A-Z]-\d{8}. Per affinare l'analisi ed evitare falsi positivi, puoi anche configurare l'identificatore di dati personalizzato per utilizzare le parole chiavedipendenteeID dipendentee una distanza di corrispondenza massima di 20 caratteri. Con questi criteri, i risultati includono il testo che corrisponde all'espressione regolare solo se il testo compare dopo la parola chiavedipendenteoID dipendentee tutto il testo si trova entro 20 caratteri da una di queste parole chiave.

Per una dimostrazione di come le parole chiave possono aiutarti a trovare dati sensibili ed evitare falsi positivi, guarda il seguente video:

Definizione delle impostazioni di gravità della ricerca per gli identificatori di dati personalizzati

Quando crei un identificatore di dati personalizzato, puoi anche definire impostazioni di gravità personalizzate per i risultati dei dati sensibili prodotti dall'identificatore. Per impostazione predefinita, Macie assegna ilMediogravità di tutti i risultati prodotti da un identificatore di dati personalizzato: se un oggetto S3 contiene almeno un'occorrenza di testo che corrisponde ai criteri di rilevamento di un identificatore di dati personalizzato, Macie assegna automaticamente ilMediogravità della constatazione risultante.

Con le impostazioni di gravità personalizzate, puoi specificare la gravità da assegnare in base al numero di occorrenze di testo che corrispondono ai criteri di rilevamento dell'identificatore di dati personalizzato. Per fare ciò, definiscisoglie di ricorrenzaper un massimo di tre livelli di gravità:Basso(meno grave),Medio, eAlto(più grave). Unsoglia di occorrenzeè il numero minimo di corrispondenze che devono esistere in un oggetto S3 per produrre una scoperta con la gravità specificata. Se si specifica più di una soglia, le soglie devono essere in ordine crescente in base alla gravità, a partire daBassoaAlto.

Ad esempio, l'immagine seguente mostra le impostazioni di gravità per un identificatore di dati personalizzato che specifica tre soglie di occorrenza, una per ogni livello di gravità supportato da Macie.

LaSeveritàsezione delIdentificatore di dati personalizzatopagina con tre soglie di ricorrenza: 1 perBassolivello di gravità, 50 perMediolivello di gravità e 100 perAltolivello di gravità.

La tabella seguente indica la gravità dei risultati prodotti dall'identificatore di dati personalizzato.

Soglia di occorrenza Livello di gravità Risultato
1 Bassa Se un oggetto S3 contiene da 1 a 49 occorrenze di testo che corrispondono ai criteri di rilevamento, la gravità della scoperta risultante èBasso.
50 Media Se un oggetto S3 contiene 50-99 occorrenze di testo che corrispondono ai criteri di rilevamento, la gravità della scoperta risultante èMedio.
100 Elevata Se un oggetto S3 contiene 100 o più occorrenze di testo che corrispondono ai criteri di rilevamento, la gravità della scoperta risultante èAlto.

È inoltre possibile utilizzare le impostazioni di gravità per specificare se creare o meno un risultato. Se un oggetto S3 contiene meno occorrenze rispetto alla soglia di occorrenza più bassa, Macie non crea una ricerca.

Creazione di identificatori di dati personalizzati

Segui questi passaggi per creare un identificatore di dati personalizzato utilizzando la console Amazon Macie. Per creare un identificatore di dati personalizzato a livello di codice, utilizzareCreateCustomDataIdentifierfunzionamento dell'API Amazon Macie.

Per creare un identificatore di dati personalizzato
  1. Apri la console Amazon Macie all'indirizzohttps://console.aws.amazon.com/macie/.

  2. Nel riquadro di navigazione, sottoImpostazioni, scegliIdentificatori di dati personalizzati.

  3. Seleziona Create (Crea).

  4. PerNome, inserisci un nome per l'identificatore di dati personalizzato. Il nome può contenere fino a un massimo di 128 caratteri.

    Evita di includere dati sensibili nel nome. Gli altri utenti del tuo account potrebbero essere in grado di vedere il nome, a seconda delle azioni che possono eseguire su Macie.

  5. (Facoltativo) PerDescrizione, inserisci una breve descrizione dell'identificatore di dati personalizzato. La descrizione può contenere fino a 512 caratteri.

    Evita di includere dati sensibili nella descrizione. Gli altri utenti del tuo account potrebbero essere in grado di visualizzare la descrizione, a seconda delle azioni che possono eseguire su Macie.

  6. PerEspressione regolare, inserisci l'espressione regolare (regex) che definisce il modello di testo da abbinare. La regex può contenere fino a 512 caratteri. Per ulteriori informazioni sulla sintassi e sui vincoli supportati, vedereSupporto Regexpiù avanti in questa sezione.

  7. (Facoltativo) PerParole chiave, inserisci fino a 50 sequenze di caratteri (separate da virgole) per definire un testo specifico che deve trovarsi in prossimità del testo che corrisponde al modello di espressione regolare. Ogni parola chiave può contenere da 3 a 90 caratteri UTF-8. Le parole chiave non distinguono tra maiuscole e minuscole.

    Macie include un'occorrenza nei risultati solo se il testo corrisponde allo schema regex e il testo si trova entro la distanza massima di corrispondenza di una di queste parole chiave, come spiegato nelargomento precedente.

  8. (Facoltativo) PerIgnora le parole, inserisci fino a 10 sequenze di caratteri (separate da virgole) che definiscono un testo specifico da escludere dai risultati. Ogni parola da ignorare può contenere da 4 a 90 caratteri UTF-8. Le parole da ignorare distinguono tra maiuscole e minuscole.

    Macie esclude un'occorrenza dai risultati se il testo corrisponde allo schema regex ma contiene una di queste parole da ignorare.

  9. (Facoltativo) PerDistanza massima di partita, inserisci il numero massimo di caratteri che possono esistere tra la fine di una parola chiave e la fine del testo che corrisponde al modello regex. La distanza può essere compresa tra 1 e 300 caratteri. La distanza predefinita è di 50 caratteri.

    Macie include un'occorrenza nei risultati solo se il testo corrisponde allo schema regex e il testo si trova a questa distanza da una parola chiave completa, come spiegato nelargomento precedente.

  10. PerSeverità, scegli come vuoi che Macie assegni la gravità ai dati sensibili rilevati dall'identificatore di dati personalizzato:

    • Per assegnare automaticamente ilMediogravità di tutti i risultati, scegliUsa Gravità media per un numero qualsiasi di partite (impostazione predefinita). Con questa opzione, Macie assegna automaticamenteMediogravità della scoperta se l'oggetto S3 interessato contiene una o più occorrenze di testo che corrispondono ai criteri di rilevamento.

    • Per assegnare la gravità in base alle soglie di ricorrenza specificate, scegliUsa impostazioni personalizzate per determinare la gravità. Quindi usa ilSoglia di occorrenzaeLivello di gravitàopzioni per specificare il numero minimo di corrispondenze che devono esistere in un oggetto S3 per produrre una scoperta con una gravità selezionata.

      Ad esempio, per assegnareAltogravità a un risultato che riporta 100 o più occorrenze di testo che corrispondono ai criteri di rilevamento, inserisci100nelSoglia di occorrenzascatola e poi scegliAltodalLivello di gravitàelenco.

      Puoi specificare fino a tre soglie di ricorrenza, una per ogni livello di gravità supportato da Macie:Basso(per la meno grave),Medio, oppureAlto(per i più gravi). Se ne specifichi più di una, le soglie devono essere in ordine crescente in base alla gravità, a partire daBassoaAlto. Se un oggetto S3 contiene meno occorrenze rispetto alla soglia minima specificata, Macie non crea una ricerca.

  11. (Facoltativo) PerEtichette, scegliAggiungi tag, quindi inserisci fino a 50 tag da assegnare all'identificatore di dati personalizzato.

    UNtagè un'etichetta che definisci e assegni a determinati tipi diAWSrisorse. Ogni tag è composto da una chiave di tag obbligatoria e da un valore di tag opzionale. I tag possono aiutarti a identificare, classificare e gestire le risorse in diversi modi, ad esempio in base allo scopo, al proprietario, all'ambiente o ad altri criteri. Per ulteriori informazioni, consulta Etichettatura delle risorse Amazon Macie.

  12. (Facoltativo) PerValutare, inserisci fino a 1.000 caratteri nelDati di esempiocasella, quindi scegliTestper testare i criteri di rilevamento. Macie valuta i dati del campione e riporta il numero di occorrenze di testo che corrispondono ai criteri. Puoi ripetere questo passaggio tutte le volte che vuoi per affinare e ottimizzare i criteri.

    Nota

    Ti consigliamo vivamente di testare e perfezionare i criteri di rilevamento prima di salvare l'identificatore di dati personalizzato. Poiché gli identificatori di dati personalizzati vengono utilizzati dai processi di rilevamento di dati sensibili, non è possibile modificare un identificatore di dati personalizzato dopo averlo salvato. Ciò consente di disporre di una cronologia immutabile dei dati sensibili rilevati e dei risultati delle scoperte per gli audit o le indagini sulla privacy e sulla protezione dei dati che svolgi.

  13. Al termine, scegli Submit (Invia).

Macie verifica le impostazioni e verifica che sia in grado di compilare l'espressione regolare. Se c'è un problema con una delle impostazioni o con l'espressione regolare, si verifica un errore che indica la natura del problema. Dopo aver risolto eventuali problemi, puoi salvare l'identificatore di dati personalizzato.

Supporto Regex in identificatori di dati personalizzati

Macie supporta un sottoinsieme della sintassi del pattern regex fornita daLibreria di espressioni regolari compatibili con Perl (PCRE). Tra i costrutti forniti dalla libreria PCRE, Macie non supporta i seguenti elementi del pattern:

  • Riferimenti precedenti

  • Gruppi di acquisizione

  • Modelli condizionali

  • Codice incorporato

  • Bandiere con pattern globali, ad esempio/i,/m, e/x

  • Schemi ricorsivi

  • Asserzioni positive e negative relative a larghezza zero e con previsione anticipata, ad esempio?=,?!,?<=, e?<!

Per creare modelli regex efficaci per identificatori di dati personalizzati, tieni presente anche i seguenti suggerimenti e raccomandazioni:

  • Ancore— Usa ancoraggi (^o$) solo se prevedi che il pattern appaia all'inizio o alla fine di un file, non all'inizio o alla fine di una riga.

  • Ripetizioni limitate— Per motivi di prestazioni, Macie limita la dimensione dei gruppi ripetuti limitati. Ad esempio,\d{100,1000}non compilerò in Macie. Per approssimare questa funzionalità, puoi usare una ripetizione a risposta aperta come\d{100,}.

  • Insensibilità alle maiuscole— Per rendere le parti di un pattern insensibili alle maiuscole, puoi usare(?i)costruire invece di/ibandiera.

  • Prestazioni— Non è necessario ottimizzare manualmente i prefissi o le alternanze. Ad esempio, cambiare/hello|hi|hey/a/h(?:ello|i|ey)/non migliorerà le prestazioni.

  • Wildcard— Per motivi di prestazioni, Macie limita il numero di jolly ripetute. Ad esempio,a*b*a*non compilerò in Macie.

Per proteggersi da espressioni malformate o di lunga durata, Macie verifica automaticamente i modelli regex rispetto a una raccolta di testo di esempio.