SEC07-BP04 Definizione della gestione del ciclo di vita dei dati scalabili - Framework AWS Well-Architected

SEC07-BP04 Definizione della gestione del ciclo di vita dei dati scalabili

Comprendi i requisiti del ciclo di vita dei dati in relazione ai loro diversi livelli di classificazione e gestione.  Si tratta di capire come vengono gestiti i dati quando entrano per la prima volta nel tuo ambiente, come vengono trasformati e quali sono le regole per la loro distruzione. Prendi in considerazione fattori come i periodi di conservazione, l'accesso, il controllo e il monitoraggio della provenienza.

Risultato desiderato: classificare i dati il più vicino possibile al momento e al punto in cui vengono importati nel sistema. Quando la classificazione dei dati richiede il mascheramento, la tokenizzazione o altri processi che riducono il livello di sensibilità, si eseguono queste azioni il più vicino possibile al punto e al momento dell'importazione.

I dati vengono cancellati in conformità con la policy in uso quando non è più opportuno conservarli, in base alla loro classificazione.

Anti-pattern comuni:

  • Implementare un approccio unico alla gestione del ciclo di vita dei dati, senza considerare i diversi livelli di sensibilità e i requisiti di accesso.

  • Considerare la gestione del ciclo di vita solo dal punto di vista dei dati utilizzabili o dei dati di cui si esegue il backup, ma non di entrambi.

  • Presumere che i dati immessi nel carico di lavoro siano validi, senza stabilirne il valore o la provenienza.

  • Affidarsi alla durabilità dei dati come sostituti dei backup e della protezione dei dati.

  • Conservare i dati oltre la loro utilità e il periodo di conservazione richiesto.

Vantaggi derivanti dall'adozione di questa best practice: una strategia di gestione del ciclo di vita dei dati ben definita e scalabile aiuta a mantenere la conformità alle normative, a migliorare la sicurezza dei dati, a ottimizzare i costi di archiviazione e a consentire un accesso e una condivisione efficienti, mantenendo al contempo controlli adeguati.

Livello di rischio associato se questa best practice non fosse adottata: elevato

Guida all'implementazione

I dati all'interno di un carico di lavoro sono spesso dinamici.  La forma che assumono quando entrano nell'ambiente del carico di lavoro può essere diversa da quella che assumono quando vengono archiviati o utilizzati nella logica aziendale, nel reporting, nell'analisi o nell'apprendimento automatico.  Inoltre, il valore dei dati può cambiare nel tempo. Alcuni dati sono di natura temporale e perdono valore con il passare del tempo.  Considera l'impatto di queste modifiche ai dati sulla valutazione del tuo schema di classificazione dei dati e dei controlli associati.  Laddove possibile, utilizza un meccanismo di ciclo di vita automatizzato, ad esempio le policy del ciclo di vita Amazon S3 e il Amazon Data Lifecycle Manager, per configurare i processi di conservazione, archiviazione e scadenza dei dati.  

Distingui tra i dati disponibili per l'uso e quelli archiviati come backup.  Prendi in considerazione l'utilizzo di AWS Backup per automatizzare il backup dei dati tra i servizi AWS. Le istantanee Amazon EBS consentono di copiare un volume EBS e archiviarlo utilizzando le funzionalità S3, inclusi il ciclo di vita, la protezione dei dati e l'accesso ai meccanismi di protezione. Due di questi meccanismi sono S3 Object Lock e AWS Backup Vault Lock, che possono fornire maggiore sicurezza e controllo sui backup. Gestisci una chiara separazione dei compiti e dell'accesso per i backup. Isola i backup a livello di account per mantenere la separazione dall'ambiente interessato durante un evento.

Un altro aspetto della gestione del ciclo di vita è la registrazione della cronologia dei dati man mano che avanzano nel carico di lavoro, chiamata tracciamento della provenienza dei dati. In questo modo hai la certezza di conoscere la provenienza dei dati, le trasformazioni effettuate, il proprietario o il processo che ha apportato le modifiche e la data.  Questa cronologia è utile per la risoluzione dei problemi e le analisi in caso di potenziali eventi di sicurezza.  Ad esempio, puoi registrare i metadati sulle trasformazioni in una tabella Amazon DynamoDB.  All'interno di un data lake, puoi conservare copie dei dati trasformati in diversi bucket S3 per ogni fase della pipeline di dati. Memorizza le informazioni sullo schema e sul timestamp in un file AWS Glue Data Catalog.  Indipendentemente dalla tua soluzione, considera i requisiti degli utenti finali per determinare gli strumenti appropriati di cui hai bisogno per segnalare la provenienza dei tuoi dati.  Questo ti aiuterà a determinare come tracciare al meglio la tua provenienza.

Passaggi dell'implementazione

  1. Analizza i tipi di dati, i livelli di sensibilità e i requisiti di accesso del carico di lavoro per classificare i dati e definire strategie di gestione del ciclo di vita appropriate.

  2. Progetta e implementa policy di conservazione dei dati e processi di distruzione automatizzata in linea con i requisiti legali, normativi e organizzativi.

  3. Stabilisci processi e automazione per il monitoraggio continuo, la verifica e l'adeguamento delle strategie, dei controlli e delle politiche di gestione del ciclo di vita dei dati in base all'evoluzione dei requisiti del carico di lavoro e delle normative.

Risorse

Best practice correlate:

Documenti correlati:

Esempi correlati:

Strumenti correlati: