Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Livelli di dati consigliati
Se lavori con dati non sensibili, come i dati di informazioni non identificabili personalmente (PII), ti consigliamo di utilizzare almeno tre diversi livelli di dati in un data lake sulCloud AWS.
Tuttavia, potresti aver bisogno di livelli aggiuntivi a seconda della complessità dei dati e dei casi d'uso. Ad esempio, se lavori con dati sensibili (ad esempio dati PII), ti consigliamo di utilizzare un bucket Amazon Simple Storage Service (Amazon S3) aggiuntivo come landing zone e quindi mascherare i dati prima che vengano spostati nel layer di dati grezzi. Per ulteriori informazioni a riguardo, consulta laGestione sensibili sensibili sensibili sensibili sezione di questa guida.
Ogni livello di dati deve avere un bucket S3 individuale; la tabella seguente descrive i nostri livelli di dati consigliati:
Nome del livello di dati | Descrizione | Esempio di strategia politica del ciclo di vita |
Crudo |
Contiene i dati grezzi non elaborati ed è il livello in cui i dati vengono inseriti nel data lake. Se possibile, dovresti mantenere il formato del file originale e attivare il controllo delle versioni nel bucket S3. |
Dopo un anno, sposta i file nella classe di storage Amazon S3 ad accesso infrequente (IA). Dopo due anni in Amazon S3 IA, archiviali su Amazon S3 Glacier. |
Fase |
Contiene dati intermedi elaborati ottimizzati per il consumo (ad esempio file raw convertiti da CSV a Apache Parquet o trasformazioni di dati). UnAWS Glue job legge i file dal layer grezzo e convalida i dati. IlAWS Glue lavoro quindi memorizza i dati in un file in formato Apache Parquet e i metadati vengono archiviati in una tabella nel catalogoAWS Glue dati. |
I dati possono essere eliminati dopo un periodo di tempo definito o in base ai requisiti dell'organizzazione. Alcuni derivati dei dati (ad esempio, una trasformata Apache Avro di un formato JSON originale) possono essere rimossi dal data lake dopo un periodo di tempo più breve (ad esempio, dopo 90 giorni). |
Analisi | Contiene i dati aggregati per i casi d'uso specifici in un formato pronto per l'uso (ad esempio, Apache Parquet). | I dati possono essere spostati su Amazon S3 IA e quindi eliminati dopo un periodo di tempo definito o in base ai requisiti dell'organizzazione. |
Nota
È necessario valutare tutte le strategie di policy del ciclo di vita consigliate in base alle esigenze organizzative, ai requisiti normativi, ai modelli di interrogazione e alle considerazioni sui costi.