Carica i dati con AWS DataSync

AWS DataSync è un servizio di trasferimento dati online che semplifica, automatizza e accelera il processo di spostamento dei dati tra i servizi di archiviazione e archiviazione locali o tra i servizi di storage. AWS AWS DataSync supporta una varietà di sistemi di storage locali come Hadoop Distributed File System (HDFS), file server NAS e storage di oggetti autogestito.

Il modo più comune per inserire dati in un cluster è quello di caricare i dati in Amazon S3 e utilizzare le funzionalità integrate di Amazon EMR per caricare i dati sul cluster.

DataSync può aiutarti a svolgere le seguenti attività:

Replica HDFS sul tuo cluster Hadoop in Amazon S3 per la continuità aziendale
Copia HDFS in Amazon S3 per popolare i data lake
Trasferisci i dati tra HDFS del cluster Hadoop e Amazon S3 per l'analisi e l'elaborazione

Per caricare i dati nel tuo bucket S3, devi prima implementare uno o più DataSync agenti nella stessa rete dello storage locale. Un agent (agente) è una macchina virtuale (VM) utilizzata per leggere o scrivere dati in una posizione autogestita. Quindi attivi i tuoi agenti nel Account AWS e nel luogo in Regione AWS cui si trova il tuo bucket S3.

Dopo aver attivato l'agente, crei una posizione di origine per l'archiviazione on-premise, una posizione di destinazione per il bucket S3 e un processo. Un'attivitàè costituita da un set di due percorsi (origine e destinazione) e un set di opzioni predefinite che permettono di controllarne il comportamento.

Infine, esegui la tua DataSync attività per trasferire i dati dalla sorgente alla destinazione.

Per ulteriori informazioni, consulta la pagina Nozioni di base di AWS DataSync.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Caricamento dei dati in S3 Express One Zone

Importazione di file con cache distribuita con Amazon EMR