Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS DataSync è un servizio di trasferimento dati online che semplifica, automatizza e accelera il processo di trasferimento dei dati tra i servizi di archiviazione e archiviazione locali o tra i servizi di storage. AWS AWS DataSync supporta una varietà di sistemi di storage locali come Hadoop Distributed File System (HDFS), file server NAS e storage di oggetti autogestito.
Il modo più comune per inserire dati in un cluster è quello di caricare i dati in Amazon S3 e utilizzare le funzionalità integrate di Amazon EMR per caricare i dati sul cluster.
DataSync può aiutarti a svolgere le seguenti attività:
-
Replica HDFS sul tuo cluster Hadoop in Amazon S3 per la continuità aziendale
-
Copia HDFS in Amazon S3 per popolare i data lake
-
Trasferisci i dati tra HDFS del cluster Hadoop e Amazon S3 per l'analisi e l'elaborazione
Per caricare i dati nel tuo bucket S3, devi prima implementare uno o più DataSync agenti nella stessa rete dello storage locale. Un agent (agente) è una macchina virtuale (VM) utilizzata per leggere o scrivere dati in una posizione autogestita. Quindi attivi i tuoi agenti nel Account AWS e nel luogo in Regione AWS cui si trova il tuo bucket S3.
Dopo aver attivato l'agente, crei una posizione di origine per l'archiviazione on-premise, una posizione di destinazione per il bucket S3 e un processo. Un'attivitàè costituita da un set di due percorsi (origine e destinazione) e un set di opzioni predefinite che permettono di controllarne il comportamento.
Infine, esegui la tua DataSync attività per trasferire i dati dalla sorgente alla destinazione.
Per ulteriori informazioni, consulta la pagina Nozioni di base di AWS DataSync.