Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Scelta dello storage giusto
Configura i tipi e la capacità delle istanze del cluster. I nodi core e task richiedono potenza di elaborazione e calcolo, ma solo i nodi principali archiviano i dati. Seleziona il tipo di storage più conveniente per i tuoi nodi principali.
Quando si utilizza Amazon EMR per l'elaborazione di grandi quantità di dati, sono disponibili diverse opzioni per lo spostamento dei dati da Amazon S3. L'opzione migliore dipende dal tuo carico di lavoro. Le seguenti sezioni forniscono alcuni punti chiave da considerare per decidere quale tipo di storage è la scelta giusta per te.
File system distribuito Hadoop
Hadoop Distributed File System (HDFS) è un file system distribuito, scalabile e portatile per Hadoop. HDFS ha il vantaggio di garantire la consapevolezza dei dati tra i nodi del cluster Hadoop che gestiscono i cluster e i nodi del cluster Hadoop che gestiscono le singole fasi.
Quando usare HDFS in Amazon EMR
Quando si eseguono letture iterative sullo stesso set di dati o carichi di lavoro con uso intensivo di I/O su disco, è possibile utilizzare HDFS per memorizzare nella cache i risultati intermedi e come archiviazione a caldo per l'elaborazione dei dati. L'HDFS è temporaneo, il che significa che viene recuperato quando le istanze vengono terminate.
File system EMR
EMR File System (EMRFS) è un'implementazione di HDFS che i cluster Amazon EMR utilizzano in genere per leggere e scrivere file normali da Amazon EMR direttamente ad Amazon S3.
Puoi usare EMRFS quando leggi il set di dati una volta per ogni esecuzione. EMRFS disaccoppia lo storage dall'elaborazione, quindi non è necessario fornire i nodi principali specificamente per archiviare i dati e non è necessario pagare per la replica dei dati in HDFS. Ciò si traduce in costi inferiori e fornisce la disponibilità dei dati per più cluster. Hai anche il vantaggio di conservare i dati dopo la chiusura del cluster.