Archiviazione dell'istanza - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Archiviazione dell'istanza

Panoramica

Archivio istanza e archiviazione di volumi Amazon EBS vengono utilizzati per dati HDFS, nonché buffer, cache, dati grezzi e altri contenuti temporanei che alcune applicazioni possono "riversare" nel file system locale.

Amazon EBS funziona in modo diverso all'interno di Amazon EMR in confronto alle normali istanze Amazon EC2. I volumi Amazon EBS collegati a cluster Amazon EMR sono temporanei: i volumi vengono eliminati al termine del cluster e dell'istanza (ad esempio, durante la riduzione di gruppi di istanze), pertanto non bisogna aspettarsi che i dati siano persistenti. Anche se sono temporanei, i dati in HDFS possono essere replicati a seconda del numero e della specializzazione dei nodi nel cluster. Quando si aggiungono volumi di stogare Amazon EBS, questi vengono montati come volumi aggiuntivi. Non fanno parte del volume di avvio. YARN è configurato per utilizzare tutti i volumi aggiuntivi, ma l'utente è responsabile dell'allocazione di volumi aggiuntivi come storage locale (ad esempio, per file di log locali).

Considerazioni

Tieni conto di queste considerazioni aggiuntive quando utilizzi Amazon EBS con cluster EMR:

  • Non puoi eseguire lo snapshot di un volume Amazon EBS per poi ripristinarlo all'interno di Amazon EMR. Per creare configurazioni personalizzate riutilizzabili, utilizza un'AMI personalizzata (disponibile in Amazon EMR versione 5.7.0 e successive). Per ulteriori informazioni, consulta Utilizzo di un'AMI personalizzata.

  • Un volume dispositivo root Amazon EBS crittografato è supportato solo utilizzando un'AMI personalizzata. Per ulteriori informazioni, consulta Creazione di un'AMI personalizzata con un volume del dispositivo di root Amazon EBS crittografato.

  • Se applichi tag utilizzando l'API di Amazon EMR, tali operazioni vengono applicate a volumi EBS.

  • Esiste un limite di 25 volumi per istanza.

  • I volumi Amazon EBS sui nodi principali non possono essere inferiori a 5 GB.

  • Amazon EBS ha un limite fisso di 2.500 volumi EBS per richiesta di avvio dell'istanza. Questo limite si applica anche ad Amazon EMR su cluster EC2. Ti consigliamo di avviare cluster con il numero totale di volumi EBS entro questo limite e quindi scalare manualmente il cluster o con la scalabilità gestita di Amazon EMR, se necessario. Per ulteriori informazioni sul limite di volume EBS, consulta Service quotas.

Archiviazione Amazon EBS di default per istanze

Inoltre, per istanze EC2 con archiviazione solo su EBS, Amazon EMR assegna volumi di archiviazione gp2 o gp3 di Amazon EBS alle istanze. Quando crei un cluster utilizzando Amazon EMR rilascio 5.22.0 e successivi , la quantità predefinita di spazio di archiviazione di Amazon EBS aumenta in base alle dimensioni dell'istanza.

Suddividiamo l'eventuale spazio di archiviazione aggiuntivo su più volumi. Ciò offre migliori prestazioni IOPS e, di conseguenza, migliori prestazioni per alcuni carichi di lavoro standardizzati. Se desideri utilizzare una diversa configurazione dell'archiviazione delle istanze di Amazon EBS, puoi specificarla al momento della creazione di un cluster EMR o quando aggiungi nodi a un cluster esistente. Puoi utilizzare solo volumi gp2 o gp3 di Amazon EBS come volumi root e aggiungere volumi gp2 o gp3 come volumi supplementari. Per ulteriori informazioni, consulta Specifica di volumi di archiviazione EBS aggiuntivi.

La tabella seguente identifica il numero predefinito di volumi di archiviazione gp2 di Amazon EBS, le dimensioni e le dimensioni totali per tipo di istanza. Per informazioni sui volumi gp2 rispetto ai volumi gp3, consulta Confronto tra i tipi di volume gp2 e gp3 di Amazon EBS.

Volumi di archiviazione gp2 di Amazon EBS predefiniti e dimensioni per tipo di istanza per Amazon EMR 5.22.0 e successivi
Dimensioni istanza Numero di volumi Dimensioni del volume (GiB) Dimensione totale (GiB)

*.large

1

32

32

*.xlarge

2

32

64

*.2xlarge

4

32

128

*.4xlarge

4

64

256

*.8xlarge

4

128

512

9xlarge

4

144

576

10xlarge

4

160

640

12xlarge

4

192

768

*.16xlarge

4

256

1024

18xlarge

4

288

1152

24xlarge

4

384

1536

Volume root di Amazon EBS predefinito per le istanze

Con Amazon EMR rilasci 6.15 e successivi, Amazon EMR collega automaticamente un SSD per uso generico di Amazon EBS (gp3) come dispositivo root per le AMI al fine di migliorare le prestazioni. Con i rilasci precedenti, Amazon EMR collega un SSD per uso generico EBS (gp2) come dispositivo root.

6.15 e successivi 6.14 e precedenti
Tipo di volume root predefinito
  • gp3

  • gp2

Dimensioni predefinite
  • 15 GiB

  • (configurabile)

  • 6.10 e successivi = 15 GiB

  • 6.9 e precedenti = 10 GiB

  • (configurabile)

IOPS predefiniti
  • 3000

  • (configurabile)

Velocità di trasmissione effettiva predefinita
  • 125 MiB/s

  • (configurabile)

Per informazioni su come personalizzare il volume del dispositivo root di Amazon EBS, consulta Specifica di volumi di archiviazione EBS aggiuntivi.

Specifica di volumi di archiviazione EBS aggiuntivi

Quando configuri tipi di istanze in Amazon EMR, puoi specificare volumi EBS aggiuntivi per aggiungere capacità oltre l'archivio istanza (se presente) e il volume EBS predefinito. Amazon EBS fornisce i seguenti tipi di volume: per scopo generico (SSD), IOPS con provisioning (SSD), velocità effettiva ottimizzata (HDD), Cold (HDD) e magnetici. Si differenziano per caratteristiche di prestazioni e prezzo, perciò puoi personalizzare il tuo spazio di archiviazione in base alle esigenze analitiche e aziendali delle applicazioni. Ad esempio, per alcune applicazioni potrebbe essere necessario riversare su disco, mentre altre possono funzionare in modo sicuro in memoria o con Amazon S3.

Puoi collegare volumi Amazon EBS a istanze solo al momento dello startup del cluster e quando aggiungi un gruppo di istanze del nodo attività aggiuntivo. Se un'istanza in un cluster Amazon EMR non va a buon fine, l'istanza e i volumi Amazon EBS collegati vengono sostituiti con nuovi volumi. Di conseguenza, se si scollega manualmente un volume Amazon EBS, questa operazione viene considerata da Amazon EMR come un errore e sostituisce l'archiviazione dell'istanza (se applicabile) e gli store di volumi.

Amazon EMR non consente di modificare il tipo di volume da gp2 a gp3 per un cluster EMR esistente. Per utilizzare gp3 per i tuoi carichi di lavoro/, devi avviare un nuovo cluster EMR. Inoltre, non è consigliabile aggiornare la velocità di trasmissione effettiva e gli IOPS su un cluster in uso o allocazione, poiché Amazon EMR utilizza i valori di velocità di trasmissione effettiva e IOPS specificati al momento dell'avvio del cluster per ogni nuova istanza aggiunta durante il dimensionamento del cluster. Per ulteriori informazioni, consulta Confronto tra i tipi di volume gp2 e gp3 di Amazon EBS e Selezione di IOPS e velocità di trasmissione effettiva durante la migrazione a gp3.

Importante

Per utilizzare un volume gp3 con il cluster EMR, devi avviare un nuovo cluster.