Visualizzazione coerente - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Visualizzazione coerente

avvertimento

Il 1° giugno 2023, la visualizzazione coerente di EMRFS raggiungerà la fine del supporto standard per le future versioni di Amazon EMR. La visualizzazione coerente di EMRFS continuerà a funzionare per le versioni esistenti.

Con il rilascio di Amazon S3 Strong read-after-write Consistency il 1° dicembre 2020, non è più necessario utilizzare EMRFS consistent View (EMRFS CV) con i cluster Amazon EMR. EMRFS CV è una funzionalità opzionale che consente ai cluster Amazon EMR di verificare l'elenco e la coerenza degli oggetti Amazon S3. read-after-write Quando crei un cluster e EMRFS CV è attivato, Amazon EMR crea un database Amazon DynamoDB per archiviare i metadati degli oggetti che utilizza per tracciare l'elenco e la coerenza degli oggetti S3. read-after-write Ora puoi disattivare CV EMRFS ed eliminare il database DynamoDB che utilizza, in modo da non accumulare costi aggiuntivi. Le seguenti procedure spiegano come verificare la caratteristica CV, disattivarla ed eliminare il database DynamoDB utilizzato dalla caratteristica.

Verificare se si sta utilizzando la caratteristica CV EMRFS
  1. Vai alla scheda Configuration (Configurazione). Se il cluster ha la seguente configurazione, utilizza CV EMRFS.

    Classification=emrfs-site,Property=fs.s3.consistent,Value=true
  2. In alternativa, usa il per descrivere il AWS CLI cluster con l'API. describe-cluster Se l'output contiene fs.s3.consistent: true, il cluster utilizza CV EMRFS.

Disattivare CV EMRFS sui cluster Amazon EMR

Per disattivare la caratteristica CV EMRFS, utilizza una delle seguenti tre opzioni. Ti consigliamo di testare queste opzioni nel tuo ambiente di test prima di applicarle agli ambienti di produzione.

  1. Per arrestare il cluster esistente e avviare un nuovo cluster senza le opzioni CV EMRFS.
    1. Prima di arrestare il cluster, assicurati di eseguire il backup dei dati e di informare gli utenti.

    2. Per arrestare il cluster, segui le istruzioni riportate nella sezione Arresto di un cluster.

    3. Se utilizzi la console di Amazon EMR per creare un nuovo cluster, accedi a Advanced Options (Opzioni avanzate). Nella sezione Edit software settings (Modifica impostazioni software), deseleziona l'opzione per attivare CV EMRFS. Se la casella di controllo EMRFS consistent view (Visualizzazione coerente EMRFS) è disponibile, lasciala deselezionata.

    4. Se lo utilizzi AWS CLI per creare un nuovo cluster con l'create-clusterAPI, non utilizzare l'--emrfsopzione, che attiva EMRFS CV.

    5. Se utilizzi un SDK o AWS CloudFormation per creare un nuovo cluster, non utilizzare nessuna delle configurazioni elencate in Configura la visualizzazione coerente.

  2. Clonare un cluster e rimuovere CV EMRFS
    1. Nella console di Amazon EMR, scegli il cluster che utilizza CV EMRFS.

    2. Nella parte superiore della pagina Cluster Details (Dettagli del cluster), fai clic su Clone (Clona).

    3. Scegli Previous (Precedente) e passa alla Fase 1: software e fasi.

    4. In Edit software settings (Modifica impostazioni software), rimuovi CV EMRFS. In Edit configuration (Modifica configurazione), elimina le seguenti configurazioni nella classificazione emrfs-site. Se stai caricando JSON da un bucket S3, devi modificare l'oggetto S3.

      [ {"classification": "emrfs-site", "properties": { "fs.s3.consistent.retryPeriodSeconds":"10", "fs.s3.consistent":"true", "fs.s3.consistent.retryCount":"5", "fs.s3.consistent.metadata.tableName":"EmrFSMetadata" } } ]
  3. Rimuovere CV EMRFS da un cluster che utilizza gruppi di istanze
    1. Utilizza il seguente comando per verificare se un singolo cluster EMR utilizza la tabella DynamoDB associata a CV EMRFS o se più cluster condividono la tabella. Il nome della tabella è specificato in fs.s3.consistent.metadata.tableName, come descritto in Configure consistent view (Configura visualizzazione coerente). Il nome predefinito della tabella utilizzato da CV EMRFS è EmrFSMetadata.

      aws emr describe-cluster --cluster-id j-XXXXX | grep fs.s3.consistent.metadata.tableName
    2. Se il tuo cluster non condivide il database DynamoDB con un altro cluster, utilizza il seguente comando per riconfigurare il cluster e disattivare CV EMRFS. Per ulteriori informazioni, consulta la sezione Riconfigurazione di un gruppo di istanze in un cluster in esecuzione.

      aws emr modify-instance-groups --cli-input-json file://disable-emrfs-1.json

      Questo comando apre il file che desideri modificare. Modifica il file utilizzando le seguenti configurazioni.

      { "ClusterId": "j-xxxx", "InstanceGroups": [ { "InstanceGroupId": "ig-xxxx", "Configurations": [ { "Classification": "emrfs-site", "Properties": { "fs.s3.consistent": "false" }, "Configurations": [] } ] } ] }
    3. Se il tuo cluster condivide la tabella DynamoDB con un altro cluster, disattiva CV EMRFS su tutti i cluster quando nessun cluster sta modificando alcun oggetto nella posizione S3 condivisa.

Eliminare le risorse Amazon DynamoDB associate a CV EMRFS

Dopo aver rimosso CV EMRFS dai cluster Amazon EMR, elimina le risorse DynamoDB associate a CV EMRFS. Fino a quando non lo farai, continuerai a sostenere addebiti DynamoDB associati a CV EMRFS.

  1. Controlla le CloudWatch metriche per la tua tabella DynamoDB e conferma che la tabella non sia utilizzata da nessun cluster.

  2. Elimina la tabella DynamoDB.

    aws dynamodb delete-table --table-name <your-table-name>
Eliminare le risorse Amazon SQS associate a CV EMRFS
  1. Se hai configurato il cluster affinché invii notifiche di incoerenza ad Amazon SQS, puoi eliminare tutte le code SQS.

  2. Cerca il nome della coda Amazon SQS specificato in fs.s3.consistent.notification.SQS.queueName, come descritto in Configure consistent view (Configura visualizzazione coerente). Il formato predefinito del nome della coda è EMRFS-Inconsistency-<j-cluster ID>.

    aws sqs list-queues | grep ‘EMRFS-Inconsistency’ aws sqs delete-queue –queue-url <your-queue-url>
Interrompere l'utilizzo della CLI di EMRFS
  • La CLI di EMRFS gestisce i metadati generati da CV EMRFS. Poiché il supporto standard per CV EMRFS terminerà nelle versioni future di Amazon EMR, anche il supporto per la CLI di EMRFS giungerà al termine.