Avvia i cluster in un VPC con Amazon EMR - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Avvia i cluster in un VPC con Amazon EMR

Quando disponi di una sottorete configurata per ospitare cluster Amazon EMR, avvia il cluster in tale sottorete specificando l'identificatore di sottorete associato durante la creazione del cluster.

Nota

Amazon EMR supporta sottoreti private nelle versioni finali 4.2 e successive.

Quando il cluster viene avviato, Amazon EMR aggiunge gruppi di sicurezza a seconda che il cluster venga avviato in sottoreti private o pubbliche VPC. Tutti i gruppi di sicurezza consentono l'ingresso alla porta 8443 per la comunicazione con il servizio Amazon EMR, ma gli intervalli di indirizzi IP variano per sottoreti pubbliche e private. Amazon EMR gestisce tutti questi gruppi di sicurezza e nel tempo potrebbe dover aggiungere ulteriori indirizzi IP all' AWS intervallo. Per ulteriori informazioni, consulta Controlla il traffico di rete con gruppi di sicurezza per il tuo cluster Amazon EMR.

Per gestire il cluster su un VPC, Amazon EMR collega un dispositivo di rete al nodo primario e lo gestisce tramite questo dispositivo. Puoi visualizzare questo dispositivo utilizzando l'azione Amazon EC2 API DescribeInstances. Se modifichi questo dispositivo in qualsiasi modo, il cluster potrebbe non riuscire.

Console
Per avviare un cluster in un VPC con la console
  1. Accedi a e apri AWS Management Console la console Amazon EMR su https://console.aws.amazon.com /emr.

  2. In EMR attivo EC2 nel riquadro di navigazione a sinistra, scegli Cluster, quindi scegli Crea cluster.

  3. In Networking (Reti), vai al campo Virtual private cloud (VPC) (Cloud privato virtuale [VPC]). Inserisci il nome del tuo VPC o scegli Browse (Sfoglia) per selezionarlo. In alternativa, scegli Create VPC (Crea VPC) per creare un VPC da utilizzare per il cluster.

  4. Scegli qualsiasi altra opzione applicabile al cluster.

  5. Per avviare il cluster, scegli Create cluster (Crea cluster).

AWS CLI
Per avviare un cluster in un VPC con AWS CLI
Nota

AWS CLI non fornisce un modo per creare automaticamente un'istanza NAT e connetterla alla sottorete privata. Tuttavia, per creare un endpoint S3 nella sottorete puoi utilizzare i comandi della CLI di Amazon VPC. Utilizza la console per creare istanze NAT e avviare cluster in una sottorete privata.

Dopo che il VPC è stato configurato, puoi avviare cluster Amazon EMR al suo interno utilizzando il sottocomando create-cluster con il parametro --ec2-attributes. Utilizza il parametro --ec2-attributes per specificare la sottorete VPC per il cluster.

  • Per creare un cluster in una sottorete specifica, digita il seguente comando, sostituiscilo myKey con il nome della tua coppia di EC2 chiavi Amazon e sostituiscilo 77XXXX03 con il tuo ID di sottorete.

    aws emr create-cluster --name "Test cluster" --release-label emr-4.2.0 --applications Name=Hadoop Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey,SubnetId=subnet-77XXXX03 --instance-type m5.xlarge --instance-count 3

    Quando si specifica il numero di istanze senza utilizzare il parametro --instance-groups, viene avviato un singolo nodo primario e le istanze rimanenti vengono avviate come nodi core. Tutti i nodi utilizzano il tipo di istanza specificato nel comando.

    Nota

    Se in precedenza non hai creato il ruolo e il profilo di EC2 istanza del servizio Amazon EMR predefiniti, digita aws emr create-default-roles per crearli prima di digitare il sottocomando. create-cluster

Garantire la disponibilità degli indirizzi IP per un cluster EMR su EC2

Per garantire che una sottorete con un numero sufficiente di indirizzi IP liberi sia disponibile al momento dell'avvio, la selezione della EC2 sottorete verifica la disponibilità degli IP. Se il processo di creazione utilizza una sottorete con il numero necessario di indirizzi IP per avviare i nodi principali, primari e task come richiesto, anche se al momento della creazione iniziale vengono creati solo i nodi principali per il cluster. EMR verifica il numero di indirizzi IP necessari per avviare i nodi primari e i task node durante la creazione, oltre a calcolare separatamente il numero di indirizzi IP necessari per avviare i nodi principali. Il numero minimo di istanze o nodi primari e di task richiesti viene determinato automaticamente da Amazon EMR.

Importante

Se nessuna sottorete nel VPC dispone di una quantità sufficiente IPs per ospitare i nodi essenziali, viene restituito un errore e il cluster non viene creato.

Nella maggior parte dei casi di implementazione, esiste una differenza di orario tra ogni avvio dei nodi principali, primari e task. Inoltre, è possibile che più cluster condividano una sottorete. In questi casi, la disponibilità degli indirizzi IP può variare e i successivi lanci di task-node, ad esempio, possono essere limitati dagli indirizzi IP disponibili.