Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Requisiti del cluster Amazon EMR
Cluster Amazon EMR in esecuzione su Amazon EC2
Tutti i cluster Amazon EMR in esecuzione su Amazon EC2 che crei per un EMR Studio Workspace devono soddisfare i seguenti requisiti. I cluster creati utilizzando l'interfaccia di EMR Studio soddisfano in automatico questi requisiti.
-
Il cluster deve utilizzare Amazon EMR versione 5.32.0 (Amazon EMR serie 5.x) o 6.2.0 (Amazon EMR serie 6.x) o versioni successive. È possibile creare un cluster utilizzando la console Amazon EMR o SDK e quindi collegarlo a un EMR Studio Workspace. AWS Command Line Interface Gli utenti dello Studio possono anche creare e allegare un cluster durante la creazione o l'utilizzo di un Workspace Amazon EMR. Per ulteriori informazioni, consulta Collegamento di un calcolo a un WorkSpace EMR Studio.
-
Il cluster deve essere all'interno di Amazon Virtual Private Cloud. La piattaforma EC2 -Classic non è supportata.
-
Sul cluster devono essere installati Spark, Livy e Jupyter Enterprise Gateway. Se prevedi di utilizzare il cluster per SQL Explorer, devi installare sia Presto che Spark.
-
Per utilizzare SQL Explorer, il cluster deve utilizzare Amazon EMR versione 5.34.0 o successive oppure versione 6.4.0 e disporre di Presto installato. Se desideri specificare AWS Glue Data Catalog come metastore Hive per Presto, devi configurarlo sul cluster. Per ulteriori informazioni, consulta Utilizzo di Presto con AWS Glue Data Catalog.
-
Il cluster deve trovarsi in una sottorete privata con Network Address Translation (NAT) per utilizzare repository Git in hosting pubblico con EMR Studio.
Quando si lavora con EMR Studio, si consigliano le seguenti configurazioni del cluster.
-
Imposta la modalità di implementazione per le sessioni Spark nella modalità cluster. La modalità cluster posiziona i processi principali dell'applicazione sui nodi principali e non sul nodo primario di un cluster. Così facendo, si alleggerisce il nodo primario delle potenziali pressioni in termini di memoria. Per ulteriori informazioni, consulta Panoramica della modalità cluster
nella documentazione di Apache Spark. -
Modificare il timeout Livy dall'impostazione predefinita di un'ora a sei ore come nella seguente configurazione di esempio.
{ "classification":"livy-conf", "Properties":{ "livy.server.session.timeout":"6h", "livy.spark.deploy-mode":"cluster" } }
-
Creare flotte di istanze diverse con un massimo di 30 istanze e selezionare più tipi di istanza nel parco istanze Spot. Ad esempio, è possibile specificare i seguenti tipi di istanza ottimizzati per la memoria per i carichi di lavoro Spark: r5.2x, r5.4x, r5.8x, r5.12x, r5.16x, r4.2x, r4.4x, r4.8x, r4.12, ecc. Per ulteriori informazioni, consulta Pianificazione e configurazione di flotte di istanze per il tuo cluster Amazon EMR.
-
Utilizza la strategia di allocazione ottimizzata in termini di capacità per le istanze Spot per aiutare Amazon EMR a selezionare le istanze in modo efficace sulla base di informazioni sulla capacità in tempo reale fornite da Amazon. EC2 Per ulteriori informazioni, consulta Strategia di allocazione per parchi istanze.
-
Abilita il dimensionamento gestito sul cluster. Impostare il parametro dei nodi principali massimi sulla capacità minima persistente che si prevede di utilizzare e configurare la scalabilità su un parco istanze di processi ben diversificato in esecuzione su istanze Spot per risparmiare sui costi. Per ulteriori informazioni, consulta Utilizzo del dimensionamento gestito in Amazon EMR.
Ti invitiamo a mantenere abilitato Amazon EMR Block Public Access e questo per limitare il traffico SSH in entrata a fonti attendibili. L'accesso in ingresso a un cluster consente agli utenti di eseguire notebook sul cluster. Per ulteriori informazioni, consultare Utilizzo del blocco dell'accesso pubblico di Amazon EMR e Controlla il traffico di rete con gruppi di sicurezza per il tuo cluster Amazon EMR.
Cluster Amazon EMR su EKS
Oltre ai cluster EMR in esecuzione su Amazon EC2, puoi configurare e gestire Amazon EMR su cluster EKS per EMR Studio utilizzando. AWS CLI Imposta Amazon EMR sui cluster EKS utilizzando le seguenti linee guida:
-
Crea un endpoint HTTPS gestito per Amazon EMR su cluster EKS. Gli utenti collegano un Workspace a un endpoint gestito. Il cluster Amazon Elastic Kubernetes Service (EKS) utilizzato per registrare il cluster virtuale deve disporre di una sottorete privata per supportare gli endpoint gestiti.
-
Utilizza un cluster Amazon EKS con almeno una sottorete privata e una Network Address Translation (NAT) quando desideri utilizzare i repository Git in hosting pubblico.
-
Evita di usare Arm Amazon Linux ottimizzato per Amazon EKS AMIs, che non sono supportati per Amazon EMR sugli endpoint gestiti EKS.
-
Evita AWS Fargate di utilizzare solo cluster Amazon EKS, che non sono supportati.