Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
EMRCaratteristiche, requisiti e limiti di Studio
Questo argomento include gli elementi da considerare quando si lavora con Amazon EMR Studio, tra cui considerazioni su regioni e strumenti, requisiti dei cluster e limitazioni tecniche.
Considerazioni
Quando lavori con EMR Studio, considera quanto segue:
-
EMRStudio è disponibile nei seguenti formati Regioni AWS:
-
Stati Uniti orientali (Ohio) (us-east-2)
-
Stati Uniti orientali (Virginia settentrionale) (us-east-1)
-
Stati Uniti occidentali (California settentrionale) (us-west-1)
-
Stati Uniti occidentali (Oregon) (us-west-2)
-
Africa (Città del Capo) (af-south-1)
-
Asia Pacifico (Hong Kong) ap-east-1
-
Asia Pacifico (Giacarta) (ap-southeast-3) *
-
Asia Pacifico (Melbourne) (ap-southeast-4) *
-
Asia Pacifico (Mumbai) (ap-south-1)
-
Asia Pacifico (Osaka) (ap-northeast-3) *
-
Asia Pacifico (Seoul) (ap-northeast-2)
-
Asia Pacifico (Singapore) (ap-southeast-1)
-
Asia Pacifico (Sydney) (ap-southeast-2)
-
Asia Pacifico (Tokyo) (ap-northeast-1)
-
Canada (Centrale) (ca-central-1)
-
Europa (Francoforte) (eu-central-1)
-
Europa (Irlanda) (eu-west-1)
-
Europa (Londra) (eu-west-2)
-
Europa (Milano) (eu-south-1)
-
Europe (Parigi) (eu-west-3)
-
Europa (Spagna) (eu-south-2)
-
Europa (Stoccolma) (eu-north-1)
-
Europa (Zurigo) (eu-central-2) *
-
Israele (Tel Aviv) (il-central-1) *
-
Medio Oriente (UAE) (me-central-1) *
-
Sud America (San Paolo) (sa-east-1)
-
AWS GovCloud (Stati Uniti orientali) (-1) gov-us-east
-
AWS GovCloud (Stati Uniti occidentali) (gov-us-west-1)
* L'interfaccia utente live di Spark non è supportata in queste regioni.
-
-
Per consentire agli utenti di effettuare il provisioning di nuovi EMR cluster in esecuzione su Amazon EC2 for a Workspace, puoi associare uno EMR Studio a un set di modelli di cluster. Gli amministratori possono definire modelli di cluster con Service Catalog e scegliere se un utente o un gruppo può accedere ai modelli o a nessuno dei modelli all'interno di uno Studio.
-
Quando definisci le autorizzazioni di accesso ai file del notebook archiviati in Amazon S3 o leggi segreti AWS Secrets Manager da, utilizza il ruolo di servizio EMR Amazon. Le politicy di sessione non sono supportate con queste autorizzazioni.
-
Puoi creare più EMR studi per controllare l'accesso ai EMR cluster in diversi. VPCs
-
Usa il AWS CLI per configurare Amazon EMR sui EKS cluster. È quindi possibile utilizzare l'interfaccia Studio per collegare cluster ai Workspace con un endpoint gestito per eseguire processi notebook.
-
Quando si utilizza la propagazione di identità affidabili con Amazon, ci sono altre considerazioni EMR che si applicano anche a EMR Studio. Per ulteriori informazioni, consulta Considerazioni e limitazioni per Amazon EMR con l'integrazione con Identity Center.
-
EMRStudio non supporta i seguenti comandi magici di Python:
-
%alias
-
%alias_magic
-
%automagic
-
%macro
-
%%js
-
%%javascript
-
Modifica di
proxy_user
mediante%configure
-
Modifica di
KERNEL_USERNAME
mediante%env
o%set_env
-
-
Amazon EMR on EKS clusters non supporta SparkMagic i comandi per EMR Studio.
-
Per scrivere istruzioni Scala a più righe nelle celle del notebook, assicurarsi che tutte le righe tranne l'ultima finiscano con un punto. Nell'esempio seguente viene utilizzata la sintassi corretta per le istruzioni Scala a più righe.
val df = spark.sql("SELECT * from table_name). filter("col1=='value'"). limit(50)
Per aumentare la sicurezza delle applicazioni off-console che potresti utilizzare con AmazonEMR, i domini di hosting delle applicazioni sono registrati nella Public Suffix List (). PSL Alcuni esempi di questi domini di hosting includono:
emrstudio-prod.us-east-1.amazonaws.com
,emrnotebooks-prod.us-east-1.amazonaws.com
,emrappui-prod.us-east-1.amazonaws.com
. Per maggiore sicurezza, se hai bisogno di impostare cookie sensibili nel nome di dominio predefinito, consigliamo di utilizzare i cookie con un prefisso__Host-
. Questo aiuta a difendere il tuo dominio dai tentativi di falsificazione di richieste tra siti (). CSRF Per ulteriori informazioni, consultare la .Set-Cookiepagina del Mozilla Developer Network.
Problemi noti
-
Uno EMR Studio che utilizza IAM Identity Center con la propagazione affidabile delle identità abilitata può associarsi solo a EMR cluster che utilizzano anche la propagazione affidabile delle identità.
-
Assicurati di disattivare gli strumenti di gestione dei proxy come FoxyProxy oppure SwitchyOmega nel browser prima di creare uno Studio. I proxy attivi possono causare errori quando scegli Create Studio (Crea Studio) e tradursi in un messaggio di errore Network Failure (Errore di rete).
-
I kernel eseguiti su Amazon EMR su EKS cluster possono non avviarsi a causa di problemi di timeout. Se si verifica un errore o un problema durante l'avvio del kernel, è necessario chiudere il file notebook, arrestare il kernel e in seguito riaprire il file notebook.
-
L'operazione di riavvio del kernel non funziona come previsto quando si utilizza un Amazon EMR on EKS cluster. Dopo aver selezionato Restart kernel (Riavvia kernel), aggiorna il Workspace affinché il riavvio abbia effetto.
-
Se un Workspace non è collegato a un cluster, viene visualizzato un messaggio di errore quando un utente dello Studio apre un file notebook e tenta di selezionare un kernel. Puoi ignorare questo messaggio di errore scegliendo Ok, ma è necessario collegare il Workspace a un cluster e selezionare un kernel prima di poter eseguire il codice del notebook.
-
Quando usi Amazon EMR 6.2.0 con una configurazione di sicurezza per configurare la sicurezza del cluster, l'interfaccia Workspace appare vuota e non funziona come previsto. Ti consigliamo di utilizzare una versione diversa supportata di Amazon EMR se desideri configurare la crittografia dei dati o l'autorizzazione Amazon S3 EMRFS per un cluster. EMRStudio funziona con EMR le versioni Amazon 5.32.0 (serie Amazon EMR 5.x) e 6.2.0 (serie EMR Amazon 6.x) e successive.
-
Quando Esegui il debug di Amazon EMR in esecuzione su Amazon jobs EC2, i collegamenti all'interfaccia utente Spark sul cluster potrebbero non funzionare o non essere visualizzati. Per rigenerare i collegamenti, crea una nuova cella del notebook ed esegui il comando
%%info
. -
Jupyter Enterprise Gateway non pulisce i kernel inattivi sul nodo primario di un cluster nelle seguenti EMR versioni di Amazon: 5.32.0, 5.33.0, 6.2.0 e 6.3.0. I kernel inattivi consumano risorse di elaborazione e possono causa l'interruzione dei cluster a esecuzione prolungata. È possibile configurare l'eliminazione del kernel inattivo per Jupyter Enterprise Gateway utilizzando il seguente script di esempio. Puoi Connect al nodo primario EMR del cluster Amazon tramite SSH oppure inviare lo script come fase. Per ulteriori informazioni, consulta Esegui comandi e script su un EMR cluster Amazon.
#!/bin/bash sudo tee -a /emr/notebook-env/conf/jupyter_enterprise_gateway_config.py << EOF c.MappingKernelManager.cull_connected = True c.MappingKernelManager.cull_idle_timeout = 10800 c.MappingKernelManager.cull_interval = 300 EOF sudo systemctl daemon-reload sudo systemctl restart jupyter_enterprise_gateway
-
Quando utilizzi una politica di terminazione automatica con EMR le versioni Amazon 5.32.0, 5.33.0, 6.2.0 o 6.3.0, EMR Amazon contrassegna un cluster come inattivo e può terminarlo automaticamente anche se hai un kernel Python3 attivo. Questo perché l'esecuzione di un kernel Python3 non invia un processo Spark sul cluster. Per utilizzare la terminazione automatica con un kernel Python3, ti consigliamo di utilizzare Amazon versione 6.4.0 o successiva. EMR Per ulteriori informazioni sulla terminazione automatica, consulta Utilizzo di una politica di terminazione automatica per la pulizia dei cluster Amazon EMR.
-
Quando usi
%%display
per visualizzare uno Spark DataFrame in una tabella, le tabelle molto larghe potrebbero essere troncate. È possibile fare clic con il pulsante destro del mouse sull'output e selezionare Creare nuova vista per l'output per ottenere una schermata scorrevole dell'output. -
L'avvio di un kernel basato su Spark PySpark, come Spark o SparkR, avvia una sessione Spark e l'esecuzione di una cella in un notebook mette in coda i lavori Spark in quella sessione. Quando interrompi una cella in esecuzione, il processo Spark continua a essere eseguito. Per interrompere il processo Spark, è necessario utilizzare l'interfaccia utente Spark sul cluster. Per istruzioni sulla modalità di connessione all'interfaccia utente di Spark, consulta Esegui il debug di applicazioni e lavori con Studio EMR.
-
L'utilizzo di Amazon EMR Studio Workspaces come utente root in an Account AWS causa un
403: Forbidden
errore. Questo perché la configurazione di Jupyter Enterprise Gateway in Amazon EMR non consente l'accesso all'utente root. Ti consigliamo di non utilizzare l'utente root per le tue attività quotidiane. Per altre opzioni di autenticazione, AWS Identity and Access Management consulta Amazon EMR.
Limitazioni delle caratteristiche
Amazon EMR Studio non supporta le seguenti EMR funzionalità di Amazon:
-
Allegare ed eseguire lavori su EMR cluster con una configurazione di sicurezza che specifica l'autenticazione Kerberos
-
Cluster con più nodi primari
-
Cluster che utilizzano EC2 istanze Amazon basate su AWS Graviton2 per versioni di EMR Amazon 6.x precedenti alla 6.9.0 e versioni 5.x precedenti alla 5.36.1
Le seguenti funzionalità non sono supportate da uno Studio che utilizza la propagazione delle identità attendibili:
-
Creazione di cluster EMR senza un modello.
-
Utilizzo di EMR applicazioni serverless.
-
Avvio di Amazon EMR su EKS cluster.
-
Utilizzo di un ruolo di runtime.
-
Attivazione della collaborazione con SQL Explorer o Workspace.
Limiti del servizio per Studio EMR
La tabella seguente mostra i limiti di servizio per EMR Studio.
Elemento | Limite |
---|---|
EMRStudios | Massimo 100 per AWS account |
Sottoreti | Massimo 5 associati a ogni EMR Studio |
IAMGruppi di Identity Center | Massimo 5 assegnati a ogni EMR Studio |
IAMUtenti di Identity Center | Massimo 100 assegnati a ogni EMR Studio |