Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Requisiti, differenze nelle versioni di rilascio e sicurezza per i notebook EMR
Nota
EMRI notebook sono disponibili come EMR spazi di lavoro Studio nella console. Il pulsante Crea area di lavoro nella console consente di creare nuovi taccuini. Per accedere o creare aree di lavoro, gli utenti di EMR Notebooks necessitano di autorizzazioni di ruolo aggiuntive. IAM Per ulteriori informazioni, consulta Amazon EMR Notebooks are Amazon EMR Studio Workspace nella console e nella console Amazon. EMR
Considera i seguenti requisiti, le differenze nelle versioni di rilascio, le informazioni sulla sicurezza e altre considerazioni quando crei cluster e sviluppi soluzioni utilizzando notebook. EMR
Requisiti del cluster
-
Abilita Amazon EMR Block Public Access: l'accesso in entrata a un cluster consente agli utenti del cluster di eseguire i kernel dei notebook. Assicurati che solo gli utenti autorizzati possano accedere al cluster. Ti consigliamo vivamente di lasciare abilitato l'accesso pubblico a blocchi e di limitare il SSH traffico in entrata solo a fonti attendibili. Per ulteriori informazioni, consulta L'uso di Amazon EMR blocca l'accesso pubblico e Controlla il traffico di rete con gruppi di sicurezza per il tuo EMR cluster Amazon.
-
Utilizzo di un cluster compatibile: un cluster collegato a un notebook deve soddisfare i seguenti requisiti:
-
Sono supportati solo i cluster creati con AmazonEMR. Puoi creare un cluster in modo indipendente all'interno di Amazon EMR e quindi collegare un EMR notebook oppure puoi creare un cluster compatibile quando crei un EMR notebook.
-
Sono supportati solo i cluster creati utilizzando la EMR versione 5.18.0 e successive di Amazon. Per informazioni, consulta Differenze nelle funzionalità in base alla versione del cluster.
-
I cluster creati utilizzando EC2 istanze Amazon con AMD EPYC processori, ad esempio i tipi di istanza m5a.* e r5a.*, non sono supportati.
-
EMRI notebook funzionano solo con i
VisibleToAllUsers
cluster creati con set to.true
VisibleToAllUsers
è di default.true
-
Il cluster deve essere avviato all'interno di un EC2 -VPC. Sono supportate sottoreti pubbliche e private. La piattaforma EC2 -Classic non è supportata.
-
I cluster devono essere avviati con Hadoop, Spark e Livy installati. È possibile installare altre applicazioni, ma EMR Notebooks attualmente supporta solo i cluster Spark.
Importante
Per le EMR versioni di Amazon 5.32.0 e successive, o 6.2.0 e successive, il cluster deve inoltre eseguire l'applicazione Jupyter Enterprise Gateway per funzionare con i notebook. EMR
-
I cluster che utilizzano l'autenticazione Kerberos non sono supportati.
-
I cluster integrati supportano solo l'installazione di librerie con ambito notebook. AWS Lake Formation L'installazione di kernel e librerie nel cluster non è supportata.
-
I cluster con più nodi primari non sono supportati.
-
I cluster che utilizzano EC2 istanze Amazon basate su AWS Graviton2 non sono supportati.
-
Differenze nelle funzionalità in base alla versione del cluster
Ti consigliamo vivamente di utilizzare EMR notebook con cluster creati utilizzando le EMR versioni di Amazon 5.30.0, 5.32.0 o successive o 6.2.0 o successive. Con queste versioni, EMR Notebooks esegue i kernel sul cluster Amazon collegato. EMR I kernel e le librerie possono essere installati direttamente sul nodo primario del cluster. L'utilizzo di EMR Notebooks con queste versioni del cluster offre i seguenti vantaggi:
-
Prestazioni migliorate: i kernel dei notebook vengono eseguiti su cluster con tipi di EC2 istanze selezionati dall'utente. Le versioni precedenti eseguono i kernel su un'istanza specializzata che non è ridimensionabile, accessibile o personalizzabile.
-
Possibilità di aggiungere e personalizzare i kernel: è possibile connettersi al cluster per installare i pacchetti kernel utilizzando
conda
epip
. Inoltre, l'installazionepip
è supportata utilizzando i comandi del terminale all'interno delle celle di notebook. Nelle versioni precedenti, erano disponibili solo kernel preinstallati (Python PySpark, Spark e SparkR). Per ulteriori informazioni, consulta Installazione di kernel e librerie Python su un nodo primario del cluster. -
Possibilità di installare librerie Python: è possibile installare librerie Python sul nodo primario del cluster utilizzando
conda
epip
. Consigliamo l'uso diconda
. Nelle versioni precedenti, sono supportate solo le librerie con ambito notebook per. PySpark
Versione di rilascio del cluster | Librerie con ambito notebook per PySpark | Installazione del kernel sul cluster | Installazione della libreria Python sul nodo primario |
---|---|---|---|
Precedente a 5.18.0 |
EMRNotebook non supportati |
||
5.18.0-5.25.0 |
No |
No |
No |
5.26.0–5.29.0 |
No |
No |
|
5.30.0 |
|||
6.0.0 |
No |
No |
No |
5.32.0 e versioni successive e 6.2.0 e versioni successive | Sì | Sì | Sì |
Limiti per i notebook collegati contemporaneamente EMR
Quando crei un cluster che supporta i notebook, considera il tipo di EC2 istanza del nodo primario del cluster. I vincoli di memoria di questa EC2 istanza determinano il numero di notebook che possono essere pronti contemporaneamente per eseguire codice e query sul cluster.
EC2Tipo di istanza del nodo primario | Numero di EMR notebook |
---|---|
*.medium |
2 |
*.large |
4 |
*.xlarge |
8 |
*.2xlarge |
16 |
*.4xlarge |
24 |
*.8xlarge |
24 |
*.16xlarge |
24 |
Versioni Jupyter Notebook e Python
EMRNotebooks esegue Jupyter Notebook versione 6.0.2 e
Considerazioni relative alla sicurezza
- Utilizzo di posizioni S3 crittografate
-
Se si specifica un percorso crittografato in Amazon S3 per archiviare i file del notebook, è necessario impostare Ruolo di servizio per i notebook EMR come un utente chiave. Il ruolo di servizio predefinito è
EMR_Notebooks_DefaultRole
. Se utilizzi una AWS KMS chiave per la crittografia, consulta Using key policies nella AWS Key Management Service Developer Guide e l'articolo di supporto per l' AWS KMSaggiunta di utenti chiave. - Utilizzo dei cookie con domini di hosting
-
Per aumentare la sicurezza delle applicazioni off-console che potresti utilizzare con AmazonEMR, i domini di hosting delle applicazioni sono registrati nella Public Suffix List (). PSL Alcuni esempi di questi domini di hosting includono:
emrstudio-prod.us-east-1.amazonaws.com
,emrnotebooks-prod.us-east-1.amazonaws.com
,emrappui-prod.us-east-1.amazonaws.com
. Per maggiore sicurezza, se hai bisogno di impostare cookie sensibili nel nome di dominio predefinito, consigliamo di utilizzare i cookie con un prefisso__Host-
. Questo aiuta a difendere il tuo dominio dai tentativi di falsificazione di richieste tra siti (). CSRF Per ulteriori informazioni, consultare la .Set-Cookiepagina del Mozilla Developer Network.