Requisiti, differenze nelle versioni di rilascio e sicurezza per i notebook EMR - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Requisiti, differenze nelle versioni di rilascio e sicurezza per i notebook EMR

Nota

EMRI notebook sono disponibili come EMR spazi di lavoro Studio nella console. Il pulsante Crea area di lavoro nella console consente di creare nuovi taccuini. Per accedere o creare aree di lavoro, gli utenti di EMR Notebooks necessitano di autorizzazioni di ruolo aggiuntive. IAM Per ulteriori informazioni, consulta Amazon EMR Notebooks are Amazon EMR Studio Workspace nella console e nella console Amazon. EMR

Considera i seguenti requisiti, le differenze nelle versioni di rilascio, le informazioni sulla sicurezza e altre considerazioni quando crei cluster e sviluppi soluzioni utilizzando notebook. EMR

Requisiti del cluster

  • Abilita Amazon EMR Block Public Access: l'accesso in entrata a un cluster consente agli utenti del cluster di eseguire i kernel dei notebook. Assicurati che solo gli utenti autorizzati possano accedere al cluster. Ti consigliamo vivamente di lasciare abilitato l'accesso pubblico a blocchi e di limitare il SSH traffico in entrata solo a fonti attendibili. Per ulteriori informazioni, consulta L'uso di Amazon EMR blocca l'accesso pubblico e Controlla il traffico di rete con gruppi di sicurezza per il tuo EMR cluster Amazon.

  • Utilizzo di un cluster compatibile: un cluster collegato a un notebook deve soddisfare i seguenti requisiti:

    • Sono supportati solo i cluster creati con AmazonEMR. Puoi creare un cluster in modo indipendente all'interno di Amazon EMR e quindi collegare un EMR notebook oppure puoi creare un cluster compatibile quando crei un EMR notebook.

    • Sono supportati solo i cluster creati utilizzando la EMR versione 5.18.0 e successive di Amazon. Per informazioni, consulta Differenze nelle funzionalità in base alla versione del cluster.

    • I cluster creati utilizzando EC2 istanze Amazon con AMD EPYC processori, ad esempio i tipi di istanza m5a.* e r5a.*, non sono supportati.

    • EMRI notebook funzionano solo con i VisibleToAllUsers cluster creati con set to. true VisibleToAllUsersè di default. true

    • Il cluster deve essere avviato all'interno di un EC2 -VPC. Sono supportate sottoreti pubbliche e private. La piattaforma EC2 -Classic non è supportata.

    • I cluster devono essere avviati con Hadoop, Spark e Livy installati. È possibile installare altre applicazioni, ma EMR Notebooks attualmente supporta solo i cluster Spark.

      Importante

      Per le EMR versioni di Amazon 5.32.0 e successive, o 6.2.0 e successive, il cluster deve inoltre eseguire l'applicazione Jupyter Enterprise Gateway per funzionare con i notebook. EMR

    • I cluster che utilizzano l'autenticazione Kerberos non sono supportati.

    • I cluster integrati supportano solo l'installazione di librerie con ambito notebook. AWS Lake Formation L'installazione di kernel e librerie nel cluster non è supportata.

    • I cluster con più nodi primari non sono supportati.

    • I cluster che utilizzano EC2 istanze Amazon basate su AWS Graviton2 non sono supportati.

Differenze nelle funzionalità in base alla versione del cluster

Ti consigliamo vivamente di utilizzare EMR notebook con cluster creati utilizzando le EMR versioni di Amazon 5.30.0, 5.32.0 o successive o 6.2.0 o successive. Con queste versioni, EMR Notebooks esegue i kernel sul cluster Amazon collegato. EMR I kernel e le librerie possono essere installati direttamente sul nodo primario del cluster. L'utilizzo di EMR Notebooks con queste versioni del cluster offre i seguenti vantaggi:

  • Prestazioni migliorate: i kernel dei notebook vengono eseguiti su cluster con tipi di EC2 istanze selezionati dall'utente. Le versioni precedenti eseguono i kernel su un'istanza specializzata che non è ridimensionabile, accessibile o personalizzabile.

  • Possibilità di aggiungere e personalizzare i kernel: è possibile connettersi al cluster per installare i pacchetti kernel utilizzando conda e pip. Inoltre, l'installazione pip è supportata utilizzando i comandi del terminale all'interno delle celle di notebook. Nelle versioni precedenti, erano disponibili solo kernel preinstallati (Python PySpark, Spark e SparkR). Per ulteriori informazioni, consulta Installazione di kernel e librerie Python su un nodo primario del cluster.

  • Possibilità di installare librerie Python: è possibile installare librerie Python sul nodo primario del cluster utilizzando conda e pip. Consigliamo l'uso di conda. Nelle versioni precedenti, sono supportate solo le librerie con ambito notebook per. PySpark

Funzionalità dei notebook supportate EMR in base alla versione del cluster
Versione di rilascio del cluster Librerie con ambito notebook per PySpark Installazione del kernel sul cluster Installazione della libreria Python sul nodo primario

Precedente a 5.18.0

EMRNotebook non supportati

5.18.0-5.25.0

No

No

No

5.26.0–5.29.0

No

No

5.30.0

6.0.0

No

No

No

5.32.0 e versioni successive e 6.2.0 e versioni successive

Limiti per i notebook collegati contemporaneamente EMR

Quando crei un cluster che supporta i notebook, considera il tipo di EC2 istanza del nodo primario del cluster. I vincoli di memoria di questa EC2 istanza determinano il numero di notebook che possono essere pronti contemporaneamente per eseguire codice e query sul cluster.

EC2Tipo di istanza del nodo primario Numero di EMR notebook

*.medium

2

*.large

4

*.xlarge

8

*.2xlarge

16

*.4xlarge

24

*.8xlarge

24

*.16xlarge

24

Versioni Jupyter Notebook e Python

EMRNotebooks esegue Jupyter Notebook versione 6.0.2 e Python 3.6.5 indipendentemente dalla versione Amazon del cluster collegato. EMR

Considerazioni relative alla sicurezza

Utilizzo di posizioni S3 crittografate

Se si specifica un percorso crittografato in Amazon S3 per archiviare i file del notebook, è necessario impostare Ruolo di servizio per i notebook EMR come un utente chiave. Il ruolo di servizio predefinito è EMR_Notebooks_DefaultRole. Se utilizzi una AWS KMS chiave per la crittografia, consulta Using key policies nella AWS Key Management Service Developer Guide e l'articolo di supporto per l' AWS KMSaggiunta di utenti chiave.

Utilizzo dei cookie con domini di hosting

Per aumentare la sicurezza delle applicazioni off-console che potresti utilizzare con AmazonEMR, i domini di hosting delle applicazioni sono registrati nella Public Suffix List (). PSL Alcuni esempi di questi domini di hosting includono: emrstudio-prod.us-east-1.amazonaws.com, emrnotebooks-prod.us-east-1.amazonaws.com, emrappui-prod.us-east-1.amazonaws.com. Per maggiore sicurezza, se hai bisogno di impostare cookie sensibili nel nome di dominio predefinito, consigliamo di utilizzare i cookie con un prefisso __Host-. Questo aiuta a difendere il tuo dominio dai tentativi di falsificazione di richieste tra siti (). CSRF Per ulteriori informazioni, consultare la .Set-Cookiepagina del Mozilla Developer Network.