Connect a un cluster Amazon EMR da SageMaker Studio o Studio Classic - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Connect a un cluster Amazon EMR da SageMaker Studio o Studio Classic

I data scientist e gli ingegneri dei dati possono scoprire e quindi connettersi a un cluster Amazon EMR direttamente dall'interfaccia utente di Studio. Prima di iniziare, assicurati di aver configurato le autorizzazioni necessarie come descritto nella Passaggio 4: configura le autorizzazioni per abilitare la pubblicazione e l'avvio di cluster Amazon EMR da Studio sezione. Queste autorizzazioni garantiscono a Studio la possibilità di creare, avviare, visualizzare, accedere e terminare i cluster.

Puoi connettere un cluster Amazon EMR a un nuovo JupyterLab notebook direttamente dall'interfaccia utente di Studio o scegliere di avviare la connessione in un notebook di un'applicazione in esecuzione. JupyterLab

Importante

Puoi scoprire e connetterti ai cluster Amazon EMR solo per JupyterLab applicazioni Studio Classic lanciate da spazi privati. Assicurati che i cluster Amazon EMR si trovino nella stessa AWS regione del tuo ambiente Studio. Il tuo JupyterLab spazio deve utilizzare una versione dell'immagine SageMaker di distribuzione 1.10 o superiore.

Connect a un cluster Amazon EMR utilizzando l'interfaccia utente di Studio

Per connetterti al cluster utilizzando l'interfaccia utente Studio o Studio Classic, puoi avviare una connessione dall'elenco dei cluster a cui si accede o da un notebook in SageMaker Studio o Studio Classic. Elenca i cluster Amazon EMR da Studio o Studio Classic

Per connettere un cluster Amazon EMR a un nuovo JupyterLab notebook dall'interfaccia utente di Studio:
  1. Nel pannello sinistro dell'interfaccia utente di Studio, seleziona il nodo Dati nel menu di navigazione a sinistra. Passa alle applicazioni e ai cluster Amazon EMR. Si apre una pagina che elenca i cluster Amazon EMR a cui puoi accedere da Studio nella scheda Cluster Amazon EMR.

    Nota

    Se tu o il tuo amministratore avete configurato le autorizzazioni per consentire l'accesso tra account ai cluster Amazon EMR, puoi visualizzare un elenco consolidato di cluster in tutti gli account a cui hai concesso l'accesso a Studio.

  2. Seleziona un cluster Amazon EMR che desideri connettere a un nuovo notebook, quindi scegli Collega al notebook. Si apre una finestra modale che mostra l'elenco dei tuoi JupyterLab spazi.

    • Seleziona lo spazio da cui desideri avviare un' JupyterLabapplicazione, quindi scegli Apri notebook. Questo avvia un' JupyterLab applicazione dallo spazio prescelto e apre un nuovo taccuino.

      Nota

      Gli utenti di Studio Classic devono selezionare un'immagine e un kernel. Per un elenco delle immagini supportate, consulta Immagini e kernel supportati per la connessione a un cluster Amazon EMR da Studio o Studio Classic o fai riferimento a Utilizza la tua immagine.

    • In alternativa, puoi creare un nuovo spazio privato scegliendo il pulsante Crea nuovo spazio nella parte superiore della finestra modale. Inserisci un nome per il tuo spazio, quindi scegli Crea spazio e apri il taccuino. Questo crea uno spazio privato con il tipo di istanza predefinito e l'immagine di SageMaker distribuzione più recente disponibile, avvia un' JupyterLabapplicazione e apre un nuovo notebook.

  3. Se il cluster selezionato non utilizza Kerberos, LDAP o l'autenticazione con ruolo di runtime, Studio richiede di selezionare il tipo di credenziale. Scegli tra Autenticazione di base HTTP o Nessuna credenziale, quindi, se del caso, inserisci le tue credenziali.

    Se il cluster selezionato supporta i ruoli di runtime, scegli il nome del ruolo IAM che il tuo cluster Amazon EMR può assumere per l'esecuzione del job.

    Importante

    Per connettere correttamente un JupyterLab notebook a un cluster Amazon EMR che supporta i ruoli di runtime, devi prima associare l'elenco dei ruoli di runtime al tuo dominio o profilo utente, come indicato in. Configurazione dei ruoli di runtime IAM per l'accesso al cluster Amazon EMR in Studio Il mancato completamento di questo passaggio impedirà di stabilire la connessione.

    Dopo la selezione, un comando di connessione popola la prima cella del notebook e avvia la connessione con il cluster Amazon EMR.

    Una volta completata la connessione, un messaggio conferma la connessione e l'avvio dell'applicazione Spark.

In alternativa, puoi connetterti a un cluster da un notebook JupyterLab o da Studio Classic.
  1. Scegli il pulsante Cluster nella parte superiore del notebook. Si apre una finestra modale che elenca i cluster Amazon EMR in Running uno stato a cui puoi accedere. Puoi visualizzare i cluster Running Amazon EMR nella scheda Cluster Amazon EMR.

    Nota

    Per gli utenti di Studio Classic, Cluster è visibile solo quando si utilizza un kernel da o verso. Immagini e kernel supportati per la connessione a un cluster Amazon EMR da Studio o Studio Classic Utilizza la tua immagine Se non riesci a visualizzare Cluster nella parte superiore del notebook, assicurati che l'amministratore abbia configurato la rilevabilità dei cluster e passa a un kernel supportato.

  2. Seleziona il cluster a cui connetterti, quindi scegli Connessione.

  3. Se hai configurato i cluster Amazon EMR per supportare i ruoli IAM in fase di esecuzione, puoi selezionare il tuo ruolo dal menu a discesa del ruolo di esecuzione di Amazon EMR.

    Importante

    Per connettere correttamente un JupyterLab notebook a un cluster Amazon EMR che supporta i ruoli di runtime, devi prima associare l'elenco dei ruoli di runtime al tuo dominio o profilo utente, come indicato in. Configurazione dei ruoli di runtime IAM per l'accesso al cluster Amazon EMR in Studio Il mancato completamento di questo passaggio impedirà di stabilire la connessione.

    Altrimenti, se il cluster scelto non utilizza Kerberos, LDAP o l'autenticazione con ruolo di runtime, Studio o Studio Classic richiede di selezionare il tipo di credenziale. È possibile scegliere l'autenticazione di base HTTP o Nessuna credenziale.

  4. Studio aggiunge e quindi esegue un blocco di codice su una cella attiva per stabilire la connessione. Questa cella contiene il comando magico di connessione per connettere il notebook all'applicazione in base al tipo di autenticazione.

    Una volta completata la connessione, un messaggio conferma la connessione e l'avvio dell'applicazione Spark.

Connettiti a un cluster Amazon EMR utilizzando un comando di connessione

Per stabilire una connessione a un cluster Amazon EMR, puoi eseguire comandi di connessione all'interno di una cella notebook.

Quando stabilisci la connessione, puoi autenticarti utilizzando Kerberos, Lightweight Directory Access Protocol (LDAP) o l'autenticazione del ruolo IAM in fase di esecuzione. Il metodo di autenticazione scelto dipende dalla configurazione del cluster.

Puoi fare riferimento a questo esempio Access Apache Livy utilizzando un Network Load Balancer su un cluster Amazon EMR abilitato a Kerberos per configurare un cluster Amazon EMR che utilizza l'autenticazione Kerberos. In alternativa, puoi esplorare i modelli di CloudFormation esempio che utilizzano l'autenticazione Kerberos o LDAP nel repository aws-samples/. sagemaker-studio-emr GitHub

Se l'amministratore ha abilitato l'accesso tra account diversi, puoi connetterti al tuo cluster Amazon EMR da un notebook Studio Classic, indipendentemente dal fatto che l'applicazione Studio Classic e il cluster risiedano AWS nello stesso account o in account diversi.

Per ciascuno dei seguenti tipi di autenticazione, usa il comando specificato per connetterti al cluster dal tuo notebook Studio o Studio Classic.

  • Kerberos

    Aggiungi l'argomento --assumable-role-arn se hai bisogno di un accesso ad Amazon EMR multi-account. Aggiungi l'argomento --verify-certificate se ti connetti al cluster con HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Kerberos --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • LDAP

    Aggiungi l'argomento --assumable-role-arn se hai bisogno di un accesso ad Amazon EMR multi-account. Aggiungi l'argomento --verify-certificate se ti connetti al cluster con HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • NoAuth

    Aggiungi l'argomento --assumable-role-arn se hai bisogno di un accesso ad Amazon EMR multi-account. Aggiungi l'argomento --verify-certificate se ti connetti al cluster con HTTPS.

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type None --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • Ruoli IAM di runtime

    Aggiungi l'argomento --assumable-role-arn se hai bisogno di un accesso ad Amazon EMR multi-account. Aggiungi l'argomento --verify-certificate se ti connetti al cluster con HTTPS.

    Per ulteriori informazioni sulla connessione a un cluster Amazon EMR utilizzando i ruoli IAM di runtime, consulta Configurazione dei ruoli di runtime IAM per l'accesso al cluster Amazon EMR in Studio .

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access \ --emr-execution-role-arn arn:aws:iam::studio_account_id:role/emr-execution-role-name [--assumable-role-arn EMR_access_role_ARN] [--verify-certificate /home/user/certificateKey.pem]

Connettiti a un cluster Amazon EMR tramite HTTPS

Se hai configurato il tuo cluster Amazon EMR con la crittografia di transito abilitata e il server Apache Livy per HTTPS e desideri che Studio o Studio Classic comunichino con Amazon EMR tramite HTTPS, devi configurare Studio o Studio Classic per accedere alla chiave del certificato.

Per i certificati autofirmati o firmati dall'autorità di certificazione (CA) locale, puoi farlo in due fasi:

  1. scarica il file PEM del certificato nel file system locale utilizzando una delle seguenti opzioni:

  2. Abilita la convalida del certificato fornendo il percorso al certificato nell'argomento --verify-certificate del comando di connessione.

    %sm_analytics emr connect --cluster-id cluster_id \ --verify-certificate /home/user/certificateKey.pem ...

Per i certificati pubblici emessi da CA, imposta la convalida del certificato configurando il parametro --verify-certificate su true.

In alternativa, è possibile disabilitare la convalida del certificato impostando il parametro --verify-certificate su false.

Puoi trovare l'elenco dei comandi di connessione disponibili a un cluster Amazon EMR in Connettiti a un cluster Amazon EMR utilizzando un comando di connessione.