Crear un clúster con JupyterHub - Amazon EMR

Crear un clúster con JupyterHub

Puede crear un clúster de Amazon EMR con JupyterHub mediante la AWS Management Console, la AWS Command Line Interface o la API de Amazon EMR. Asegúrese de que el clúster no se crea con la opción de terminar automáticamente después de completar los pasos (opción --auto-terminate de la AWS CLI). Además, asegúrese de que los administradores y los usuarios de blocs de notas puedan obtener acceso al par de claves que utiliza al crear el clúster. Para obtener más información, consulte Usar un par de claves para credenciales SSH en la Guía de administración de Amazon EMR.

Crear un clúster con JupyterHub mediante la consola

Utilice el siguiente procedimiento para crear un clúster con JupyterHub instalado a través de Opciones avanzadas en la consola de Amazon EMR.

Para crear un clúster de Amazon EMR con JupyterHub instalado mediante la consola de Amazon EMR
  1. Vaya hasta la nueva consola de Amazon EMR y seleccione Ir a la consola antigua en el panel de navegación lateral. Para más información sobre lo que puede esperar al cambiar a la consola antigua, consulte Uso de la consola antigua.

  2. Elija Crear clúster e Ir a las opciones avanzadas.

  3. En Software Configuration (Configuración de software):

    • En Versión, seleccione emr-5.36.1 y elija JupyterHub.

    • Si utiliza Spark, para usar el Catálogo de datos de AWS Glue como metaalmacén de Spark SQL, seleccione Usar para metadatos de la tabla de Spark. Para obtener más información, consulte Uso del Catálogo de datos de AWS Glue como metaalmacén para Spark SQL.

    • En Edit software settings (Editar configuración de software) elija Enter configuration (Escribir la configuración) y especifique los valores o elija Load JSON from S3 (Cargar JSON desde S3) y especifique un archivo de configuración JSON. Para obtener más información, consulte Configuración de JupyterHub.

  4. En Add steps (optional) (Añadir pasos (opcional)) configure los pasos que se ejecutarán cuando se cree el clúster, asegúrese de que no se ha seleccionado Auto-terminate cluster after the last step is completed (Terminar automáticamente el clúster después de que se complete el último paso) y elija Next (Siguiente).

  5. Elija opciones de Hardware Configuration (Configuración de hardware) y Next (Siguiente). Para obtener más información, consulte Configuración del hardware y las redes de los clústeres en la Guía de administración de Amazon EMR.

  6. Elija las opciones de General Cluster Settings (Configuración general del clúster) y Next (Siguiente).

  7. Elija Security Options (Opciones de seguridad), especifique un par de claves y, a continuación, elija Create Cluster (Crear clúster).

Crear un clúster con JupyterHub mediante la AWS CLI

Para lanzar un clúster con JupyterHub, utilice el comando aws emr create-cluster y, para la opción --applications, especifique Name=JupyterHub. En el siguiente ejemplo, se lanza un clúster de JupyterHub en Amazon EMR con dos instancias de EC2 (una principal y otra secundaria). Además, la depuración está habilitada y los registros se almacenan en la ubicación de Amazon S3 especificada mediante --log-uri. El par de claves especificado proporciona acceso a las instancias de Amazon EC2 del clúster.

nota

Se incluyen caracteres de continuación de línea de Linux (\) para facilitar la lectura. Se pueden eliminar o utilizar en los comandos de Linux. En Windows, elimínelos o sustitúyalos por un signo de intercalación (^).

aws emr create-cluster --name="MyJupyterHubCluster" --release-label emr-5.36.1 \ --applications Name=JupyterHub --log-uri s3://MyBucket/MyJupyterClusterLogs \ --use-default-roles --instance-type m5.xlarge --instance-count 2 --ec2-attributes KeyName=MyKeyPair