Información general de Cuadernos de Amazon EMR - Amazon EMR

Información general de Cuadernos de Amazon EMR

nota

Cuadernos de EMR está disponible como Espacios de trabajo de EMR Studio en la nueva consola. Puede seguir utilizando sus cuadernos existentes en la consola antigua, pero no podrá crear nuevos cuadernos en la consola antigua. El botón Crear espacio de trabajo de la nueva consola sustituye a esta funcionalidad. Para crear espacios de trabajo o acceder a ellos, los usuarios de Cuadernos de EMR necesitan permisos de rol de IAM adicionales. Para obtener más información, consulte Cuadernos de Amazon EMR es Espacios de trabajo de Amazon EMR Studio en la nueva consola y Novedades de la consola

Puede usar Cuadernos de Amazon EMR junto con clústeres de Amazon EMR que ejecuten Apache Spark para crear y abrir las interfaces de Cuaderno de Jupyter y JupyterLab dentro de la consola de Amazon EMR. Un cuaderno de EMR es un cuaderno “sin servidor” que puede usar para ejecutar consultas y código. A diferencia de un cuaderno tradicional, el contenido de un cuaderno de EMR (ecuaciones, consultas, modelos, código y texto narrativo dentro de las celdas del cuaderno) se ejecutan en un cliente. Los comandos se ejecutan utilizando un kernel en el clúster de EMR. El contenido del cuaderno también se guarda en Amazon S3 separado de los datos del clúster para mayor durabilidad y flexibilidad en la reutilización.

Puede iniciar un clúster, asociar un cuaderno de EMR para análisis y, a continuación, terminar el clúster. También puede cerrar un bloc de notas asociado a un clúster en ejecución y cambiar a otro. Varios usuarios pueden asociar cuadernos al mismo clúster de forma simultánea y compartir entre sí archivos de cuaderno en Amazon S3. Estas características le permiten ejecutar clústeres bajo demanda para ahorrar costes y reducir el tiempo dedicado a reconfigurar blocs de notas para diferentes clústeres y conjuntos de datos.

También puede ejecutar un cuaderno de EMR mediante programación con la API de Amazon EMR, sin necesidad de interactuar con la consola de Amazon EMR (“ejecución Headless”). Debe incluir una celda en el cuaderno de EMR que tenga una etiqueta de parámetros. Esa celda permite que un script pase nuevos valores de entrada al cuaderno. Los cuadernos parametrizados se pueden reutilizar con diferentes conjuntos de valores de entrada. No es necesario hacer copias del mismo cuaderno para editarlo y ejecutarlo con nuevos valores de entrada. Amazon EMR crea y guarda el cuaderno de salida en S3 para cada ejecución del cuaderno parametrizado. Para ver muestras de códigos de la API de cuadernos de EMR, consulte Ejemplos de comandos para ejecutar Cuadernos de EMR mediante programación.

importante

La capacidad de Cuadernos de EMR admite clústeres que utilizan la versión 5.18.0 de Amazon EMR y versiones posteriores. Le recomendamos que utilice Cuadernos de EMR con clústeres que utilicen la última versión de Amazon EMR, o al menos las versiones 5.30.0, 5.32.0 o 6.2.0. Con estas versiones, los kernels de Jupyter se ejecutan en el clúster asociado, en lugar de hacerlo en una instancia de Jupyter. Este cambio mejora el rendimiento y mejora su capacidad para personalizar kernels y bibliotecas. Para obtener más información, consulte Diferencias en capacidades por versión de clúster.

Se aplicarán los cargos correspondientes para el almacenamiento de Amazon S3 y los clústeres de Amazon EMR.