Depura aplicaciones y trabajos con Studio EMR - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Depura aplicaciones y trabajos con Studio EMR

Con Amazon EMR Studio, puede lanzar interfaces de aplicaciones de datos para analizar las aplicaciones y las ejecuciones de tareas en el navegador.

También puedes lanzar las interfaces de usuario persistentes y fuera del clúster para Amazon que EMR se ejecutan en EC2 clústeres desde la EMR consola de Amazon. Para obtener más información, consulte Ver las interfaces de usuario de aplicaciones persistentes en Amazon EMR.

nota

En función de la configuración del navegador, es posible que necesite habilitar las ventanas emergentes para que se abra la interfaz de usuario de una aplicación.

Para obtener información sobre la configuración y el uso de las interfaces de la aplicación, consulte The YARN Timeline Server, Monitorización e instrumentación o Descripción general de la interfaz de usuario de Tez.

Depurar Amazon EMR que se ejecuta en Amazon Jobs EC2

Workspace UI
Iniciar una interfaz de usuario en el clúster a partir de un archivo de cuaderno

Si utilizas las EMR versiones 5.33.0 y posteriores de Amazon, puedes iniciar la interfaz de usuario web de Spark (la interfaz de usuario de Spark o el servidor de historial de Spark) desde una libreta de tu espacio de trabajo.

UIsTrabaje en el clúster con los PySpark núcleos Spark o SparkR. El tamaño máximo de archivo visible para los registros de eventos o contenedores de Spark es de 10 MB. Si sus archivos de registro superan los 10 MB, le recomendamos que utilice el servidor de historial de Spark persistente en lugar de la interfaz de usuario de Spark integrada en el clúster para depurar los trabajos.

importante

Para que EMR Studio pueda lanzar interfaces de usuario de aplicaciones en un clúster desde un espacio de trabajo, el clúster debe poder comunicarse con Amazon API Gateway. Debe configurar el EMR clúster para permitir el tráfico de red saliente a Amazon API Gateway y asegurarse de que se pueda acceder a Amazon API Gateway desde el clúster.

La interfaz de usuario de Spark accede a los registros del contenedor resolviendo los nombres de host. Si utilizas un nombre de dominio personalizado, debes asegurarte de que Amazon DNS o el DNS servidor que especifiques puedan resolver los nombres de host de los nodos de tu clúster. Para ello, defina las opciones del Protocolo de configuración dinámica de host (DHCP) para Amazon Virtual Private Cloud (VPC) que está asociada a su clúster. Para obtener más información sobre DHCP las opciones, consulte los conjuntos de DHCP opciones en la Guía del usuario de Amazon Virtual Private Cloud.

  1. En tu EMR Studio, abre el espacio de trabajo que quieras usar y asegúrate de que esté conectado a un EMR clúster de Amazon en el que se esté ejecutandoEC2. Para obtener instrucciones, consulte Adjunta un ordenador a un espacio de trabajo de EMR Studio.

  2. Abre un archivo de bloc de notas y usa el PySpark núcleo Spark o SparkR. Para seleccionar un kernel, seleccione su nombre en la parte superior derecha de la barra de herramientas del cuaderno para abrir el cuadro de diálogo Seleccionar kernel. El nombre aparece como No hay ningún kernel si no se ha seleccionado ningún kernel.

  3. Ejecute el código de su cuaderno. El fragmento siguiente aparece como salida en el cuaderno al iniciar el contexto de Spark. Puede que tarde unos segundos en aparecer. Si ha iniciado el contexto de Spark, puede ejecutar el comando %%info para acceder a un enlace que le llevará a la interfaz de usuario de Spark en cualquier momento.

    nota

    Si los enlaces de la interfaz de usuario de Spark no funcionan o no aparecen después de unos segundos, cree una nueva celda de cuaderno y ejecute el comando %%info para regenerar los enlaces.

    Captura de pantalla de la información maestra de la aplicación de Spark, con un enlace a la interfaz de usuario de Spark. El enlace aparece en un cuaderno cuando ejecuta una aplicación de Spark.
  4. Para iniciar la interfaz de usuario de Spark, seleccione Vincular en la interfaz de usuario de Spark. Si la aplicación de Spark se está ejecutando, la interfaz de usuario de Spark se abrirá en una pestaña nueva. Si la aplicación se ha completado, en su lugar se abrirá el servidor de historial de Spark.

    Tras iniciar la interfaz de usuario de Spark, puedes modificarla URL en el navegador para abrir el servidor de cronología de Yarn YARN ResourceManager o el servidor Yarn Timeline. Agregue una de las siguientes rutas después de amazonaws.com.

    Interfaz de usuario web Ruta Ejemplo modificado URL
    YARN ResourceManager /rm https://j-examplebby5ij.emrappui-prod.eu-west-1.amazonaws.com/rm
    Yarn Timeline Server /yts https://j-examplebby5ij.emrappui-prod.eu-west-1.amazonaws.com/yts
    Servidor de historial de Spark /shs https://j-examplebby5ij.emrappui-prod.eu-west-1.amazonaws.com/shs
Studio UI
Abre el YARN Timeline Server persistente, el servidor Spark History o la interfaz de usuario de Tez desde la interfaz de usuario de Studio EMR
  1. En tu EMR estudio, selecciona Amazon EMR EC2 en la parte izquierda de la página para abrir la lista Amazon EMR en EC2 clústeres.

  2. Filtre la lista de clústeres por nombre, estado o identificador introduciendo valores en el cuadro de búsqueda. También puede buscar por intervalo de tiempo de creación.

  3. Selecciona un clúster y, a continuación, selecciona Lanzar aplicación UIs para seleccionar la interfaz de usuario de una aplicación. La interfaz de usuario de la aplicación se abre en una nueva pestaña del navegador y puede que tarde en cargarse.

Debug EMR Studio se ejecuta en Serverless EMR

Al igual que Amazon EMR se ejecuta en AmazonEC2, puede utilizar la interfaz de usuario de Workspace para analizar sus aplicaciones EMR sin servidor. Desde la interfaz de usuario de Workspace, cuando utilices las EMR versiones 6.14.0 y posteriores de Amazon, puedes iniciar la interfaz de usuario web de Spark (la interfaz de usuario de Spark o el servidor de historial de Spark) desde una libreta de tu espacio de trabajo. Para su comodidad, también ofrecemos un enlace para acceder rápidamente a los registros de controladores de Spark.

Depura Amazon cuando se EMR ejecuta EKS un trabajo con el Spark History Server

Cuando envías un trabajo ejecutado a un EKS clúster de Amazon EMR on, puedes acceder a los registros de esa ejecución de trabajo mediante el Spark History Server. El servidor de historial de Spark proporciona herramientas para monitorear las aplicaciones de Spark, como una lista de las etapas y tareas del programador, un resumen del RDD tamaño y el uso de la memoria e información ambiental. Puedes iniciar el servidor de historial de Spark para EMR Amazon cuando se ejecute EKS un trabajo de las siguientes maneras:

  • Cuando envíes un trabajo ejecutado con EMR Studio con un terminal EKS gestionado por EMR Amazon, puedes lanzar el Spark History Server desde un archivo de bloc de notas en tu espacio de trabajo.

  • Cuando envíes una ejecución de tareas con AWS CLI o AWS SDK para Amazon EMR onEKS, puedes iniciar el servidor de historial de Spark desde la interfaz de usuario de EMR Studio.

Para obtener información sobre cómo utilizar el servidor de historial de Spark, consulte Supervisión e instrumentación en la documentación de Apache Spark. Para obtener más información sobre las ejecuciones de tareas, consulte Conceptos y componentes en la Guía Amazon EMR on EKS Development.

Para iniciar el servidor Spark History desde un archivo de bloc de notas en tu espacio de trabajo de EMR Studio
  1. Abre un espacio de trabajo que esté conectado a un EKS clúster de Amazon EMR on.

  2. Seleccione y abra el archivo de su cuaderno en el espacio de trabajo.

  3. Elija la interfaz de usuario de Spark en la parte superior del archivo del cuaderno para abrir el servidor de historial de Spark persistente en una pestaña nueva.

Para iniciar el servidor Spark History desde la interfaz de usuario de EMR Studio
nota

La lista de trabajos de la interfaz de usuario de EMR Studio muestra solo las ejecuciones de trabajos que envíes mediante AWS CLI o AWS SDK para Amazon EMR onEKS.

  1. En tu EMR estudio, selecciona Amazon EMR EKS en la parte izquierda de la página.

  2. Busca el clúster EKS virtual de Amazon EMR on que utilizaste para enviar tu ejecución de trabajo. Puede filtrar la lista de clústeres por estado o identificador introduciendo valores en el cuadro de búsqueda.

  3. Seleccione el clúster para abrir su página de detalles. En la página de detalles se muestra información sobre el clúster, como el identificador, el espacio de nombres y el estado. En la página también se muestra una lista de todas las ejecuciones de trabajos enviadas a ese clúster.

  4. En la página de detalles del clúster, seleccione una ejecución de trabajos para depurarla.

  5. En la parte superior derecha de la lista Trabajos, seleccione Iniciar servidor de historial de Spark para abrir la interfaz de la aplicación en una nueva pestaña del navegador.