Ver archivos de registro de - Amazon EMR

Ver archivos de registro de

Amazon EMR y Hadoop producen archivos de registro que notifican el estado en el clúster. De forma predeterminada, se escriben en el nodo principal del directorio /mnt/var/log/. En función de cómo configure el clúster al lanzarlo, estos registros también pueden archivarse en Amazon S3 y pueden ser visibles a través de la herramienta de depuración gráfica.

Existen muchos tipos de registros escritos en el nodo principal. Amazon EMR escribe registros de estado de instancias, pasos y acciones de arranque. Apache Hadoop escribe registros para notificar el procesamiento de los trabajos, de las tareas y de los intentos de tareas. Hadoop también guarda registros de sus daemons. Para obtener más información sobre los registros escritos por Hadoop, consulte http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html.

Ver archivos de registro en el nodo principal

En la siguiente tabla se enumeran algunos de los archivos de registro que encontrará en el nodo principal.

Location Descripción

/emr/instance-controller/log/bootstrap-actions

Los registros escritos durante el procesamiento de las acciones de arranque.

/mnt/var/log/hadoop-state-pusher

Los registros escritos por el proceso state pusher de Hadoop.

/emr/instance-controller/log

Registros de controlador de instancia.

/emr/instance-state

Registros de estado de instancia. Contienen información sobre la CPU, el estado de la memoria y los subprocesos del recolector de elementos no utilizados del nodo.

/emr/service-nanny

Los registros escritos por el proceso nanny de servicio.

/mnt/var/log/aplicación

Registros específicos de una aplicación como, por ejemplo, Hadoop, Spark o Hive.

/mnt/var/log/hadoop/steps/N

Registros de paso que contienen información sobre el procesamiento del paso. El valor de N indica el stepId asignado por Amazon EMR. Por ejemplo, un clúster tiene dos pasos: s-1234ABCDEFGH y s-5678IJKLMNOP. El primer paso está ubicado en /mnt/var/log/hadoop/steps/s-1234ABCDEFGH/ y el segundo paso en /mnt/var/log/hadoop/steps/s-5678IJKLMNOP/.

Los registros de pasos escritos por Amazon EMR son los siguientes.

  • controlador: información sobre el procesamiento del paso. Si se produce un error en el paso durante la carga, puede encontrar el registro de seguimiento de la pila en este registro.

  • syslog: describe la ejecución de los trabajos de Hadoop en el paso.

  • stderr: el canal de error estándar de Hadoop mientras procesa el paso.

  • stdout: el canal de salida estándar de Hadoop mientras procesa el paso.

Para ver los archivos de registro en el nodo principal con la AWS CLI.
  1. Utilice SSH para conectarse al nodo principal como se describe en Conectarse al nodo principal mediante SSH.

  2. Vaya al directorio que contiene la información del archivo de registro que desea ver. La tabla anterior ofrece una lista de los tipos de archivos de registro que están disponibles y donde los encontrará. El siguiente ejemplo muestra el comando para acceder al registro de paso con un ID, s-1234ABCDEFGH.

    cd /mnt/var/log/hadoop/steps/s-1234ABCDEFGH/
  3. Utilice el visor de archivos que desee para ver el archivo de log. En el siguiente ejemplo se usa el comando less de Linux para ver el archivo de log controller.

    less controller

Ver los archivos de registro archivados en Amazon S3

De forma predeterminada, los clústeres de Amazon EMR que se lanzan utilizando la consola archivan automáticamente los archivos de registro en Amazon S3. Puede especificar su propia ruta de registro o bien puede permitir que la consola genere automáticamente una ruta de registro por usted. En los clústeres que se lanzan con la CLI o la API, debe configurar el archivado de registros de Amazon S3 manualmente.

Cuando Amazon EMR está configurado para archivar los archivos de registro en Amazon S3, almacena los archivos en la ubicación de S3 que se haya especificado, en la carpeta /cluster-id/, donde cluster-id es el identificador del clúster.

En la siguiente tabla se enumeran algunos de los archivos de registro que encontrará en Amazon S3.

Location Descripción

/cluster-id/node/

Los registros de nodo, incluida la acción de arranque, el estado de la instancia y los registros de aplicación para el nodo. Los registros para cada nodo se almacenan en una carpeta etiquetada con el identificador de la instancia EC2 de ese nodo.

/cluster-id/node/instance-id/application

Los registros creados por cada aplicación o daemon asociado con una aplicación. Por ejemplo, el registro del servidor de Hive se encuentra en cluster-id/node/instance-id/hive/hive-server.log.

/cluster-id/steps/step-id/

Registros de paso que contienen información sobre el procesamiento del paso. El valor de step-id indica el ID de paso asignado por Amazon EMR. Por ejemplo, un clúster tiene dos pasos: s-1234ABCDEFGH y s-5678IJKLMNOP. El primer paso está ubicado en /mnt/var/log/hadoop/steps/s-1234ABCDEFGH/ y el segundo paso en /mnt/var/log/hadoop/steps/s-5678IJKLMNOP/.

Los registros de pasos escritos por Amazon EMR son los siguientes.

  • controlador: información sobre el procesamiento del paso. Si se produce un error en el paso durante la carga, puede encontrar el registro de seguimiento de la pila en este registro.

  • syslog: describe la ejecución de los trabajos de Hadoop en el paso.

  • stderr: el canal de error estándar de Hadoop mientras procesa el paso.

  • stdout: el canal de salida estándar de Hadoop mientras procesa el paso.

/cluster-id/containers

Registros de contenedor de aplicaciones. Los registros para cada aplicación YARN se almacenan en estas ubicaciones.

/cluster-id/hadoop-mapreduce/

Los registros que contienen información acerca de los detalles de configuración y el historial de trabajos de MapReduce.

Para ver los archivos de registro archivados en Amazon S3 con la consola de Amazon S3
  1. Inicie sesión en la AWS Management Console y abra la consola de Amazon S3 en https://console.aws.amazon.com/s3/.

  2. Abra el bucket de S3 que especificó al configurar el clúster para archivar los archivos de registro en Amazon S3.

  3. Acceda al archivo de registro que contiene la información que se va a mostrar. La tabla anterior ofrece una lista de los tipos de archivos de registro que están disponibles y donde los encontrará.

  4. Descargue el objeto del archivo de registro para verlo. Para obtener instrucciones, consulte Descarga de un objeto.

Ver archivos de registro en la herramienta de depuración

Amazon EMR no habilita automáticamente la herramienta de depuración. Debe configurarla al lanzar el clúster. Tenga en cuenta que la nueva consola de Amazon EMR no ofrece la herramienta de depuración.

Para ver los registros del clúster con la consola antigua
  1. Vaya hasta la nueva consola de Amazon EMR y seleccione Ir a la consola antigua en el panel de navegación lateral. Para más información sobre lo que puede esperar al cambiar a la consola antigua, consulte Uso de la consola antigua.

  2. En la página Lista de clústeres, seleccione el icono de detalles situado junto al clúster que desee ver.

    Se abrirá la página Detalles del clúster. En la sección Pasos, los enlaces situados a la derecha de cada paso muestran los distintos tipos de registros disponibles para el paso. Amazon EMR genera estos registros.

  3. Para ver una lista de los trabajos de Hadoop asociados a un paso determinado, seleccione el enlace Ver trabajos situado a la derecha del paso.

  4. Para ver una lista de las tareas de Hadoop asociadas a un trabajo determinado, seleccione el enlace Ver tareas situado a la derecha del trabajo.

  5. Para ver una lista de los intentos que ha realizado una tarea determinada al intentar completarla, seleccione el enlace Ver intentos situado a la derecha de la tarea.

  6. Para ver los registros generados por un intento de tarea, seleccione los enlaces stderr, stdout y syslog situados a la derecha del intento de la tarea.

La herramienta de depuración muestra enlaces a los archivos de registro después de que Amazon EMR cargue los archivos de registro en el bucket de Amazon S3. Dado que los archivos de registro se cargan en Amazon S3 cada cinco minutos, puede tardar algunos minutos en que las cargas de archivo de registro se completen una vez completo el paso.

Amazon EMR actualiza periódicamente el estado de los trabajos, las tareas y los intentos de tareas de Hadoop en la herramienta de depuración. Puede hacer clic en Refresh List (Actualizar lista) en los paneles de depuración para obtener el estado más actualizado de estos elementos.