Motivos de error de ejecución - AWS HealthOmics

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Motivos de error de ejecución

Si se produce un error en una ejecución, utilice la operación de la GetRunAPI para recuperar el motivo del error.

Revisa el motivo del error para ayudarte a solucionar el error de la ejecución. En la tabla siguiente se enumeran los motivos de cada error junto con una descripción del error.

Failure reason (Motivo del error) Descripción del error

ASSUME_ROLE_FAILED

HealthOmics no tiene permiso para asumir el rol. Especifique el HealthOmics principal de la relación de confianza del rol.

NO SE PUEDE INICIAR _CONTAINER_ERROR

No se puede iniciar la tarea de flujo de trabajo:name, id: container using image:. ID image name Asegúrese de que la imagen es válida e inténtelo de nuevo.

NO SE PUEDE INICIAR CONTAINER_SIZE_ERROR

No se puede iniciar la tarea de flujo de trabajo:, id: container using image:. name ID image name Asegúrese de que el tamaño de la imagen sea inferior a 25 GB e inténtelo de nuevo.

ECR_PERMISSION_ERROR

HealthOmics no tiene permiso para acceder al URI de la imagen.

Confirme que el repositorio privado de Amazon ECR existe y que ha concedido acceso a la entidad principal del HealthOmics servicio.

EXPORT_FAILED

Se produjo un error en la exportación. Compruebe que el depósito de salida existe y que la función de ejecución tiene permiso de escritura en el depósito.

FILE_SYSTEM_OUT_OF_SPACE

El sistema de archivos no tiene suficiente espacio. Aumente el tamaño del sistema de archivos y vuelva a ejecutarlo.

ERROR DE VERIFICACIÓN DE IMAGEN

No se ha podido verificar la imagen. image name Para corregir el problema, intenta extraer la imagen y, a continuación, volver a subirla al repositorio de ECR.

ERROR DE IMPORTACIÓN

Error en la importación. Compruebe que el archivo de entrada existe y que la función de ejecución puede acceder a la entrada.

INACTIVE_OMICS_STORAGE_RESOURCE

El URI de almacenamiento no está en estado ACTIVO. HealthOmics Active el conjunto de lectura e inténtelo de nuevo. Para obtener más información sobre la activación de los conjuntos de lecturas, consulteActivar conjuntos de lectura en HealthOmics.

INPUT_URI_NOT_FOUND El URI proporcionado no existe:. uri Compruebe que la ruta URI existe y confirme que el rol puede acceder al objeto.

INSTANCE_RESERVATION_FAILED

No hay suficiente capacidad de instancia para completar la ejecución del flujo de trabajo. Espera e intenta ejecutar de nuevo el flujo de trabajo.

INVALID_ECR_IMAGE_URI

La estructura del URI de imagen de Amazon ECR no es válida. Proporcione un URI válido e inténtelo de nuevo.

TASK_RESOURCE_VALUE NO VÁLIDO

La GPU, la CPU o la memoria solicitadas son demasiado altas para la capacidad informática disponible o son inferiores al valor mínimo de 1 para la tarea. ID

URI_INPUT NO VÁLIDO

La estructura del URI no es válida. uri Comprueba la estructura del URI e inténtalo de nuevo.
MODIFIED_INPUT_RESOURCE

El URI proporcionado se modificó después de que se uri iniciara la ejecución. Vuelva a intentar la ejecución.

OUT_OF_MEMORY_ERROR

La tarea del flujo de trabajo se quedó sin memoria. ID Aumente el valor de memoria en la definición del flujo de trabajo e intente la ejecución de nuevo.

RUN_TASK_FAILED

La ejecución falló porque la tarea falló. Para depurar el error de la tarea, utilice la operación de GetRunTaskAPI y la transmisión de Amazon CloudWatch Logs.

RUN_TIMED_OUT

Se agota el tiempo de espera después de unos minutos. number

SERVICE_ERROR Se ha producido un error transitorio en el servicio. Intente ejecutar de nuevo el flujo de trabajo.

UNSUPPORTED_INPUT_SIZE

El tamaño total de la entrada es demasiado alto. Reduzca el tamaño de entrada e inténtelo de nuevo.

WORKFLOW_RUN_FAILED

Falló la ejecución del flujo de trabajo. Revise el flujo de registro del motor CloudWatch Logs ID para depurar el error.

WORKFLOW_VER_VALIDATION_FAILED

HealthOmics no es compatible con la versión de Nextflow solicitada: --. version La última versión compatible esversion. Modifique su versión de Nextflow por una versión compatible e inténtelo de nuevo.

UNSUPPORTED_GPU_INSTANCE_TYPE

El tipo de instancia solicitado no se admite en. Region Vuelva a intentar la ejecución con un tipo de instancia de GPU compatible en esta región. Los tipos de instancias disponibles sonGPU instance types.

Guía para ejecuciones que no responden

Al desarrollar nuevos flujos de trabajo, las ejecuciones o tareas específicas pueden «atascarse» o «bloquearse» si hay problemas con el código y las tareas no salen correctamente de los procesos. Esto puede resultar difícil de solucionar y detectar, ya que es normal que las tareas se ejecuten durante períodos prolongados. Para evitar e identificar las ejecuciones que no responden, siga las prácticas recomendadas que se sugieren en las siguientes secciones.

Prácticas recomendadas para evitar ejecuciones que no respondan

  • Asegúrese de cerrar todos los archivos abiertos en el código de la tarea. En ocasiones, abrir demasiados archivos puede provocar problemas de creación de subprocesos en los motores de flujo de trabajo.

  • Los procesos en segundo plano creados por una tarea de flujo de trabajo deberían cerrarse al finalizar la tarea. Sin embargo, si un proceso en segundo plano no se cierra correctamente, debe cerrar dicho proceso de forma explícita en el código de la tarea.

  • Asegúrese de que sus procesos no se repitan sin salir. Esto puede provocar una ejecución que no responda y, para resolverlo, es necesario cambiar el código de definición del flujo de trabajo.

  • Asigne la memoria y la CPU adecuadas a sus tareas. Analice los CloudWatch registros o utilícelos Ejecute Analyzer cuando el flujo de trabajo se haya completado correctamente para comprobar que dispone de una asignación informática óptima. Utilice el headroom parámetro Run Analyzer para incluir más margen de maniobra y garantizar que los procesos cuenten con recursos suficientes para completarlos. Incluya al menos un 5% de margen en la memoria y la CPU asignadas para tener en cuenta los procesos del sistema operativo en segundo plano.

    • Además, aumenta el tamaño del ancho de banda de la instancia si la instancia requiere un rendimiento superior. EC2 Las instancias de Amazon con menos de 16 v CPUs (tamaño 4xl o menor) pueden experimentar un aumento de rendimiento. Para obtener más información sobre el rendimiento de las EC2 instancias de Amazon, consulta el ancho de banda de instancias EC2 disponible en Amazon.

  • Asegúrese de utilizar el tamaño de sistema de archivos correcto para sus ejecuciones. En el caso de las ejecuciones que no responden y utilizan almacenamiento de ejecución estática, considere la posibilidad de aumentar la asignación de almacenamiento de ejecución estática para permitir un mayor rendimiento de E/S y una mayor capacidad de almacenamiento en el sistema de archivos. Analice el manifiesto de ejecución para ver el almacenamiento máximo del sistema de archivos y utilice el analizador de ejecución para determinar si es necesario aumentar la asignación del sistema de archivos.

Prácticas recomendadas para detectar las ejecuciones que no responden

  • Al desarrollar nuevos flujos de trabajo, usa un grupo de ejecución con el límite máximo de tiempo de ejecución establecido para catch runaway code. Por ejemplo, si una ejecución tarda 1 hora en completarse, colócala en un grupo de carreras que agote el tiempo de espera después de 2 o 3 horas (o un período de tiempo diferente según tu caso de uso) para atrapar las tareas agotadas. Además, aplique un búfer para tener en cuenta la variación en los tiempos de procesamiento.

  • Configure una serie de grupos de ejecuciones con diferentes límites máximos de tiempo de ejecución. Por ejemplo, puedes asignar ejecuciones cortas a un grupo de ejecuciones que las termine después de unas horas y a un grupo de carreras largas que termine las carreras después de unos días, en función de la duración prevista del flujo de trabajo.

  • HealthOmics tiene un límite de servicio de duración máxima de ejecución predeterminado de 604 800 segundos, o 7 días, que se puede ajustar mediante una solicitud en la herramienta de cuotas. Solicita un aumento del límite de servicio de esta cuota únicamente si tienes ejecuciones que se aproximan a una semana de duración. Si tiene una combinación de carreras cortas y largas y no utiliza grupos de carreras, considere la posibilidad de colocar las carreras largas en una cuenta independiente con un límite de servicio de duración máxima de ejecución superior.

  • Inspeccione los CloudWatch registros para ver si hay tareas que sospeche que podrían no responder. Si una tarea normalmente genera declaraciones de registro regulares y no lo ha hecho durante un período prolongado, es probable que la tarea esté atascada o bloqueada.

¿Qué hacer si se produce una ejecución que no responde

  • Cancela la carrera para evitar incurrir en costes adicionales.

  • Inspeccione los registros de tareas para comprobar si algún proceso no se pudo cerrar correctamente.

  • Inspeccione los registros del motor para identificar cualquier comportamiento anormal del motor.

  • Compare los registros de tareas y del motor de la ejecución que no respondió con los de las ejecuciones idénticas que se completaron correctamente. Esto puede ayudar a identificar cualquier diferencia que pueda haber provocado la falta de respuesta.

  • Si no puede determinar la causa raíz, presente un caso de apoyo e incluya lo siguiente:

    • El ARN de la ejecución atascada y el ARN de una ejecución idéntica que se completó correctamente.

    • Registros del motor (disponibles una vez que la ejecución se ha cancelado o ha fallado)

    • Registros de tareas para la tarea que no responde. No necesitamos registros de tareas para todas las tareas del flujo de trabajo para solucionar los problemas.