Solución de problemas de Amazon ECS Anywhere - Amazon Elastic Container Service

Solución de problemas de Amazon ECS Anywhere

Amazon ECS Anywhere admite el registro de una instancia externa, por ejemplo, un servidor ubicado en las instalaciones o una máquina virtual (VM), en el clúster de Amazon ECS. A continuación, se indican problemas comunes que puede encontrar y recomendaciones generales para solucionarlos.

Problemas de registro de instancias externas

Cuando se registra una instancia externa en el clúster de Amazon ECS, se deben cumplir los siguientes requisitos:

  • Se debe recuperar una activación de AWS Systems Manager, que consiste en un ID de activación y un código de activación. Se utiliza para registrar la instancia externa como una instancia administrada por Systems Manager. Cuando se solicita una activación de Systems Manager, especifique un límite de registro y una fecha de vencimiento. El límite de registro especifica el número máximo de instancias que se pueden registrar mediante la activación. El valor predeterminado para el límite de registro es 1 instancia. La fecha de vencimiento especifica cuándo vence la activación. El valor de predeterminado es 24 horas. Si la activación de Systems Manager que está utilizando para registrar su instancia externa no es válida, solicite una nueva. Para obtener más información, consulte Registro de una instancia externa en un clúster de Amazon ECS.

  • Se utiliza una política de IAM para proporcionar a la instancia externa los permisos que necesita para comunicarse con las operaciones de las API de AWS. Si esta política administrada no se crea correctamente y no contiene los permisos requeridos, se produce un error de registro de la instancia externa. Para obtener más información, consulte Rol de IAM de Amazon ECS Anywhere.

  • Amazon ECS proporciona un script de instalación que instala Docker, el agente de contenedor de Amazon ECS y Systems Manager Agent en la instancia externa. Si el script de instalación falla, es probable que no se pueda volver a ejecutar en la misma instancia sin que se produzca un error. Si esto sucede, siga el proceso de limpieza para borrar los recursos de AWS de la instancia y poder ejecutar de nuevo el script de instalación. Para obtener más información, consulte Anulación del registro de una instancia externa de Amazon ECS.

    nota

    Tenga en cuenta que, si el script de instalación solicitó y utilizó correctamente la activación de Systems Manager, la ejecución del script de instalación por segunda vez vuelve a utilizar la activación de Systems Manager. Esto podría, a su vez, hacer que alcance el límite de registros para esa activación. Si se alcanza este límite, debe crear una nueva activación.

  • Al ejecutar el script de instalación en una instancia externa para las cargas de trabajo de GPU, si el controlador NVIDIA no se detecta o configura correctamente, se producirá un error. El script de instalación utiliza el comando nvidia-smi para confirmar la existencia del controlador NVIDIA.

Problemas de red de instancias externas

Para comunicar cualquier cambio, la instancia externa requiere una conexión de red a AWS. Si su instancia externa pierde la conexión de red a AWS, las tareas que se están ejecutando en las instancias continúan haciéndolo de todos modos, a menos que se detengan manualmente. Una vez que se restablece la conexión con AWS, las credenciales de AWS que utilizan el agente de contenedor de Amazon ECS y Systems Manager Agent en la instancia externa se renuevan automáticamente. Para obtener más información acerca de los dominio de AWS que se utilizan para la comunicación entre la instancia externa y AWS, consulte Red .

Problemas al ejecutar tareas en la instancia externa

Las causas más comunes de que las tareas o los contenedores no se ejecutan en la instancia externa son la red o los permisos relacionados. Si los contenedores extraen las imágenes de Amazon ECR o están configurados para enviar registros de contenedores a CloudWatch Logs, la definición de tareas debe especificar un rol de IAM de ejecución de tareas válido. Sin un rol de IAM de ejecución de tareas válido, los contenedores no se iniciarán. Para obtener más información acerca de los problemas relacionados con la red, consulte Problemas de red de instancias externas.

importante

Amazon ECS proporciona la herramienta de recopilación de registros de Amazon ECS. Puede utilizarla para recopilar registros de las instancias externas para fines de resolución de problemas. Para obtener más información, consulte Recopilación de registros de contenedor con el recopilador de registros de Amazon ECS .