Solución de problemas de AWS ParallelCluster - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solución de problemas de AWS ParallelCluster

LaAWS ParallelClusterla comunidad mantiene una página wiki que ofrece muchos consejos de solución de problemas en elAWS ParallelCluster GitHub Wiki. Para obtener una lista de problemas conocidos, consulteProblemas conocidos.

Recuperación y conservación de registros

Los registros son un recurso útil para solucionar problemas. Antes de poder usar los registros para solucionar problemas en suAWS ParallelClusterrecursos, primero debe crear un archivo de registros del clúster. Siga los pasos descritos en laCrear un archivo de los registros de un clústertema delAWS ParallelCluster GitHub Wikipara iniciar este proceso.

Si uno de sus clústeres en ejecución tiene problemas, debe colocarlo en unSTOPPEDestado ejecutando elpcluster stop <cluster_name>comando antes de empezar a solucionar problemas. Esto evita incurrir en gastos inesperados.

Sipclusterdeja de funcionar o si desea eliminar un clúster sin dejar de conservar sus registros, ejecute elpcluster delete —keep-logs <cluster_name>comando. Al ejecutar este comando se elimina el clúster, pero se conserva el grupo de registros que está almacenado en Amazon CloudWatch. Para obtener más información acerca de este comando, consulte lapcluster delete.

Solución de problemas de implementación de pilas

Si el clúster no se crea y se anula la creación de pilas, puede consultar los siguientes archivos de registro para diagnosticar el problema. Desea buscar la salida deROLLBACK_IN_PROGRESSen estos registros. El mensaje de error debe ser similar al siguiente:

$ pcluster create mycluster Creating stack named: parallelcluster-mycluster Status: parallelcluster-mycluster - ROLLBACK_IN_PROGRESS Cluster creation failed. Failed events: - AWS::EC2::Instance MasterServer Received FAILURE signal with UniqueId i-07af1cb218dd6a081

Para diagnosticar el problema, vuelva a crear el clúster conpcluster create, incluida la--norollbackbandera. A continuación, utilice SSH en el clúster:

$ pcluster create mycluster --norollback ... $ pcluster ssh mycluster

Una vez que hayas iniciado sesión en el nodo principal, encontrarás tres archivos de registro principales que puedes usar para identificar el error.

  • /var/log/cfn-init.loges el registro delcfn-initscript. Primero revise este registro. Es probable que veas un error comoCommand chef faileden este registro. Consulte las líneas inmediatamente antes de esta línea para obtener más detalles relacionados con el mensaje de error. Para obtener más información, consultecfn-init.

  • /var/log/cloud-init.loges el registro decloud-init. Si no ve nada encfn-init.logy, a continuación, intente comprobar este registro.

  • /var/log/cloud-init-output.loges el resultado de los comandos ejecutados porcloud-init. Esto incluye la salida decfn-init. En la mayoría de los casos, no es necesario consultar este registro para solucionar este tipo de problemas.

Solución de problemas en clústeres de varios modos de cola

Esta sección es relevante para los clústeres que se instalaron medianteAWS ParallelClusterversión 2.9.0 y posteriores con laSlurmProgramador de trabajo Para obtener más información acerca del modo de varias colas, consulteModo de cola múltiple.

Registros clave

La tabla siguiente ofrece información general de los registros clave del nodo director:

/var/log/cfn-init.log

Este es elAWS CloudFormationRegistro de inicio. Contiene todos los comandos que se ejecutaron al configurar una instancia. Es útil para solucionar problemas de inicialización.

/var/log/chef-client.log

Este es el registro de clientes de Chef. Contiene todos los comandos que se ejecutaron a través de Chef/cinc. Es útil para solucionar problemas de inicialización.

/var/log/parallelcluster/slurm_resume.log

Este es unResumeProgramregistro. Lanza instancias para nodos dinámicos y es útil para solucionar problemas de lanzamiento de nodos dinámicos.

/var/log/parallelcluster/slurm_suspend.log

Este es elSuspendProgramregistro. Se llama cuando se terminan las instancias de los nodos dinámicos y es útil para solucionar problemas de terminación de nodos dinámicos. Cuando consultes este registro, también deberías comprobar elclustermgtdregistro.

/var/log/parallelcluster/clustermgtd

Este es elclustermgtdregistro. Se ejecuta como el demonio centralizado que administra la mayoría de las acciones de operación del clúster. Es útil para solucionar cualquier problema de lanzamiento, finalización o funcionamiento del clúster.

/var/log/slurmctld.log

Este es elSlurmcontrolar el registro del demonio.AWS ParallelClusterno toma decisiones de escalado. Más bien, solo intenta lanzar recursos para satisfacer laSlurmrequisitos. Es útil para problemas de escalado y asignación, problemas relacionados con el trabajo y cualquier problema de inicio y finalización relacionado con el programador.

Estas son las notas clave para los nodos de cómputo:

/var/log/cloud-init-output.log

Este es elcloud-initregistro. Contiene todos los comandos que se ejecutaron al configurar una instancia. Es útil para solucionar problemas de inicialización.

/var/log/parallelcluster/computemgtd

Este es elcomputemgtdregistro. Se ejecuta en cada nodo de cómputo para supervisar el nodo en el raro caso de queclustermgtdel daemon del nodo director está fuera de línea. Es útil para solucionar problemas de terminación inesperados.

/var/log/slurmd.log

Este es elSlurmcalcule el registro del demonio. Es útil para solucionar problemas relacionados con la inicialización y los fallos informáticos.

Solución de problemas de inicialización de nodos

En esta sección se explica cómo solucionar problemas de inicialización de nodos. Esto incluye problemas en los que el nodo no puede iniciar, encender o unirse a un clúster.

Ndule

Registros aplicables:

  • /var/log/cfn-init.log

  • /var/log/chef-client.log

  • /var/log/parallelcluster/clustermgtd

  • /var/log/parallelcluster/slurm_resume.log

  • /var/log/slurmctld.log

Compruebe la propiedad de/var/log/cfn-init.logy/var/log/chef-client.logregistros. Estos registros deben contener todas las acciones que se ejecutaron cuando se configuró el nodo principal. La mayoría de los errores que se producen durante la configuración deben tener un mensaje de error ubicado en/var/log/chef-client.logregistro. Si se especifican scripts de preinstalación o posinstalación en la configuración del clúster, compruebe que el script se ejecuta correctamente a través de los mensajes de registro.

Cuando se crea un clúster, el nodo principal debe esperar a que los nodos de cómputo se unan al clúster antes de poder unirse al clúster. Por lo tanto, si los nodos de computación no se unen al clúster, el nodo director también falla. Para solucionar este tipo de problemas, puede seguir uno de estos procedimientos, en función del tipo de notas informáticas que utilice:

Nodos de computación dinámicos:

  • Buscar en elResumeProgramregistro (/var/log/parallelcluster/slurm_resume.log) para el nombre del nodo de computación para ver siResumeProgramalguna vez se le llamó con el nodo. (SiResumeProgramnunca se ha llamado, puede comprobar laslurmctldregistro (/var/log/slurmctld.log) para determinar siSlurmalguna vez traté de llamarResumeProgramcon el nodo.)

  • Tenga en cuenta que los permisos paraResumeProgrampodría causarResumeProgramfallar silenciosamente. Si utiliza una AMI personalizada con modificaciones deResumeProgramconfiguración, compruebe que elResumeProgrames propiedad deslurmusuario y tiene el744(rwxr--r--) permiso.

  • SiResumeProgramse llama, compruebe si se ha lanzado una instancia para el nodo. Si no se lanzó ninguna instancia, debería poder ver un mensaje de error que describa el error de lanzamiento.

  • Si se lanza la instancia, es posible que se haya producido un problema durante el proceso de configuración. Deberías ver la dirección IP privada y el ID de instancia correspondientes en elResumeProgramregistro. Además, puede consultar los registros de configuración correspondientes para la instancia específica. Para obtener más información acerca de resolución de problemas de configuración de un nodo de computación, consulte la siguiente sección.

Nodos de computación estáticos:

  • Compruebe la propiedad declustermgtd(/var/log/parallelcluster/clustermgtd) para ver si se lanzaron instancias para el nodo. Si no se han lanzado, debería aparecer un mensaje de error claro que detalle el error de lanzamiento.

  • Si se lanza la instancia, hay algún problema durante el proceso de configuración. Deberías ver la dirección IP privada y el ID de instancia correspondientes en elResumeProgramregistro. Además, puede consultar los registros de configuración correspondientes para la instancia específica.

  • Nodos de computación:

    • Registros aplicables:

      • /var/log/cloud-init-output.log

      • /var/log/slurmd.log

    • Si se lanza el nodo de cómputo, compruebe primero/var/log/cloud-init-output.log, que debe contener los registros de configuración similares a los/var/log/chef-client.loginicie sesión en el nodo director. La mayoría de los errores que se producen durante la configuración deben tener mensajes de error ubicados en/var/log/cloud-init-output.logregistro. Si se especifican los scripts de preinstalación o posinstalación en la configuración del clúster, compruebe que se ejecutaron correctamente.

    • Si utiliza una AMI personalizada con modificaciones deSlurmconfiguración, entonces podría haber unaSlurmerror relacionado que impide que el nodo de cómputo se una al clúster. Para ver los errores relacionados con el planificador, consulte la/var/log/slurmd.logregistro.

Solución de problemas de reemplazos y terminaciones de nodos inesper

En esta sección se continúa explorando cómo solucionar problemas relacionados con los nodos, específicamente cuando un nodo se reemplaza o se cierra de forma inesperada.

  • Registros aplicables:

    • /var/log/parallelcluster/clustermgtd(nodo principal)

    • /var/log/slurmctld.log(nodo principal)

    • /var/log/parallelcluster/computemgtd(nodo de cómputo)

  • Nodos reemplazados o terminados inesperadamente

    • Compruebe en la propiedad declustermgtdregistro (/var/log/parallelcluster/clustermgtd) para ver siclustermgtdtomó la acción de reemplazar o terminar un nodo. Tenga en cuenta queclustermgtdgestiona todas las acciones normales de mantenimiento del nodo.

    • Siclustermgtdreemplazó o finalizó el nodo, debe haber un mensaje que detalle por qué se realizó esta acción en el nodo. Si el motivo está relacionado con el programador (por ejemplo, porque el nodo está enDOWN), registrarseslurmctldinicie sesión para obtener más información. Si el motivo está relacionado con Amazon EC2, debería haber un mensaje informativo que detalle el problema relacionado con Amazon EC2 que requirió el reemplazo.

    • Siclustermgtdno finalizó el nodo, compruebe primero si se trataba de una terminación prevista por parte de Amazon EC2, más específicamente, una terminación puntual.computemgtd, que se ejecuta en un nodo de cómputo, también puede realizar una acción para terminar un nodo siclustermgtdse determina como insalubre. Comprobarcomputemgtdregistro (/var/log/parallelcluster/computemgtd) para ver sicomputemgtdfinalizó el nodo.

  • Los nodos fallaron

    • Check inslurmctldregistro (/var/log/slurmctld.log) para ver por qué falló una tarea o un nodo. Tenga en cuenta que los trabajos se vuelven a poner en cola automáticamente si un nodo falla.

    • Sislurm_resumeinforma de que se ha lanzado el nodo yclustermgtdinforma después de varios minutos que no hay ninguna instancia correspondiente en Amazon EC2 para ese nodo, el nodo podría fallar durante la configuración. Para recuperar el registro de un ordenador (/var/log/cloud-init-output.log), lleve a cabo los siguientes pasos:

      • Envía un trabajo para alquilarSlurmactivar un nuevo nodo.

      • Cuando se inicie el nodo, habilite la protección de terminación mediante este comando.

        aws ec2 modify-instance-attribute --instance-id i-xyz --disable-api-termination
      • Recupera el resultado de la consola del nodo con este comando.

        aws ec2 get-console-output --instance-id i-xyz --output text

Reemplazar, terminar o apagar instancias y nodos problemáticos

  • Registros aplicables:

    • /var/log/parallelcluster/clustermgtd(nodo principal)

    • /var/log/parallelcluster/slurm_suspend.log(nodo principal)

  • En la mayoría de los casos,clustermgtdgestiona todas las acciones de terminación de instancias esperadas. Compruebe en la propiedad declustermgtdregistre para ver por qué no pudo reemplazar o terminar un nodo.

  • Para nodos dinámicos que fallanscaledown_idletime, consulte elSuspendPrograminiciar sesión para ver siSuspendProgramfue llamado porslurmctldcon el nodo específico como argumento. Tenga en cuenta queSuspendProgramen realidad no realiza ninguna acción. Más bien, solo registra cuando se llama. Terminación de todas las instancias yNodeAddrel restablecimiento se realiza medianteclustermgtd.Slurmvuelve a colocar los nodos en unPOWER_SAVINGestado despuésSuspendTimeoutautomáticamente.

Solución de otros problemas conocidos de nodos y tareas

Otro tipo de problema conocido es queAWS ParallelClusterpodría no asignar puestos de trabajo o tomar decisiones de escalado. Con este tipo de problemas,AWS ParallelClustersolo lanza, termina o mantiene los recursos de acuerdo conSlurminstrucciones. Para estos problemas, consulte laslurmctldinicie sesión para solucionar estos problemas.

Solución de problemas en clústeres en modo de cola única

nota

A partir de la versión 2.11.5,AWS ParallelClusterno admite el uso deSGEoTorqueProgramadores.

Esta sección se aplica a los clústeres que no tienen el modo de múltiples colas con una de las dos configuraciones siguientes:

  • Lanzado mediante unAWS ParallelClusterversión anterior a 2.9.0 ySGE,Torque, oSlurmProgramadores de trabajo

  • Lanzado usandoAWS ParallelClusterversión 2.9.0 o posterior ySGEoTorqueProgramadores de trabajo

Registros clave

Los siguientes archivos de registro son los registros clave del nodo principal.

ParaAWS ParallelClusterversión 2.9.0 o posterior:

/var/log/chef-client.log

Este es el registro de clientes de CINC (chef). Contiene todos los comandos que se ejecutaron a través de CINC. Es útil para solucionar problemas de inicialización.

Para todasAWS ParallelClusterversiones:

/var/log/cfn-init.log

Este es elcfn-initregistro. Contiene todos los comandos que se ejecutaron al configurar una instancia y, por lo tanto, es útil para solucionar problemas de inicialización. Para obtener más información, consultecfn-init.

/var/log/clustermgtd.log

Este es elclustermgtdiniciar sesión paraSlurmProgramadores.clustermgtdse ejecuta como el demonio centralizado que administra la mayoría de las acciones de operación del clúster. Es útil para solucionar cualquier problema de lanzamiento, finalización o funcionamiento del clúster.

/var/log/jobwatcher

Este es eljobwatcheriniciar sesión paraSGEyTorqueProgramadores.jobwatchersupervisa la cola del planificador y actualiza el grupo de Auto Scaling. Es útil para solucionar problemas relacionados con la ampliación de nodos.

/var/log/sqswatcher

Este es elsqswatcheriniciar sesión paraSGEyTorqueProgramadores.sqswatcherprocesa el evento instance ready enviado por una instancia de cómputo después de una inicialización correcta. También agrega nodos de cómputo a la configuración del programador. Este registro es útil para solucionar los motivos por los que uno o varios nodos no pudieron unirse a un clúster.

Los siguientes son los registros clave de los nodos de cómputo.

AWS ParallelClusterversión 2.9.0 o posterior

/var/log/cloud-init-output.log

Este es el registro de inicio de Cloud. Contiene todos los comandos que se ejecutaron al configurar una instancia. Es útil para solucionar problemas de inicialización.

AWS ParallelClusterversiones anteriores a 2.9.0

/var/log/cfn-init.log

Este es el CloudFormation Registro de inicio. Contiene todos los comandos que se ejecutaron al configurar una instancia. Es útil para solucionar problemas de inicialización

Todas las versiones

/var/log/nodewatcher

Este es elnodewatcherregistro.nodewatcherdemonios que se ejecutan en cada nodo de cómputo cuando se usaSGEyTorqueProgramadores. Reducen la escala de un nodo si está inactivo. Este registro es útil para cualquier problema relacionado con la reducción de recursos.

Solución de problemas de operaciones de inicio y unión

  • Registros aplicables:

    • /var/log/cfn-init-cmd.log(nodo principal y nodo de cómputo)

    • /var/log/sqswatcher(nodo principal)

  • Si los nodos no se pueden iniciar, compruebe el/var/log/cfn-init-cmd.logregistre para ver el mensaje de error específico. En la mayoría de los casos, los errores de inicio de nodos se deben a un error de configuración.

  • Si los nodos de procesamiento no pudieron unirse a la configuración del programador a pesar de que la configuración se realizó correctamente,/var/log/sqswatcheriniciar sesión para ver sisqswatcherprocesó el evento. Estos problemas en la mayoría de los casos se deben asqswatcherno procesó el evento.

Solución de problemas de escal

  • Registros aplicables:

    • /var/log/jobwatcher(nodo principal)

    • /var/log/nodewatcher(nodo de cómputo)

  • Problemas de escalado: Para el nodo principal, compruebe la/var/log/jobwatcherinicie sesión para ver si eljobwatcherdaemon calculó el número correcto de nodos requeridos y actualizó el grupo de Auto Scaling. Tenga en cuenta quejobwatchersupervisa la cola del planificador y actualiza el grupo de Auto Scaling.

  • Problemas de reducción vertical: Para los nodos de procesamiento, compruebe la/var/log/nodewatcherinicie sesión en el nodo problemático para ver por qué se redujo la escala del nodo. Tenga en cuenta quenodewatcherlos demonios reducen la escala de un nodo de cómputo si está inactivo.

Un problema conocido es que las notas de cálculo aleatorias fallan en clústeres a gran escala, específicamente en aquellos con 500 o más nodos de procesamiento. Este problema está relacionado con una limitación de la arquitectura de escalado del clúster de cola única. Si desea utilizar un clúster a gran escala, está utilizandoAWS ParallelClusterversión v2.9.0 o posterior, utilizanSlurmy para evitar este problema, debe actualizar y cambiar a un clúster compatible con el modo de múltiples colas. Puede hacerlo corriendopcluster-config convert.

Para los clústeres de gran escala, es posible que sea necesario realizar ajustes adicionales en el sistema. Para obtener más información, contacteAWS Support.

Problemas de lanzamiento de instancias y grupos de ubicación

Para obtener la latencia entre nodos más baja, utilice ungrupo de ubicación. Un grupo de ubicación garantiza que las instancias estén en la misma red troncal. Si no hay suficientes instancias disponibles cuando se hace una solicitud, unInsufficientInstanceCapacityse devuelve un error. Para reducir la posibilidad de recibir este error al utilizar grupos de ubicación de clústeres, defina laplacement_groupparámetro deDYNAMICy establecer la propiedad deplacementparámetro decompute.

Si necesita un sistema de archivos compartido de alto rendimiento, considere usarFSx for Lustre.

Si el nodo principal debe estar en el grupo de ubicación, utilice el mismo tipo de instancia y subred tanto para el nodo principal como para todos los nodos de procesamiento. Al hacer esto, elcompute_instance_typeel parámetro tiene el mismo valor que elmaster_instance_typeparámetro, la propiedad deplacementel parámetro de se establece encluster, y elcompute_subnet_idno se ha especificado el parámetro. Con esta configuración, el valor delmaster_subnet_idel parámetro se usa para los nodos de cómputo.

Para obtener más información, consulteSolución de problemas de lanzamiento de instanciasyLa colocación agrupa, funciones y limitacionesen elGuía del usuario de Amazon EC2 para instancias de Linux

Directorios que no se pueden reemplazar

Los siguientes directorios se comparten entre los nodos y no se pueden reemplazar.

/home

Esto incluye la carpeta de inicio del usuario predeterminada (/home/ec2_useren Amazon Linux,/home/centosenCentOS, y/home/ubuntuenUbuntu).

/opt/intel

Esto incluye Intel MPI, Intel Parallel Studio y archivos relacionados.

/opt/sge
nota

A partir de la versión 2.11.5,AWS ParallelClusterno admite el uso deSGEoTorqueProgramadores.

Esto incluye Son of Grid Engine y archivos relacionados. (Condicional, solo si scheduler = sge).

/opt/slurm

Esto incluye Slurm Workload Manager y archivos relacionados. (Condicional, solo si scheduler = slurm).

/opt/torque
nota

A partir de la versión 2.11.5,AWS ParallelClusterno admite el uso deSGEoTorqueProgramadores.

Esto incluye Torque Resource Manager y archivos relacionados. (Condicional, solo si scheduler = torque).

Solución de problemas de NICE DCV

Registros de NICE DCV

Los registros de NICE DCV se escriben en archivos del/var/log/dcv/directorio. La revisión de estos registros puede ayudar a solucionar problemas.

Memoria de tipo NICE DCV

El tipo de instancia debe tener al menos 1,7 gibibyte (GiB) de RAM para ejecutar NICE DCV.Nanoymicrolos tipos de instancias no tienen memoria suficiente para ejecutar NICE DCV.

Problemas de Ubuntu NICE DCV

Al ejecutar Gnome Terminal en una sesión de DCV en Ubuntu, es posible que no tengas acceso automáticamente al entorno de usuario queAWS ParallelClusterestá disponible a través del shell de inicio de sesión. El entorno de usuario proporciona módulos de entorno como openmpi o intelmpi, y otras configuraciones de usuario.

La configuración predeterminada de Gnome Terminal impide que el shell comience como un shell de inicio de sesión. Esto significa que los perfiles de shell no se obtienen automáticamente y queAWS ParallelClusterel entorno de usuario no está cargado.

Para obtener correctamente el perfil de shell y acceder alAWS ParallelClusterentorno de usuario, lleve a cabo una de las siguientes operaciones:

  • Cambie la configuración predeterminada del terminal:
    1. Elige elEditarmenú en la terminal de Gnome.

    2. SelectPreferencias, entoncesPerfiles.

    3. ElegirComandoy selectEjecute el comando como shell de inicio.

    4. Abra un nuevo terminal.

  • Utilice la línea de comandos para obtener los perfiles disponibles:

    $ source /etc/profile && source $HOME/.bashrc

Solución de problemas de clústeres deAWS Batchintegración

Esta sección es relevante para los clústeres conAWS Batchintegración de programadores.

Problemas del nodo

Los problemas de configuración relacionados con el nodo principal se pueden solucionar de la misma manera que el clúster de cola única. Para obtener más información acerca de estos problemas, consulteSolución de problemas en clústeres en modo de cola única.

AWS Batchproblemas de envío de trabajos parallel de varios nodos

Si tiene problemas para enviar trabajos parallel de varios nodos de al utilizarAWS Batchcomo programador de tareas, debes actualizar aAWS ParallelClusterversión 2.5.0. Si eso no es posible, puede utilizar la solución alternativa que se detalla en el tema: Aplique un parche automático a un clúster utilizado para enviar trabajos parallel de varios nodos a través deAWS Batch.

Problemas de computación

AWS Batchgestiona los aspectos de escalado y procesamiento de sus servicios. Si tiene problemas relacionados con la informática, consulte laAWS Batch solución de problemasdocumentación de ayuda.

Fallos de Job

Si se produce un error en un trabajo, puede ejecutar elawsboutcomando para recuperar el resultado del trabajo. También puede ejecutar laawsbstat -dcomando para obtener un enlace a los registros de trabajos almacenados por Amazon CloudWatch.

Solución de problemas cuando un recurso no se puede crear

Esta sección es relevante para los recursos del clúster cuando no se pueden crear.

Cuando un recurso no se puede crear, ParallelCluster devuelve un mensaje de error similar al siguiente.

pcluster create -c config my-cluster Beginning cluster creation for cluster: my-cluster WARNING: The instance type 'p4d.24xlarge' cannot take public IPs. Please make sure that the subnet with id 'subnet-1234567890abcdef0' has the proper routing configuration to allow private IPs reaching the Internet (e.g. a NAT Gateway and a valid route table). WARNING: The instance type 'p4d.24xlarge' cannot take public IPs. Please make sure that the subnet with id 'subnet-1234567890abcdef0' has the proper routing configuration to allow private IPs reaching the Internet (e.g. a NAT Gateway and a valid route table). Info: There is a newer version 3.0.3 of AWS ParallelCluster available. Creating stack named: parallelcluster-my-cluster Status: parallelcluster-my-cluster - ROLLBACK_IN_PROGRESS Cluster creation failed. Failed events: - AWS::CloudFormation::Stack MasterServerSubstack Embedded stack arn:aws:cloudformation:region-id:123456789012:stack/parallelcluster-my-cluster-MasterServerSubstack-ABCDEFGHIJKL/a1234567-b321-c765-d432-dcba98766789 was not successfully created: The following resource(s) failed to create: [MasterServer]. - AWS::CloudFormation::Stack parallelcluster-my-cluster-MasterServerSubstack-ABCDEFGHIJKL The following resource(s) failed to create: [MasterServer]. - AWS::EC2::Instance MasterServer You have requested more vCPU capacity than your current vCPU limit of 0 allows for the instance bucket that the specified instance type belongs to. Please visit http://aws.amazon.com/contact-us/ec2-request to request an adjustment to this limit. (Service: AmazonEC2; Status Code: 400; Error Code: VcpuLimitExceeded; Request ID: a9876543-b321-c765-d432-dcba98766789; Proxy: null) }

Por ejemplo, si ves el mensaje de estado que se muestra en la respuesta del comando anterior, debes usar tipos de instancias que no superen el límite actual de vCPU ni solicitar más capacidad de vCPU.

También puede utilizar la CloudFormation consola para ver información sobre"Cluster creation failed"estado.

Vista de CloudFormation mensajes de error de la consola.

  1. Inicie sesión enAWS Management Consoley vaya ahttps://console.aws.amazon.com/cloudformation.

  2. Seleccione la pila llamada parallelcluster-cluster_name.

  3. Elige elEventosPestaña.

  4. Compruebe la propiedad deEstadopara el recurso que no se pudo crear desplazándose por la lista de eventos del recurso deID lógico. Si no se pudo crear una subtarea, trabaje hacia atrás para encontrar el evento de recurso fallido.

  5. Ejemplo de unAWS CloudFormation.

    2022-02-07 11:59:14 UTC-0800 MasterServerSubstack CREATE_FAILED Embedded stack arn:aws:cloudformation:region-id:123456789012:stack/parallelcluster-my-cluster-MasterServerSubstack-ABCDEFGHIJKL/a1234567-b321-c765-d432-dcba98766789 was not successfully created: The following resource(s) failed to create: [MasterServer].

Solución de problemas en el tamaño de las políticas

ConsultarIAM yAWS STScuotas, requisitos de nombre y límites de caracterespara comprobar las cuotas de las políticas gestionadas asociadas a los roles. Si el tamaño de una política gestionada supera la cuota, divídala en dos o más políticas. Si supera la cuota de número de políticas asociadas a una función de IAM, cree funciones adicionales y distribuya las políticas entre ellas para cumplir la cuota.

Soporte adicional

Para obtener una lista de problemas conocidos, consulte la página principalGitHubWikipágina o laProblemaspágina. Para problemas más urgentes, póngase en contacto conAWS Supporto abrir unnuevo GitHubcuestión.