Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Solución de problemas de AWS ParallelCluster
LaAWS ParallelClusterla comunidad mantiene una página wiki que ofrece muchos consejos de solución de problemas en elAWS ParallelCluster GitHub Wiki
Temas
- Recuperación y conservación de registros
- Solución de problemas de implementación de pilas
- Solución de problemas en clústeres de varios modos de cola
- Solución de problemas en clústeres en modo de cola única
- Problemas de lanzamiento de instancias y grupos de ubicación
- Directorios que no se pueden reemplazar
- Solución de problemas de NICE DCV
- Solución de problemas de clústeres deAWS Batchintegración
- Solución de problemas cuando un recurso no se puede crear
- Solución de problemas en el tamaño de las políticas
- Soporte adicional
Recuperación y conservación de registros
Los registros son un recurso útil para solucionar problemas. Antes de poder usar los registros para solucionar problemas en suAWS ParallelClusterrecursos, primero debe crear un archivo de registros del clúster. Siga los pasos descritos en laCrear un archivo de los registros de un clúster
Si uno de sus clústeres en ejecución tiene problemas, debe colocarlo en unSTOPPED
estado ejecutando elpcluster stop
<
comando antes de empezar a solucionar problemas. Esto evita incurrir en gastos inesperados.cluster_name
>
Sipcluster
deja de funcionar o si desea eliminar un clúster sin dejar de conservar sus registros, ejecute elpcluster delete —keep-logs
<
comando. Al ejecutar este comando se elimina el clúster, pero se conserva el grupo de registros que está almacenado en Amazon CloudWatch. Para obtener más información acerca de este comando, consulte lapcluster delete.cluster_name
>
Solución de problemas de implementación de pilas
Si el clúster no se crea y se anula la creación de pilas, puede consultar los siguientes archivos de registro para diagnosticar el problema. Desea buscar la salida deROLLBACK_IN_PROGRESS
en estos registros. El mensaje de error debe ser similar al siguiente:
$
pcluster create mycluster
Creating stack named: parallelcluster-mycluster Status: parallelcluster-mycluster - ROLLBACK_IN_PROGRESS Cluster creation failed. Failed events: - AWS::EC2::Instance MasterServer Received FAILURE signal with UniqueId i-07af1cb218dd6a081
Para diagnosticar el problema, vuelva a crear el clúster conpcluster create, incluida la--norollback
bandera. A continuación, utilice SSH en el clúster:
$
pcluster create mycluster --norollback
...$
pcluster ssh mycluster
Una vez que hayas iniciado sesión en el nodo principal, encontrarás tres archivos de registro principales que puedes usar para identificar el error.
-
/var/log/cfn-init.log
es el registro delcfn-init
script. Primero revise este registro. Es probable que veas un error comoCommand chef failed
en este registro. Consulte las líneas inmediatamente antes de esta línea para obtener más detalles relacionados con el mensaje de error. Para obtener más información, consultecfn-init. -
/var/log/cloud-init.log
es el registro decloud-init. Si no ve nada en cfn-init.log
y, a continuación, intente comprobar este registro. -
/var/log/cloud-init-output.log
es el resultado de los comandos ejecutados porcloud-init. Esto incluye la salida de cfn-init
. En la mayoría de los casos, no es necesario consultar este registro para solucionar este tipo de problemas.
Solución de problemas en clústeres de varios modos de cola
Esta sección es relevante para los clústeres que se instalaron medianteAWS ParallelClusterversión 2.9.0 y posteriores con laSlurmProgramador de trabajo Para obtener más información acerca del modo de varias colas, consulteModo de cola múltiple.
Temas
Registros clave
La tabla siguiente ofrece información general de los registros clave del nodo director:
/var/log/cfn-init.log
-
Este es elAWS CloudFormationRegistro de inicio. Contiene todos los comandos que se ejecutaron al configurar una instancia. Es útil para solucionar problemas de inicialización.
/var/log/chef-client.log
-
Este es el registro de clientes de Chef. Contiene todos los comandos que se ejecutaron a través de Chef/cinc. Es útil para solucionar problemas de inicialización.
/var/log/parallelcluster/slurm_resume.log
-
Este es un
ResumeProgram
registro. Lanza instancias para nodos dinámicos y es útil para solucionar problemas de lanzamiento de nodos dinámicos. /var/log/parallelcluster/slurm_suspend.log
-
Este es el
SuspendProgram
registro. Se llama cuando se terminan las instancias de los nodos dinámicos y es útil para solucionar problemas de terminación de nodos dinámicos. Cuando consultes este registro, también deberías comprobar elclustermgtd
registro. /var/log/parallelcluster/clustermgtd
-
Este es el
clustermgtd
registro. Se ejecuta como el demonio centralizado que administra la mayoría de las acciones de operación del clúster. Es útil para solucionar cualquier problema de lanzamiento, finalización o funcionamiento del clúster. /var/log/slurmctld.log
-
Este es elSlurmcontrolar el registro del demonio.AWS ParallelClusterno toma decisiones de escalado. Más bien, solo intenta lanzar recursos para satisfacer laSlurmrequisitos. Es útil para problemas de escalado y asignación, problemas relacionados con el trabajo y cualquier problema de inicio y finalización relacionado con el programador.
Estas son las notas clave para los nodos de cómputo:
/var/log/cloud-init-output.log
-
Este es elcloud-init
registro. Contiene todos los comandos que se ejecutaron al configurar una instancia. Es útil para solucionar problemas de inicialización. /var/log/parallelcluster/computemgtd
-
Este es el
computemgtd
registro. Se ejecuta en cada nodo de cómputo para supervisar el nodo en el raro caso de queclustermgtd
el daemon del nodo director está fuera de línea. Es útil para solucionar problemas de terminación inesperados. /var/log/slurmd.log
-
Este es elSlurmcalcule el registro del demonio. Es útil para solucionar problemas relacionados con la inicialización y los fallos informáticos.
Solución de problemas de inicialización de nodos
En esta sección se explica cómo solucionar problemas de inicialización de nodos. Esto incluye problemas en los que el nodo no puede iniciar, encender o unirse a un clúster.
Ndule
Registros aplicables:
-
/var/log/cfn-init.log
-
/var/log/chef-client.log
-
/var/log/parallelcluster/clustermgtd
-
/var/log/parallelcluster/slurm_resume.log
-
/var/log/slurmctld.log
Compruebe la propiedad de/var/log/cfn-init.log
y/var/log/chef-client.log
registros. Estos registros deben contener todas las acciones que se ejecutaron cuando se configuró el nodo principal. La mayoría de los errores que se producen durante la configuración deben tener un mensaje de error ubicado en/var/log/chef-client.log
registro. Si se especifican scripts de preinstalación o posinstalación en la configuración del clúster, compruebe que el script se ejecuta correctamente a través de los mensajes de registro.
Cuando se crea un clúster, el nodo principal debe esperar a que los nodos de cómputo se unan al clúster antes de poder unirse al clúster. Por lo tanto, si los nodos de computación no se unen al clúster, el nodo director también falla. Para solucionar este tipo de problemas, puede seguir uno de estos procedimientos, en función del tipo de notas informáticas que utilice:
Nodos de computación dinámicos:
-
Buscar en el
ResumeProgram
registro (/var/log/parallelcluster/slurm_resume.log
) para el nombre del nodo de computación para ver siResumeProgram
alguna vez se le llamó con el nodo. (SiResumeProgram
nunca se ha llamado, puede comprobar laslurmctld
registro (/var/log/slurmctld.log
) para determinar siSlurmalguna vez traté de llamarResumeProgram
con el nodo.) -
Tenga en cuenta que los permisos para
ResumeProgram
podría causarResumeProgram
fallar silenciosamente. Si utiliza una AMI personalizada con modificaciones deResumeProgram
configuración, compruebe que elResumeProgram
es propiedad deslurm
usuario y tiene el744
(rwxr--r--
) permiso. -
Si
ResumeProgram
se llama, compruebe si se ha lanzado una instancia para el nodo. Si no se lanzó ninguna instancia, debería poder ver un mensaje de error que describa el error de lanzamiento. -
Si se lanza la instancia, es posible que se haya producido un problema durante el proceso de configuración. Deberías ver la dirección IP privada y el ID de instancia correspondientes en el
ResumeProgram
registro. Además, puede consultar los registros de configuración correspondientes para la instancia específica. Para obtener más información acerca de resolución de problemas de configuración de un nodo de computación, consulte la siguiente sección.
Nodos de computación estáticos:
-
Compruebe la propiedad de
clustermgtd
(/var/log/parallelcluster/clustermgtd
) para ver si se lanzaron instancias para el nodo. Si no se han lanzado, debería aparecer un mensaje de error claro que detalle el error de lanzamiento. -
Si se lanza la instancia, hay algún problema durante el proceso de configuración. Deberías ver la dirección IP privada y el ID de instancia correspondientes en el
ResumeProgram
registro. Además, puede consultar los registros de configuración correspondientes para la instancia específica.
-
Nodos de computación:
-
Registros aplicables:
-
/var/log/cloud-init-output.log
-
/var/log/slurmd.log
-
-
Si se lanza el nodo de cómputo, compruebe primero
/var/log/cloud-init-output.log
, que debe contener los registros de configuración similares a los/var/log/chef-client.log
inicie sesión en el nodo director. La mayoría de los errores que se producen durante la configuración deben tener mensajes de error ubicados en/var/log/cloud-init-output.log
registro. Si se especifican los scripts de preinstalación o posinstalación en la configuración del clúster, compruebe que se ejecutaron correctamente. -
Si utiliza una AMI personalizada con modificaciones deSlurmconfiguración, entonces podría haber unaSlurmerror relacionado que impide que el nodo de cómputo se una al clúster. Para ver los errores relacionados con el planificador, consulte la
/var/log/slurmd.log
registro.
-
Solución de problemas de reemplazos y terminaciones de nodos inesper
En esta sección se continúa explorando cómo solucionar problemas relacionados con los nodos, específicamente cuando un nodo se reemplaza o se cierra de forma inesperada.
-
Registros aplicables:
-
/var/log/parallelcluster/clustermgtd
(nodo principal) -
/var/log/slurmctld.log
(nodo principal) -
/var/log/parallelcluster/computemgtd
(nodo de cómputo)
-
-
Nodos reemplazados o terminados inesperadamente
-
Compruebe en la propiedad de
clustermgtd
registro (/var/log/parallelcluster/clustermgtd
) para ver siclustermgtd
tomó la acción de reemplazar o terminar un nodo. Tenga en cuenta queclustermgtd
gestiona todas las acciones normales de mantenimiento del nodo. -
Si
clustermgtd
reemplazó o finalizó el nodo, debe haber un mensaje que detalle por qué se realizó esta acción en el nodo. Si el motivo está relacionado con el programador (por ejemplo, porque el nodo está enDOWN
), registrarseslurmctld
inicie sesión para obtener más información. Si el motivo está relacionado con Amazon EC2, debería haber un mensaje informativo que detalle el problema relacionado con Amazon EC2 que requirió el reemplazo. -
Si
clustermgtd
no finalizó el nodo, compruebe primero si se trataba de una terminación prevista por parte de Amazon EC2, más específicamente, una terminación puntual.computemgtd
, que se ejecuta en un nodo de cómputo, también puede realizar una acción para terminar un nodo siclustermgtd
se determina como insalubre. Comprobarcomputemgtd
registro (/var/log/parallelcluster/computemgtd
) para ver sicomputemgtd
finalizó el nodo.
-
-
Los nodos fallaron
-
Check in
slurmctld
registro (/var/log/slurmctld.log
) para ver por qué falló una tarea o un nodo. Tenga en cuenta que los trabajos se vuelven a poner en cola automáticamente si un nodo falla. -
Si
slurm_resume
informa de que se ha lanzado el nodo yclustermgtd
informa después de varios minutos que no hay ninguna instancia correspondiente en Amazon EC2 para ese nodo, el nodo podría fallar durante la configuración. Para recuperar el registro de un ordenador (/var/log/cloud-init-output.log
), lleve a cabo los siguientes pasos:-
Envía un trabajo para alquilarSlurmactivar un nuevo nodo.
-
Cuando se inicie el nodo, habilite la protección de terminación mediante este comando.
aws ec2 modify-instance-attribute --instance-id i-xyz --disable-api-termination
-
Recupera el resultado de la consola del nodo con este comando.
aws ec2 get-console-output --instance-id i-xyz --output text
-
-
Reemplazar, terminar o apagar instancias y nodos problemáticos
-
Registros aplicables:
-
/var/log/parallelcluster/clustermgtd
(nodo principal) -
/var/log/parallelcluster/slurm_suspend.log
(nodo principal)
-
-
En la mayoría de los casos,
clustermgtd
gestiona todas las acciones de terminación de instancias esperadas. Compruebe en la propiedad declustermgtd
registre para ver por qué no pudo reemplazar o terminar un nodo. -
Para nodos dinámicos que fallanscaledown_idletime, consulte el
SuspendProgram
iniciar sesión para ver siSuspendProgram
fue llamado porslurmctld
con el nodo específico como argumento. Tenga en cuenta queSuspendProgram
en realidad no realiza ninguna acción. Más bien, solo registra cuando se llama. Terminación de todas las instancias yNodeAddr
el restablecimiento se realiza medianteclustermgtd
.Slurmvuelve a colocar los nodos en unPOWER_SAVING
estado despuésSuspendTimeout
automáticamente.
Solución de otros problemas conocidos de nodos y tareas
Otro tipo de problema conocido es queAWS ParallelClusterpodría no asignar puestos de trabajo o tomar decisiones de escalado. Con este tipo de problemas,AWS ParallelClustersolo lanza, termina o mantiene los recursos de acuerdo conSlurminstrucciones. Para estos problemas, consulte laslurmctld
inicie sesión para solucionar estos problemas.
Solución de problemas en clústeres en modo de cola única
A partir de la versión 2.11.5,AWS ParallelClusterno admite el uso deSGEoTorqueProgramadores.
Esta sección se aplica a los clústeres que no tienen el modo de múltiples colas con una de las dos configuraciones siguientes:
-
Lanzado mediante unAWS ParallelClusterversión anterior a 2.9.0 ySGE,Torque, oSlurmProgramadores de trabajo
-
Lanzado usandoAWS ParallelClusterversión 2.9.0 o posterior ySGEoTorqueProgramadores de trabajo
Temas
Registros clave
Los siguientes archivos de registro son los registros clave del nodo principal.
ParaAWS ParallelClusterversión 2.9.0 o posterior:
/var/log/chef-client.log
-
Este es el registro de clientes de CINC (chef). Contiene todos los comandos que se ejecutaron a través de CINC. Es útil para solucionar problemas de inicialización.
Para todasAWS ParallelClusterversiones:
/var/log/cfn-init.log
-
Este es el
cfn-init
registro. Contiene todos los comandos que se ejecutaron al configurar una instancia y, por lo tanto, es útil para solucionar problemas de inicialización. Para obtener más información, consultecfn-init. /var/log/clustermgtd.log
-
Este es el
clustermgtd
iniciar sesión paraSlurmProgramadores.clustermgtd
se ejecuta como el demonio centralizado que administra la mayoría de las acciones de operación del clúster. Es útil para solucionar cualquier problema de lanzamiento, finalización o funcionamiento del clúster. /var/log/jobwatcher
-
Este es el
jobwatcher
iniciar sesión paraSGEyTorqueProgramadores.jobwatcher
supervisa la cola del planificador y actualiza el grupo de Auto Scaling. Es útil para solucionar problemas relacionados con la ampliación de nodos. /var/log/sqswatcher
-
Este es el
sqswatcher
iniciar sesión paraSGEyTorqueProgramadores.sqswatcher
procesa el evento instance ready enviado por una instancia de cómputo después de una inicialización correcta. También agrega nodos de cómputo a la configuración del programador. Este registro es útil para solucionar los motivos por los que uno o varios nodos no pudieron unirse a un clúster.
Los siguientes son los registros clave de los nodos de cómputo.
AWS ParallelClusterversión 2.9.0 o posterior
/var/log/cloud-init-output.log
-
Este es el registro de inicio de Cloud. Contiene todos los comandos que se ejecutaron al configurar una instancia. Es útil para solucionar problemas de inicialización.
AWS ParallelClusterversiones anteriores a 2.9.0
/var/log/cfn-init.log
-
Este es el CloudFormation Registro de inicio. Contiene todos los comandos que se ejecutaron al configurar una instancia. Es útil para solucionar problemas de inicialización
Todas las versiones
/var/log/nodewatcher
-
Este es el
nodewatcher
registro.nodewatcher
demonios que se ejecutan en cada nodo de cómputo cuando se usaSGEyTorqueProgramadores. Reducen la escala de un nodo si está inactivo. Este registro es útil para cualquier problema relacionado con la reducción de recursos.
Solución de problemas de operaciones de inicio y unión
-
Registros aplicables:
-
/var/log/cfn-init-cmd.log
(nodo principal y nodo de cómputo) -
/var/log/sqswatcher
(nodo principal)
-
-
Si los nodos no se pueden iniciar, compruebe el
/var/log/cfn-init-cmd.log
registre para ver el mensaje de error específico. En la mayoría de los casos, los errores de inicio de nodos se deben a un error de configuración. -
Si los nodos de procesamiento no pudieron unirse a la configuración del programador a pesar de que la configuración se realizó correctamente,
/var/log/sqswatcher
iniciar sesión para ver sisqswatcher
procesó el evento. Estos problemas en la mayoría de los casos se deben asqswatcher
no procesó el evento.
Solución de problemas de escal
-
Registros aplicables:
-
/var/log/jobwatcher
(nodo principal) -
/var/log/nodewatcher
(nodo de cómputo)
-
-
Problemas de escalado: Para el nodo principal, compruebe la
/var/log/jobwatcher
inicie sesión para ver si eljobwatcher
daemon calculó el número correcto de nodos requeridos y actualizó el grupo de Auto Scaling. Tenga en cuenta quejobwatcher
supervisa la cola del planificador y actualiza el grupo de Auto Scaling. -
Problemas de reducción vertical: Para los nodos de procesamiento, compruebe la
/var/log/nodewatcher
inicie sesión en el nodo problemático para ver por qué se redujo la escala del nodo. Tenga en cuenta quenodewatcher
los demonios reducen la escala de un nodo de cómputo si está inactivo.
Solución de otros problemas relacionados con el clúster
Un problema conocido es que las notas de cálculo aleatorias fallan en clústeres a gran escala, específicamente en aquellos con 500 o más nodos de procesamiento. Este problema está relacionado con una limitación de la arquitectura de escalado del clúster de cola única. Si desea utilizar un clúster a gran escala, está utilizandoAWS ParallelClusterversión v2.9.0 o posterior, utilizanSlurmy para evitar este problema, debe actualizar y cambiar a un clúster compatible con el modo de múltiples colas. Puede hacerlo corriendopcluster-config convert.
Para los clústeres de gran escala, es posible que sea necesario realizar ajustes adicionales en el sistema. Para obtener más información, contacteAWS Support.
Problemas de lanzamiento de instancias y grupos de ubicación
Para obtener la latencia entre nodos más baja, utilice ungrupo de ubicación. Un grupo de ubicación garantiza que las instancias estén en la misma red troncal. Si no hay suficientes instancias disponibles cuando se hace una solicitud, unInsufficientInstanceCapacity
se devuelve un error. Para reducir la posibilidad de recibir este error al utilizar grupos de ubicación de clústeres, defina laplacement_groupparámetro deDYNAMIC
y establecer la propiedad deplacementparámetro decompute
.
Si necesita un sistema de archivos compartido de alto rendimiento, considere usarFSx for Lustre
Si el nodo principal debe estar en el grupo de ubicación, utilice el mismo tipo de instancia y subred tanto para el nodo principal como para todos los nodos de procesamiento. Al hacer esto, elcompute_instance_typeel parámetro tiene el mismo valor que elmaster_instance_typeparámetro, la propiedad deplacementel parámetro de se establece encluster
, y elcompute_subnet_idno se ha especificado el parámetro. Con esta configuración, el valor delmaster_subnet_idel parámetro se usa para los nodos de cómputo.
Para obtener más información, consulteSolución de problemas de lanzamiento de instanciasyLa colocación agrupa, funciones y limitacionesen elGuía del usuario de Amazon EC2 para instancias de Linux
Directorios que no se pueden reemplazar
Los siguientes directorios se comparten entre los nodos y no se pueden reemplazar.
/home
-
Esto incluye la carpeta de inicio del usuario predeterminada (
/home/ec2_user
en Amazon Linux,/home/centos
enCentOS, y/home/ubuntu
enUbuntu). /opt/intel
-
Esto incluye Intel MPI, Intel Parallel Studio y archivos relacionados.
/opt/sge
-
nota A partir de la versión 2.11.5,AWS ParallelClusterno admite el uso deSGEoTorqueProgramadores.
Esto incluye Son of Grid Engine y archivos relacionados. (Condicional, solo si scheduler
= sge
). /opt/slurm
-
Esto incluye Slurm Workload Manager y archivos relacionados. (Condicional, solo si scheduler
= slurm
). /opt/torque
-
nota A partir de la versión 2.11.5,AWS ParallelClusterno admite el uso deSGEoTorqueProgramadores.
Esto incluye Torque Resource Manager y archivos relacionados. (Condicional, solo si scheduler
= torque
).
Solución de problemas de NICE DCV
Registros de NICE DCV
Los registros de NICE DCV se escriben en archivos del/var/log/dcv/
directorio. La revisión de estos registros puede ayudar a solucionar problemas.
Memoria de tipo NICE DCV
El tipo de instancia debe tener al menos 1,7 gibibyte (GiB) de RAM para ejecutar NICE DCV.Nanoymicrolos tipos de instancias no tienen memoria suficiente para ejecutar NICE DCV.
Problemas de Ubuntu NICE DCV
Al ejecutar Gnome Terminal en una sesión de DCV en Ubuntu, es posible que no tengas acceso automáticamente al entorno de usuario queAWS ParallelClusterestá disponible a través del shell de inicio de sesión. El entorno de usuario proporciona módulos de entorno como openmpi o intelmpi, y otras configuraciones de usuario.
La configuración predeterminada de Gnome Terminal impide que el shell comience como un shell de inicio de sesión. Esto significa que los perfiles de shell no se obtienen automáticamente y queAWS ParallelClusterel entorno de usuario no está cargado.
Para obtener correctamente el perfil de shell y acceder alAWS ParallelClusterentorno de usuario, lleve a cabo una de las siguientes operaciones:
-
Cambie la configuración predeterminada del terminal:
-
Elige elEditarmenú en la terminal de Gnome.
-
SelectPreferencias, entoncesPerfiles.
-
ElegirComandoy selectEjecute el comando como shell de inicio.
-
Abra un nuevo terminal.
-
-
Utilice la línea de comandos para obtener los perfiles disponibles:
$
source /etc/profile && source $HOME/.bashrc
Solución de problemas de clústeres deAWS Batchintegración
Esta sección es relevante para los clústeres conAWS Batchintegración de programadores.
Problemas del nodo
Los problemas de configuración relacionados con el nodo principal se pueden solucionar de la misma manera que el clúster de cola única. Para obtener más información acerca de estos problemas, consulteSolución de problemas en clústeres en modo de cola única.
AWS Batchproblemas de envío de trabajos parallel de varios nodos
Si tiene problemas para enviar trabajos parallel de varios nodos de al utilizarAWS Batchcomo programador de tareas, debes actualizar aAWS ParallelClusterversión 2.5.0. Si eso no es posible, puede utilizar la solución alternativa que se detalla en el tema: Aplique un parche automático a un clúster utilizado para enviar trabajos parallel de varios nodos a través deAWS Batch
Problemas de computación
AWS Batchgestiona los aspectos de escalado y procesamiento de sus servicios. Si tiene problemas relacionados con la informática, consulte laAWS Batch solución de problemasdocumentación de ayuda.
Fallos de Job
Si se produce un error en un trabajo, puede ejecutar elawsbout
comando para recuperar el resultado del trabajo. También puede ejecutar laawsbstat -d
comando para obtener un enlace a los registros de trabajos almacenados por Amazon CloudWatch.
Solución de problemas cuando un recurso no se puede crear
Esta sección es relevante para los recursos del clúster cuando no se pueden crear.
Cuando un recurso no se puede crear, ParallelCluster devuelve un mensaje de error similar al siguiente.
pcluster create -c config
my-cluster
Beginning cluster creation for cluster: my-cluster WARNING: The instance type 'p4d.24xlarge' cannot take public IPs. Please make sure that the subnet with id 'subnet-1234567890abcdef0' has the proper routing configuration to allow private IPs reaching the Internet (e.g. a NAT Gateway and a valid route table). WARNING: The instance type 'p4d.24xlarge' cannot take public IPs. Please make sure that the subnet with id 'subnet-1234567890abcdef0' has the proper routing configuration to allow private IPs reaching the Internet (e.g. a NAT Gateway and a valid route table). Info: There is a newer version 3.0.3 of AWS ParallelCluster available. Creating stack named: parallelcluster-my-cluster Status: parallelcluster-my-cluster - ROLLBACK_IN_PROGRESS Cluster creation failed. Failed events: - AWS::CloudFormation::Stack MasterServerSubstack Embedded stack arn:aws:cloudformation:region-id:123456789012:stack/parallelcluster-my-cluster-MasterServerSubstack-ABCDEFGHIJKL/a1234567-b321-c765-d432-dcba98766789 was not successfully created: The following resource(s) failed to create: [MasterServer]. - AWS::CloudFormation::Stack parallelcluster-my-cluster-MasterServerSubstack-ABCDEFGHIJKL The following resource(s) failed to create: [MasterServer]. - AWS::EC2::Instance MasterServer You have requested more vCPU capacity than your current vCPU limit of 0 allows for the instance bucket that the specified instance type belongs to. Please visit http://aws.amazon.com/contact-us/ec2-request to request an adjustment to this limit. (Service: AmazonEC2; Status Code: 400; Error Code: VcpuLimitExceeded; Request ID: a9876543-b321-c765-d432-dcba98766789; Proxy: null) }
Por ejemplo, si ves el mensaje de estado que se muestra en la respuesta del comando anterior, debes usar tipos de instancias que no superen el límite actual de vCPU ni solicitar más capacidad de vCPU.
También puede utilizar la CloudFormation consola para ver información sobre"Cluster creation failed"
estado.
Vista de CloudFormation mensajes de error de la consola.
-
Inicie sesión enAWS Management Consoley vaya ahttps://console.aws.amazon.com/cloudformation
. -
Seleccione la pila llamada parallelcluster-
cluster_name
. -
Elige elEventosPestaña.
-
Compruebe la propiedad deEstadopara el recurso que no se pudo crear desplazándose por la lista de eventos del recurso deID lógico. Si no se pudo crear una subtarea, trabaje hacia atrás para encontrar el evento de recurso fallido.
-
Ejemplo de unAWS CloudFormation.
2022-02-07 11:59:14 UTC-0800 MasterServerSubstack CREATE_FAILED Embedded stack arn:aws:cloudformation:region-id:123456789012:stack/parallelcluster-my-cluster-MasterServerSubstack-ABCDEFGHIJKL/a1234567-b321-c765-d432-dcba98766789 was not successfully created: The following resource(s) failed to create: [MasterServer].
Solución de problemas en el tamaño de las políticas
ConsultarIAM yAWS STScuotas, requisitos de nombre y límites de caracterespara comprobar las cuotas de las políticas gestionadas asociadas a los roles. Si el tamaño de una política gestionada supera la cuota, divídala en dos o más políticas. Si supera la cuota de número de políticas asociadas a una función de IAM, cree funciones adicionales y distribuya las políticas entre ellas para cumplir la cuota.
Soporte adicional
Para obtener una lista de problemas conocidos, consulte la página principalGitHubWiki