Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Parcheo de AMI y reemplazo de instancias de EC2
Para garantizar que todos los nodos de procesamiento del clúster lanzados dinámicamente se comporten de manera coherente,AWS ParallelCluster desactiva las actualizaciones automáticas del sistema operativo de las instancias del clúster. Además, se crea un conjunto específico deAWS ParallelCluster AMI para cada versiónAWS ParallelCluster y su CLI asociada. Este conjunto específico de AMI permanece sin cambios y solo son compatibles con laAWS ParallelCluster versión para la que se crearon. AWS ParallelCluster Las AMI de las versiones publicadas no se actualizan.
Sin embargo, debido a problemas de seguridad emergentes, es posible que los clientes deseen añadir parches a estas AMI y, a continuación, actualizar sus clústeres con la AMI parcheada. Esto se alinea con el modelo de responsabilidadAWS ParallelCluster compartida.
Para ver el conjunto específico deAWS ParallelCluster AMI que admite la versión deAWS ParallelCluster CLI que está utilizando actualmente, ejecute:
$
pcluster version
$
pcluster list-official-images
El nodoAWS ParallelCluster principal es una instancia estática y puede actualizarlo manualmente para usar una AMI parcheada o unaAWS ParallelCluster AMI diferente para la versión actual. El reinicio y el reinicio del nodo principal son totalmente compatibles a partir deAWS ParallelCluster la versión 3.0.0.
Si tus instancias tienen almacenes de instancias efímeros, recuerda guardar los datos del almacén de instancias antes de realizar las actualizaciones manuales. Para obtener más información, consulte la configuración del EphemeralVolumeclúster HeadNodeLocalStorage//y los tipos de instancias con volúmenes de almacén de instancias en la Guía del usuario de Amazon EC2 para instancias de Linux.
Los nodos de procesamiento son instancias efímeras. De forma predeterminada, solo puede acceder a ellos desde el nodo principal. A partir de laAWS ParallelCluster versión 3.0.0, puede actualizar la AMI asociada a las instancias de procesamiento modificando el CustomAmiparámetro SchedulingSlurmQueues/Image//y ejecutando elpcluster update-cluster comando, después de detener la flota de procesamiento conpcluster update-compute-fleet:
$
pcluster update-compute-fleet-status --status STOP_REQUESTED
Es posible automatizar la creación de una AMI personalizada actualizada para los nodos de procesamiento mediante uno de los siguientes métodos:
-
Utilice elpcluster build-image comando con una compilación/actualizada ParentImage.
-
Ejecute la compilación con Build/UpdateOsPackages/Enabled:
true
.
Actualización o reemplazo de la instancia del nodo principal
En algunas circunstancias, es posible que deba reiniciar o reiniciar el nodo principal. Por ejemplo, esto es obligatorio cuando se actualiza manualmente el sistema operativo o cuando hay una retirada programada de laAWS instancia que impone el reinicio de la instancia del nodo principal.
Si la instancia no tiene unidades de, puede Detene e e e e e e e e e e e e e e e e e e e e e e e e e e e e e e e e e En el caso de una retirada programada, al iniciar la instancia detenida, se migra para utilizar el nuevo hardware.
Del mismo modo, puedes detener e iniciar manualmente una instancia que no tenga almacenes de instancias. Para este caso y para otros casos de instancias sin volúmenes efímeros, continúe conDDDDDDetene e e e e e e e e e.
Si la instancia tiene unidades de, e e e e e e e e e e e e e e e e e e e e e e e e e e e e e e e e e e e e e e Puedes determinar si el tipo de instancia utilizado para el nodo principal contiene almacenes de instancias a partir de la tabla que se encuentra en los volúmenes de almacenes de instancias.
Guarde datos de unidades efímeras
A partir de laAWS ParallelCluster versión 3.0.0, el reinicio y el reinicio del nodo principal son totalmente compatibles con todos los tipos de instancias. Sin embargo, si las instancias tienen una unidad efímera, sus datos se pierden. Siga los siguientes pasos para conservar los datos antes de reiniciar o reiniciar el nodo principal.
Para comprobar si tiene datos que deben conservarse, consulte el contenido de la MountDircarpeta EphemeralVolume/(de forma/scratch
predeterminada).
Puede transferir los datos al volumen raíz o a los sistemas de almacenamiento compartido conectados al clúster, como Amazon FSx, Amazon EFS o Amazon EBS. Tenga en cuenta que la transferencia de datos al almacenamiento remoto puede generar costes adicionales.
Después de guardar los datos, continúe conDDDDDDetene e e e e e e e e e.
DDDDDDetene e e e e e e e e e
-
Compruebe que no haya ningún trabajo en ejecución en el clúster.
Cuando utilices unSlurm planificador:
-
Si no se especifica la
sbatch
--no-requeue
opción, se ponen en cola los trabajos en ejecución. -
Si se especifica la
--no-requeue
opción, se produce un error en ejecución.
-
-
Solicite una parada de la flota de cómputos en clúster:
$
pcluster update-compute-fleet --cluster-name
cluster-name
--status STOP_REQUESTED{ "status": "STOP_REQUESTED", ... }
-
Espere hasta que el estado de la flota de cómputos sea
STOPPED
:$
pcluster update-compute-fleet --cluster-name
cluster-name
--status STOP_REQUESTED{ "status": "STOPPED", ... }
-
Para las actualizaciones manuales con un reinicio del sistema operativo o un reinicio de instancia, puede utilizarAWS Management Console oAWS CLI. El siguiente es un ejemplo del uso deAWS CLI.
# Retrieve head node instance id
$
pcluster describe-cluster --cluster-name
cluster-name
--status STOP_REQUESTED{ "headNode": { "instanceId": "i-1234567890abcdef0", ... }, ... }
# stop and start the instance$
aws ec2 stop-instances --instance-ids
1234567890abcdef0
{ "StoppingInstances": [ { "CurrentState": { "Name": "stopping" ... }, "InstanceId": "i-1234567890abcdef0", "PreviousState": { "Name": "running" ... } } ] }
$
aws ec2 start-instances --instance-ids
1234567890abcdef0
{ "StartingInstances": [ { "CurrentState": { "Name": "pending" ... }, "InstanceId": "i-1234567890abcdef0", "PreviousState": { "Name": "stopped" ... } } ] }
-
Inicie la flota de cómputos del clúster:
$
pcluster update-compute-fleet --cluster-name
cluster-name
--status START_REQUESTED{ "status": "START_REQUESTED", ... }