Prácticas recomendadas

Las siguientes secciones proporcionan las mejores prácticas de uso AWS ParallelCluster, que incluyen alertas de rendimiento de la red y de presupuesto. Si encuentra problemas a pesar de seguir estas prácticas recomendadas, consulte AWS ParallelCluster solución de problemas las posibles soluciones.

Prácticas recomendadas: selección del tipo de instancia del nodo principal

Aunque el nodo principal no ejecuta ningún trabajo, sus funciones y su tamaño son cruciales para el rendimiento general del clúster. Al elegir el tipo de instancia que se utilizará para el nodo principal, tenga en cuenta las siguientes características:

Tamaño del clúster: el nodo principal organiza la lógica de escalado del clúster y es responsable de adjuntar los nuevos nodos al programador. Para escalar y reducir verticalmente un clúster que tenga un gran número de nodos, proporcione al nodo principal capacidad de computación adicional.

Sistemas de archivos compartidos: cuando utilice sistemas de archivos compartidos, elija un tipo de instancia con suficiente ancho de banda de la red y suficiente ancho de banda de Amazon EBS para administrar sus flujos de trabajo. Asegúrese de que el nodo principal pueda exponer suficientes directorios de servidores NFS para el clúster y administrar los artefactos que deben compartirse entre los nodos de computación y el nodo principal.

Prácticas recomendadas: rendimiento de la red

El rendimiento de la red es fundamental para las aplicaciones de computación de alto rendimiento (HPC). Sin un rendimiento de red fiable, estas aplicaciones no pueden funcionar según lo esperado. Para optimizar el rendimiento de la red, tenga en cuenta las siguientes prácticas recomendadas.

Grupo de ubicación: si utiliza Slurm, considere la posibilidad de configurar cada cola de Slurm para que utilice un grupo con ubicación en clúster. Un grupo con ubicación en clúster es una agrupación lógica de instancias en una misma zona de disponibilidad. Para obtener más información, consulta los grupos de ubicación en la Guía del EC2 usuario de Amazon. Puede especificar un PlacementGroup en la sección Networking de la cola; cada recurso de computación se asigna al grupo de ubicación de la cola. Al especificar un PlacementGroup en la sección Networking del recurso de computación, se asigna ese recurso de computación específico a ese grupo de ubicación. La especificación del grupo de ubicación del recurso de computación anula la especificación de la cola del recurso de computación. Para obtener más información, consulte SlurmQueues/Networking/PlacementGroup y SlurmQueues/ComputeResources/Networking/PlacementGroup.
```
Networking:
  PlacementGroup:
    Enabled: true
    Id: your-placement-group-name
```
También puede solicitar que AWS ParallelCluster cree un grupo de colocación para usted.
```
Networking:
  PlacementGroup:
    Enabled: true
```
A partir de AWS ParallelCluster la versión 3.3.0, se modifica la creación y administración de los grupos de colocación. Al especificar el grupo de ubicación que se va a habilitar, sin un name o Id, en la cola, a cada recurso de computación se le asigna su propio grupo de ubicación administrado, en lugar de un grupo administrado para toda la cola. Esto ayuda a reducir los errores por capacidad insuficiente. Si necesita tener un grupo de ubicación para toda la cola, puede usar un grupo de ubicación con nombre.

Se ha agregado SlurmQueues/Networking/PlacementGroup/Name como alternativa preferida a SlurmQueues/Networking/PlacementGroup/Id.

Para obtener más información, consulte Networking.
Redes mejoradas: considere la posibilidad de elegir un tipo de instancia que admita redes mejoradas. Esta recomendación se aplica a todas las instancias de la generación actual. Para obtener más información, consulte redes mejoradas en Linux en la Guía del EC2 usuario de Amazon.
Elastic Fabric Adapter: para admitir altos niveles de comunicación escalable de instancia a instancia, considere la posibilidad de elegir interfaces de red EFA para su red. El hardware de derivación del sistema operativo personalizado de la EFA mejora las comunicaciones de instancia a instancia con la elasticidad y flexibilidad bajo demanda de la Nube de AWS. Puede configurar cada cola de Slurm ComputeResource para que utilice Efa. Para obtener más información sobre el uso de EFA con AWS ParallelCluster, consulteElastic Fabric Adapter.
```
ComputeResources:
  - Name: your-compute-resource-name
    Efa:
      Enabled: true
```
Para obtener más información acerca de EFA, consulte Elastic Fabric Adapter en la Guía del EC2 usuario de Amazon para instancias de Linux.
Ancho de banda de la instancia: el ancho de banda se escala con el tamaño de la instancia. Para obtener información sobre los distintos tipos de instancias, consulte Instancias optimizadas para Amazon EBS y tipos de volumen de Amazon EBS en la Guía del usuario de Amazon EC2 .

Prácticas recomendadas: alertas de presupuesto

Para gestionar los costes de los recursos AWS ParallelCluster, le recomendamos que utilice AWS Budgets acciones para crear un presupuesto. También puede crear alertas de umbrales presupuestarios definidos para AWS los recursos seleccionados. Para obtener más información, consulte Configuring a budget action en la Guía del usuario de AWS Budgets . Del mismo modo, también puedes usar Amazon CloudWatch para crear una alarma de facturación. Para obtener más información, consulte Creación de una alarma de facturación para monitorear los cargos estimados de AWS.

Mejores prácticas: mover un clúster a una nueva versión AWS ParallelCluster secundaria o a una versión de parche

Actualmente, cada versión AWS ParallelCluster secundaria es autónoma junto con su pcluster CLI. Para mover un clúster a una nueva versión secundaria o de parche, debe volver a crear el clúster mediante la CLI de la nueva versión.

Para optimizar el proceso de traslado de un clúster a una nueva versión secundaria o de parche, le recomendamos que haga lo siguiente:

Guarde los datos personales en volúmenes externos que se crean fuera del clúster, como Amazon EFS y FSx for Lustre. De este modo, podrá mover fácilmente los datos de un clúster a otro en el futuro.
Cree sistemas de almacenamiento compartido con los siguientes tipos. Puede crear estos sistemas con las teclas AWS CLI o AWS Management Console.
- SharedStorage / EbsSettings / VolumeId
- SharedStorage / EfsSettings / FileSystemId
- SharedStorage / FsxLustreSettings / FileSystemId
Defina un sistema de archivos o un volumen en una configuración de clúster como sistema de archivos o volumen existente. De esta forma, se conservan al eliminar el clúster y se pueden asociar a un clúster nuevo.

Le recomendamos que utilice Amazon EFS o los sistemas FSx de archivos Lustre. Ambos sistemas se pueden conectar a varios clústeres al mismo tiempo. Además, puede asociar cualquiera de estos sistemas a un clúster nuevo antes de eliminar el clúster existente.
Use las acciones de arranque personalizadas para personalizar sus instancias en lugar de usar una AMI personalizada. Si, por el contrario, utiliza una AMI personalizada, tendrá que eliminar y volver a crear esa AMI para cada versión nueva.
Se recomienda aplicar las recomendaciones anteriores en la secuencia siguiente:
1. Actualice la configuración del clúster existente para utilizar las definiciones de sistemas de archivos existentes.
2. Compruebe la versión de pcluster y actualícela si es necesario.
3. Cree y pruebe el nuevo clúster. Al probar el nuevo clúster, compruebe lo siguiente:
  - Asegúrese de que sus datos estén disponibles en el clúster nuevo.
  - Asegúrese de que la aplicación funcione en el clúster nuevo.
4. Cuando haya probado por completo el clúster nuevo, esté en funcionamiento y ya no necesite el clúster existente, elimínelo.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Ejemplo de configuraciones de clústeres LDAP ( AWS Managed Microsoft AD S)

Pasar de AWS ParallelCluster 2.x a 3.x