Prácticas recomendadas - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prácticas recomendadas

Mejores prácticas: selección del tipo de instancia de nodo principal

Aunque el nodo principal no ejecuta ningún trabajo, sus funciones y su tamaño son cruciales para el rendimiento general del clúster. Al elegir el tipo de instancia que se va a utilizar en el nodo principal, tenga en cuenta las siguientes características:

Tamaño del clúster: el nodo principal organiza la lógica de escalado del clúster y es responsable de adjuntar nuevos nodos al planificador. Para escalar hacia arriba y hacia abajo un clúster que tiene un gran número de nodos, proporcione al nodo principal una capacidad de procesamiento adicional.

Sistemas de archivos compartidos: cuando utilice sistemas de archivos compartidos, elija un tipo de instancia con suficiente ancho de banda de red y suficiente ancho de banda de Amazon EBS para gestionar sus flujos de trabajo. Asegúrese de que el nodo principal pueda exponer suficientes directorios de servidores NFS para el clúster y gestionar los artefactos que deben compartirse entre los nodos de procesamiento y el nodo principal.

Prácticas recomendadas::: prácticas recomendadas:::

El rendimiento de la red es fundamental para las aplicaciones de computación de alto rendimiento rendimiento (HPC). Sin un rendimiento de red confiable, estas aplicaciones no pueden funcionar según lo esperado. Para optimizar el rendimiento de la red, considere las prácticas recomendadas que recomendadas para optimizar:

  • Grupo de ubicación: si lo está utilizandoSlurm, considere configurar cadaSlurm cola para usar un grupo de ubicación de clústeres. El grupo de ubicación de un clúster es una agrupación lógica de instancias en una misma zona de disponibilidad. Para obtener más información, consulte grupos de ubicación en la guía del usuario de Amazon EC2 para instancias de Linux. Puede especificar un PlacementGroupen la Networkingsección de la cola. Cada recurso de cálculo se asigna al grupo de ubicación de la cola. Al especificar un PlacementGroupen la Networkingsección del recurso informático, ese recurso informático específico se asigna a ese grupo de ubicación. La especificación del grupo de ubicación de recursos informáticos anula la especificación de cola del recurso de cálculo. Para obtener más información, consulte SlurmQueuesNetworking/SlurmQueues/PlacementGroupy ComputeResources/Networking/PlacementGroup.

    Networking: PlacementGroup: Enabled: true Id: your-placement-group-name

    También puedesAWS ParallelCluster crear un grupo de colocación para ti.

    Networking: PlacementGroup: Enabled: true

    A partir deAWS ParallelCluster la versión 3.3.0, se modifica la creación y gestión de grupos de colocación. Al especificar el grupo de ubicación que se va a habilitar, sin una colaname o sin ellaId, a cada recurso de cómputo se le asigna su propio grupo de ubicación gestionado, en lugar de un grupo administrado para toda la cola. Esto ayuda a reducir los errores de capacidad insuficientes. Si necesitas tener un grupo de ubicación para toda la cola, puedes usar un grupo de ubicación con nombre.

    SlurmQueues/Networking/PlacementGroup/Namese añadió como alternativa preferida a SlurmQueues/Networking/PlacementGroup/Id.

    Para obtener más información, consulte Networking.

  • Redes mejoradas: considere la posibilidad de elegir un tipo de instancia que admita redes mejoradas. Esta recomendación se aplica a todas las instancias de la generación actual. Para obtener más información, consulte Prácticas recomendadas:, consulte Prácticas recomendadas, en la guía del usuario de Amazon EC2 para instancias de Linux.

  • Adaptador de estructura elástica: para admitir altos niveles de comunicación escalable de instancia a instancia, considere la posibilidad de elegir interfaces de red EFA para su red. El hardware de derivación del sistema operativo (OS) personalizado de la EFA mejora las comunicaciones de instancia a instancia con la elasticidad y flexibilidad bajo demanda delNube de AWS. Puede configurar cadaSlurm cola ComputeResourcepara usarla Efa. Para obtener más información sobre el uso de EFA conAWS ParallelCluster, consulteElastic Fabric Adapter.

    ComputeResources: - Name: your-compute-resource-name Efa: Enabled: true

    Para obtener más información acerca de la EFA, consulte Elastic Fabric Adapter en la guía del usuario de Amazon EC2 para instancias de Linux.

  • Ancho de banda de la instancia: el ancho de banda se escala con el tamaño de la instancia. Para obtener información acerca de los diferentes tipos de instancias, consulte Instancias optimizadas para Amazon EBS y tipos de volumen de Amazon EBS en la guía del usuario de Amazon EC2 para instancias de Linux.

Prácticas recomendadas:::: prácticas recomendadas::

Para gestionar los costos de recursos enAWS ParallelCluster, le recomendamos que utiliceAWS Budgets acciones para crear un presupuesto. También puede crear alertas de umbrales presupuestarios definidos paraAWS los recursos seleccionados. Para obtener más información, consulte Configurar una acción presupuestaria en la Guía delAWS Budgets usuario. Del mismo modo, también puedes usar Amazon CloudWatch para crear una alarma de facturación. Para obtener más información, consulte Creación de una alarma de facturación para monitorear los cargos estimados de AWS.

Mejores prácticas: mover un clúster a una nueva versiónAWS ParallelCluster secundaria o de parche

Actualmente, cada versiónAWS ParallelCluster secundaria es independiente junto con supcluster CLI. Para mover un clúster a una nueva versión secundaria o de parche, debe volver a crear el clúster mediante la CLI de la nueva versión.

Para optimizar el proceso de traslado de un clúster a una nueva versión secundaria o de parche, le recomendamos que haga lo siguiente:

  • Guarde los datos personales en volúmenes externos que se crean fuera del clúster, como Amazon EFS y FSx for Lustre. De este modo, podrá mover fácilmente los datos de un clúster a otro en el future.

  • Cree sistemas de almacenamiento compartido con los siguientes tipos. Puede crear estos sistemas medianteAWS CLI oAWS Management Console.

    Defina un sistema de archivos o volumen en una configuración de clúster como volumen o sistema de archivos existente. De esta forma, se conservan cuando se elimina el clúster y se pueden adjuntar a un clúster nuevo.

    Le recomendamos que utilice Amazon EFS o FSx para los sistemas de archivos Lustre. Ambos sistemas se pueden conectar a varios clústeres al mismo tiempo. Además, puede conectar cualquiera de estos sistemas a un clúster nuevo antes de eliminar el clúster existente.

  • Usa acciones de arranque personalizadas para personalizar tus instancias en lugar de usar una AMI personalizada. Si, por el contrario, utilizas una AMI personalizada, tendrás que eliminarla y volver a crearla para cada lanzamiento de una nueva versión.

  • Le recomendamos que aplique las recomendaciones anteriores en la siguiente secuencia:

    1. Actualice la configuración del clúster existente para utilizar las definiciones de sistemas de archivos existentes.

    2. Compruebe lapcluster versión y actualícela si es necesario.

    3. Cree y pruebe el nuevo clúster. Cuando pruebe el nuevo clúster, compruebe lo siguiente:

      • Asegúrese de que sus datos estén disponibles en el nuevo clúster.

      • Asegúrese de que la aplicación funcione en el nuevo clúster.

    4. Cuando el nuevo clúster esté completamente probado y en funcionamiento y ya no necesite el clúster existente, elimínelo.