Prácticas recomendadas - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prácticas recomendadas

Prácticas recomendadas: selección del tipo de instancia del nodo principal

Aunque el nodo principal no ejecuta ningún trabajo, sus funciones y su tamaño son cruciales para el rendimiento general del clúster. Al elegir el tipo de instancia que se va a utilizar para el nodo principal, tenga en cuenta las siguientes características:

Tamaño del clúster: el nodo principal organiza la lógica de escalado del clúster y es responsable de adjuntar los nuevos nodos al programador. Para escalar hacia arriba y hacia abajo un clúster que tiene un gran número de nodos, proporcione al nodo principal una capacidad de procesamiento adicional.

Sistemas de archivos compartidos: cuando utilice sistemas de archivos compartidos, elija un tipo de instancia con suficiente ancho de banda de red y suficiente ancho de banda de Amazon EBS para gestionar sus flujos de trabajo. Asegúrese de que el nodo principal pueda exponer suficientes directorios de servidores NFS para el clúster y gestionar los artefactos que deben compartirse entre los nodos de procesamiento y el nodo principal.

Prácprácticas recomendadas prácticas prácticas prácticas prácticas prácticas prácticas prácticas prácticas

El rendimiento de la red es fundamental para las aplicaciones de computación de alto rendimiento rendimiento rendimiento rendimiento rendimiento rendimiento rendimiento rendimiento Sin un rendimiento de red confiable, estas aplicaciones no pueden funcionar como se espera. Prácrecomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas recomendadas

  • Grupo de ubicación: si lo está utilizandoSlurm, considere la posibilidad de configurar cadaSlurm cola para que utilice un grupo de ubicación de clústeres. El grupo de ubicación de un clúster es una agrupación lógica de instancias en una misma zona de disponibilidad. Para obtener más información, consulte Grupos de ubicación en la guía del usuario de instancias de Linux de Amazon EC2. Puede especificar PlacementGroupen la Networkingsección de la cola, cada recurso de cálculo se asigna al grupo de ubicación de la cola. Al especificar un PlacementGroupen la Networkingsección del recurso de cálculo, ese recurso de cálculo específico se asigna a ese grupo de ubicación. La especificación del grupo de ubicación de recursos de procesamiento anula la especificación de cola del recurso de procesamiento. Para obtener más información, consulte SlurmQueuesNetworking/PlacementGroupy SlurmQueues/ComputeResources/Networking/PlacementGroup.

    Networking: PlacementGroup: Enabled: true Id: your-placement-group-name

    Como alternativa, puedeAWS ParallelCluster crear un grupo de colocación para usted.

    Networking: PlacementGroup: Enabled: true

    A partir deAWS ParallelCluster la versión 3.3.0, se modifican la creación y administración de grupos de colocación. Al especificar el grupo de ubicación que se va a habilitar, sin unname oId en la cola, a cada recurso de cálculo se le asigna su propio grupo de ubicación administrado, en lugar de un grupo administrado para toda la cola. Esto ayuda a reducir los errores de capacidad insuficiente. Si necesita tener un grupo de ubicación para toda la cola, puede utilizar un grupo de ubicación designado.

    SlurmQueuesSe Nameañadió NetworkingPlacementGroup//como alternativa preferida a SlurmQueues/Networking/PlacementGroup/Id.

    Para obtener más información, consulte Networking.

  • Redes mejoradas: considere la posibilidad de elegir un tipo de instancia que admita redes mejoradas. Esta recomendación se aplica a todas las instancias de la generación actual. Para obtener más información, consulte Instancias recomendadas para Linux en la guía del usuario de instancias de Linux de Amazon EC2.

  • Adaptador Elastic Fabric: Para admitir altos niveles de comunicación escalable de instancia a instancia, considere la posibilidad de elegir las interfaces de red EFA para su red. El hardware de omisión del sistema operativo (SO) personalizado de la EFA mejora las comunicaciones de instancia con la elasticidad y flexibilidad bajo demanda delNube de AWS. Puede configurar cadaSlurm cola ComputeResourcepara utilizarla Efa. Para obtener más información sobre el uso de EFA conAWS ParallelCluster, consulteElastic Fabric Adapter.

    ComputeResources: - Name: your-compute-resource-name Efa: Enabled: true

    Para obtener más información acerca de EFA, consulte Elastic Fabric ter en la guía del usuario de instancias de Linux de Amazon EC2.

  • Ancho de banda de la instancia: el ancho de banda se escala con el tamaño de la instancia. Para obtener información acerca de los tipos de instancia, consulte Instancias optimizadas para EBS y en la guía del usuario de Amazon EBS en la guía del usuario de Amazon EC2 para instancias de Linux.

Prácprácticas recomendadas recomendadas prácticas prácticas prácticas prácticas recomendadas recomendadas recomendadas

Para gestionar los costos de los recursos enAWS ParallelCluster, le recomendamos que utiliceAWS Budgets acciones para crear un presupuesto. También puede crear alertas de umbrales presupuestarios definidos paraAWS recursos seleccionados. Para obtener más información, consulte Configurar una acción presupuestaria en la Guía delAWS Budgets usuario. Del mismo modo, también puedes usar Amazon CloudWatch para crear una alarma de facturación. Para obtener más información, consulte Creación de una alarma de facturación para monitorear los cargos estimados de AWS.

Prácticas recomendadas: mover un clúster a una nueva versiónAWS ParallelCluster secundaria o de parche

Actualmente, cada versiónAWS ParallelCluster secundaria es autónoma junto con supcluster CLI. Para mover un clúster a una nueva versión secundaria o de parche, debe volver a crear el clúster mediante la CLI de la nueva versión.

Para optimizar el proceso de traslado de un clúster a una nueva versión

  • Guarde los datos personales en volúmenes externos que se crean fuera del clúster, como Amazon EFS y FSx for Lustre. De este modo, podrá mover fácilmente los datos de un clúster a otro en el future.

  • Cree sistemas de almacenamiento compartido con los siguientes tipos. Puede crear estos sistemas mediante elAWS CLI oAWS Management Console.

    Defina un sistema de archivos o volumen en una configuración de clúster como sistema de archivos o volumen existente. De esta forma, se conservan al eliminar el clúster y se pueden adjuntar a un nuevo clúster.

    Le recomendamos que utilice Amazon EFS o FSx para los sistemas de archivos Lustre. Ambos sistemas se pueden conectar a varios clústeres al mismo tiempo. Además, puede conectar cualquiera de estos sistemas a un nuevo clúster antes de eliminar el clúster existente.

  • Utilice acciones de arranque personalizadas para personalizar las instancias en lugar de utilizar una AMI personalizada. Si, por el contrario, utiliza una AMI personalizada, tendrá que eliminar y volver a crear esa AMI para cada versión nueva.

  • Le recomendamos que aplique las recomendaciones anteriores en la siguiente secuencia:

    1. Actualice la configuración del clúster existente para utilizar las definiciones de sistemas de archivos existentes.

    2. Compruebe lapcluster versión y actualícela si es necesario.

    3. Cree y pruebe el nuevo clúster. Cuando pruebe el nuevo clúster, compruebe lo siguiente:

      • Asegúrese de que sus datos estén disponibles en el nuevo clúster.

      • Asegúrese de que la aplicación funcione en el nuevo clúster.

    4. Cuando el nuevo clúster esté completamente probado y en funcionamiento y ya no necesite el clúster existente, elimínelo.