Prácticas recomendadas - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prácticas recomendadas

Mejores prácticas: selección del tipo de instancia maestra

Si bien el nodo maestro no ejecuta ningún trabajo, sus funciones y su tamaño son cruciales para el rendimiento general del clúster.

Al elegir el tipo de instancia que se va a utilizar en el nodo maestro, debe evaluar los siguientes elementos:

  • Tamaño del clúster: el nodo maestro organiza la lógica de escalado del clúster y es responsable de adjuntar nuevos nodos al planificador. Si necesita escalar hacia arriba o hacia abajo el clúster de una cantidad considerable de nodos, entonces querrá dotar al nodo maestro de una capacidad de procesamiento adicional.

  • Sistemas de archivos compartidos: cuando utilice sistemas de archivos compartidos para compartir artefactos entre los nodos de procesamiento y el nodo maestro, tenga en cuenta que el maestro es el nodo que expone el servidor NFS. Por este motivo, desea elegir un tipo de instancia con suficiente ancho de banda de red y suficiente ancho de banda dedicado de Amazon EBS para gestionar sus flujos de trabajo.

Prácticas recomendadas: rendimiento de red

Hay tres consejos que cubren toda la gama de posibilidades para mejorar la comunicación en red.

  • Grupo de ubicación: un grupo de ubicación en clúster es una agrupación lógica de instancias en una misma zona de disponibilidad. Para obtener más información sobre los grupos de ubicación, consulte los grupos de ubicación en la Guía del usuario de Amazon EC2 para instancias de Linux. Puedes configurar el clúster para usar tu propio grupo de ubicaciónplacement_group = your-placement-group-name o dejar que seAWS ParallelCluster cree un grupo de ubicación con la"compute" estrategiaplacement_group = DYNAMIC. Para obtener más información, consulteplacement_group para el modo de cola múltiple yplacement_group para el modo de cola única.

  • Redes mejoradas: considere elegir un tipo de instancia que admita redes mejoradas. Para obtener más información, consulte Redes mejoradas en Linux en la Guía del usuario de Amazon EC2 para instancias de Linux.

  • Adaptador de estructura elástica: para admitir altos niveles de comunicación escalable entre instancias, considere la posibilidad de elegir interfaces de red EFA para su red. El hardware de omisión del sistema operativo (SO) personalizado de la EFA mejora las comunicaciones entre instancias con la elasticidad y flexibilidad bajo demanda de laAWS nube. Para configurar una sola cola deSlurm clústeres para usar EFA, configureenable_efa = true. Para obtener más información sobre el uso de EFA conAWS ParallelCluster, consulteElastic Fabric Adapter y enable_efa. Para obtener más información acerca de EFA, consulte Elastic Fabric Adapter en la Guía del usuario de Amazon EC2 para instancias de Linux.

  • Ancho de banda de la instancia: el ancho de banda se amplía según el tamaño de la instancia. Considere elegir el tipo de instancia que mejor se adapte a sus necesidades. Consulte las instancias optimizadas para Amazon EBS y los tipos de volúmenes de Amazon EBS en la Guía del usuario de Amazon EC2 para instancias de Linux.

Prácticas recomendadas: alertas de presupuesto

Para gestionar los costos de losAWS ParallelCluster recursos, le recomendamos que utiliceAWS Budgets acciones para crear un presupuesto y alertas de umbrales presupuestarios definidos paraAWS los recursos seleccionados. Para obtener más información, consulte Configurar una acción presupuestaria en la Guía delAWS Budgets usuario. También puedes usar Amazon CloudWatch para crear una alarma de facturación. Para obtener más información, consulte Creación de una alarma de facturación para monitorear los cargos estimados de AWS.

Mejores prácticas: mover un clúster a una nueva versiónAWS ParallelCluster secundaria o de parche

Actualmente, cada versiónAWS ParallelCluster secundaria es independiente junto con supcluster CLI. Para mover un clúster a una nueva versión secundaria o de parche, debe volver a crear el clúster mediante la CLI de la nueva versión.

Para optimizar el proceso de traslado de un clúster a una nueva versión secundaria o para guardar los datos de almacenamiento compartido por otros motivos, le recomendamos que utilice las siguientes prácticas recomendadas.

  • Guarde los datos personales en volúmenes externos, como Amazon EFS y FSx for Lustre. De este modo, puede mover fácilmente los datos de un clúster a otro.

  • Cree sistemas de almacenamiento compartido de los tipos que se enumeran a continuación medianteAWS CLI oAWS Management Console:

    Añádalos a la nueva configuración del clúster como sistemas de archivos existentes. De esta forma, se conservan cuando se elimina el clúster y se pueden adjuntar a un clúster nuevo. Los sistemas de almacenamiento compartido suelen incurrir en cargos tanto si están conectados como si están separados de un clúster.

    Le recomendamos que utilice Amazon EFS o Amazon FSx para sistemas de archivos Lustre, ya que se pueden adjuntar a varios clústeres al mismo tiempo y se pueden adjuntar al nuevo clúster antes de eliminar el clúster anterior. Para obtener más información, consulte Montaje de sistemas de archivos de Amazon EFS en la Guía del usuario de Amazon EFS y Acceso a los sistemas de archivos FSx for Lustre Lustre en la Guía del usuario de Amazon FSx for Lustre Lustre.

  • Usa acciones de arranque personalizadas para personalizar tus instancias en lugar de una AMI personalizada. Esto optimiza el proceso de creación, ya que no es necesario crear una nueva AMI personalizada para cada nueva versión.

  • Secuencia recomendada.

    1. Actualice la configuración del clúster para utilizar las definiciones de sistemas de archivos existentes.

    2. Compruebe lapcluster versión y actualícela si es necesario.

    3. Cree y pruebe el nuevo clúster.

      • Asegúrese de que sus datos estén disponibles en el nuevo clúster.

      • Asegúrese de que la aplicación funcione en el nuevo clúster.

    4. Si su nuevo clúster está completamente probado y en funcionamiento y está seguro de que no va a utilizar el clúster anterior, elimínelo.