Best practice - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Best practice

Migliori pratiche: selezione del tipo di istanza del nodo principale

Anche se il nodo principale non esegue un processo, le sue funzioni e il suo dimensionamento sono fondamentali per le prestazioni complessive del cluster. Quando scegli il tipo di istanza da utilizzare per il tuo nodo principale, considera le seguenti caratteristiche:

Dimensioni del cluster: il nodo principale orchestra la logica di scalabilità del cluster ed è responsabile del collegamento di nuovi nodi allo scheduler. Per scalare verso l'alto e verso il basso un cluster con un numero elevato di nodi, fornisci al nodo principale una capacità di elaborazione aggiuntiva.

File system condivisi: quando utilizzi file system condivisi, scegli un tipo di istanza con una larghezza di banda di rete sufficiente e una larghezza di banda Amazon EBS sufficiente per gestire i flussi di lavoro. Assicurati che il nodo principale sia in grado di esporre directory di server NFS sufficienti per il cluster e gestire gli artefatti che devono essere condivisi tra i nodi di calcolo e il nodo principale.

Migliori pratiche: prestazioni di rete

Le prestazioni di rete sono fondamentali per le applicazioni HPC (High Performance Computing). Senza prestazioni di rete affidabili, queste applicazioni non possono funzionare come previsto. Per ottimizzare le prestazioni della rete, prendi in considerazione le seguenti best practice.

  • Gruppo di posizionamento: se utilizziSlurm, valuta la possibilità di configurare ogni Slurm coda per utilizzare un gruppo di posizionamento del cluster. Il gruppo di posizionamento di un cluster è un raggruppamento logico di istanze all'interno di una singola zona di disponibilità. Per ulteriori informazioni, consulta i gruppi di collocamento nella Guida per l'utente di Amazon EC2. Puoi specificare a PlacementGroupnella Networkingsezione della coda, ogni risorsa di calcolo viene assegnata al gruppo di posizionamento della coda. Quando si specifica a PlacementGroupnella Networkingsezione della risorsa di calcolo, quella risorsa di calcolo specifica viene assegnata a quel gruppo di posizionamento. La specifica del gruppo di posizionamento delle risorse di calcolo ha la precedenza sulla specifica della coda per la risorsa di calcolo. Per ulteriori informazioni, vedere SlurmQueues//e/Networking/PlacementGroup. SlurmQueuesComputeResourcesNetworkingPlacementGroup

    Networking: PlacementGroup: Enabled: true Id: your-placement-group-name

    In alternativa, AWS ParallelCluster crea un gruppo di collocamento per te.

    Networking: PlacementGroup: Enabled: true

    A partire dalla AWS ParallelCluster versione 3.3.0, la creazione e la gestione dei gruppi di collocamento sono state modificate. Quando specificate il gruppo di posizionamento da abilitare, senza un name oId, nella coda, a ciascuna risorsa di calcolo viene assegnato un proprio gruppo di posizionamento gestito, anziché un gruppo gestito per l'intera coda. Questo aiuta a ridurre gli errori di capacità insufficiente. Se è necessario disporre di un gruppo di posizionamento per l'intera coda, è possibile utilizzare un gruppo di posizionamento denominato.

    SlurmQueues/Networking/PlacementGroup/Nameè stato aggiunto come alternativa preferita a SlurmQueues//NetworkingPlacementGroup/Id.

    Per ulteriori informazioni, consulta Networking.

  • Rete avanzata: prendete in considerazione la scelta di un tipo di istanza che supporti la rete avanzata. Questa raccomandazione si applica a tutte le istanze di generazione attuale. Per ulteriori informazioni, consulta la sezione Enhanced Networking on Linux nella Amazon EC2 User Guide.

  • Elastic Fabric Adapter: per supportare alti livelli di comunicazione scalabile da istanza a istanza, prendi in considerazione la possibilità di scegliere interfacce di rete EFA per la tua rete. L'hardware di bypass del sistema operativo (OS) personalizzato dell'EFA migliora le comunicazioni tra istanze grazie all'elasticità e alla flessibilità on-demand di. Cloud AWSÈ possibile configurare ogni coda da utilizzare. Slurm ComputeResourceEfa Per ulteriori informazioni sull'utilizzo di EFA con AWS ParallelCluster, vedere. Elastic Fabric Adapter

    ComputeResources: - Name: your-compute-resource-name Efa: Enabled: true

    Per ulteriori informazioni su EFA, consulta Elastic Fabric Adapter nella Guida per l'utente di Amazon EC2 per le istanze Linux.

  • Larghezza di banda dell'istanza: la larghezza di banda si adatta alla dimensione dell'istanza. Per informazioni sui diversi tipi di istanze, consulta le istanze ottimizzate per Amazon EBS e i tipi di volume Amazon EBS nella Guida per l'utente di Amazon EC2.

Migliori pratiche: avvisi sul budget

Per gestire i costi delle risorse in AWS ParallelCluster, ti consigliamo di utilizzare Budget AWS le azioni per creare un budget. È inoltre possibile creare avvisi relativi alle soglie di budget definite per AWS risorse selezionate. Per ulteriori informazioni, consulta Configurazione di un'azione di budget nella Guida per l'Budget AWS utente. Allo stesso modo, puoi anche utilizzare Amazon CloudWatch per creare un allarme di fatturazione. Per ulteriori informazioni, consulta Creazione di un allarme di fatturazione per il monitoraggio dei costi di AWS stimati.

Migliori pratiche: spostare un cluster su una nuova versione AWS ParallelCluster secondaria o patch

Attualmente ogni versione AWS ParallelCluster secondaria è autonoma insieme alla relativa pcluster CLI. Per spostare un cluster in una nuova versione secondaria o patch, è necessario ricreare il cluster utilizzando la CLI della nuova versione.

Per ottimizzare il processo di spostamento di un cluster in una nuova versione secondaria o patch, ti consigliamo di fare quanto segue:

  • Salva i dati personali in volumi esterni creati all'esterno del cluster, come Amazon EFS e FSx for Lustre. In questo modo, è possibile spostare facilmente i dati da un cluster all'altro in futuro.

  • Crea sistemi di storage condivisi utilizzando i seguenti tipi. È possibile creare questi sistemi utilizzando AWS CLI o AWS Management Console.

    Definire un file system o un volume in una configurazione del cluster come file system o volume esistente. In questo modo, vengono conservati quando si elimina il cluster e possono essere collegati a un nuovo cluster.

    Ti consigliamo di utilizzare i file system Amazon EFS o FSx for Lustre. Entrambi questi sistemi possono essere collegati a più cluster contemporaneamente. Inoltre, è possibile collegare uno di questi sistemi a un nuovo cluster prima di eliminare il cluster esistente.

  • Utilizza azioni bootstrap personalizzate per personalizzare le istanze anziché utilizzare un'AMI personalizzata. Se invece utilizzi un'AMI personalizzata, devi eliminare e ricreare quell'AMI per ogni nuova versione rilasciata.

  • Ti consigliamo di applicare i consigli precedenti nella seguente sequenza:

    1. Aggiorna la configurazione del cluster esistente per utilizzare le definizioni del file system esistenti.

    2. Verifica la pcluster versione e aggiornala se necessario.

    3. Crea e testa il nuovo cluster. Quando testate il nuovo cluster, controllate quanto segue:

      • Assicurati che i tuoi dati siano disponibili nel nuovo cluster.

      • Assicurati che l'applicazione funzioni nel nuovo cluster.

    4. Dopo che il nuovo cluster è stato completamente testato e reso operativo e non è più necessario il cluster esistente, eliminalo.