Slurm strategie di allocazione dinamica dei nodi nella versione 3.7.x - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Slurm strategie di allocazione dinamica dei nodi nella versione 3.7.x

ParallelCluster utilizza 2 tipi di strategie di allocazione dinamica dei nodi per scalare il cluster:

  • Allocazione basata sulle informazioni richieste disponibili sui nodi:
    • Ripresa di tutti i nodi o ridimensionamento dell'elenco dei nodi:

      ParallelCluster ridimensiona il cluster basandosi solo su Slurmi nomi degli elenchi di nodi richiesti quando Slurmè in ResumeProgram esecuzione. Alloca le risorse di calcolo ai nodi solo in base al nome del nodo. L'elenco dei nomi dei nodi può includere più processi.

    • Curriculum a livello di lavoro o scalabilità a livello di lavoro:

      ParallelCluster ridimensiona il cluster in base ai requisiti di ciascun processo, al numero corrente di nodi allocati al processo e ai nodi che devono essere ripristinati. ParallelCluster ottiene queste informazioni dalla variabile di ambiente. SLURM_RESUME_FILE

  • Allocazione con una strategia di EC2 lancio su Amazon:
    • Scalabilità al massimo:

      ParallelCluster ridimensiona il cluster utilizzando una API chiamata di istanza Amazon EC2 Launch con la capacità di destinazione minima pari a 1, per avviare alcune, ma non necessariamente tutte le istanze necessarie per supportare i nodi richiesti.

    • Una ll-or-nothing scalabilità:

      ParallelCluster ridimensiona il cluster utilizzando una API chiamata di istanza Amazon EC2 Launch che ha esito positivo solo se vengono avviate tutte le istanze necessarie per supportare i nodi richiesti. In questo caso, chiama l'istanza di EC2 avvio di Amazon API con la capacità target minima pari alla capacità totale richiesta.

Per impostazione predefinita, ParallelCluster utilizza il ridimensionamento dell'elenco dei nodi con una strategia di EC2 lancio di Amazon al massimo per avviare alcune, ma non necessariamente tutte, le istanze necessarie per supportare i nodi richiesti. Cerca di fornire quanta più capacità possibile per soddisfare il carico di lavoro inviato.

A partire dalla ParallelCluster versione 3.7.0, ParallelCluster utilizza la scalabilità a livello di processo con una strategia di all-or-nothingEC2lancio per i lavori inviati in modalità esclusiva. Quando invii un lavoro in modalità esclusiva, il lavoro ha accesso esclusivo ai nodi allocati. Per ulteriori informazioni, consulta EXCLUSIVEla Slurm documentazione.

Per inviare un'offerta di lavoro in modalità esclusiva:

  • Passa il flag esclusivo quando invii un Slurm job al cluster. Ad esempio sbatch ... --exclusive.

    O

  • Invia un lavoro a una coda del cluster che è stata configurata con JobExclusiveAllocationset totrue.

Quando invii un lavoro in modalità esclusiva:

  • ParallelCluster attualmente i batch lanciano richieste per includere fino a 500 nodi. Se un processo richiede più di 500 nodi, ParallelCluster effettua una richiesta di all-or-nothingavvio per ogni set di 500 nodi e una richiesta di avvio aggiuntiva per il resto dei nodi.

  • Se l'allocazione dei nodi è in una singola risorsa di elaborazione, ParallelCluster effettua una richiesta di all-or-nothingavvio per ogni set di 500 nodi e una richiesta di avvio aggiuntiva per il resto dei nodi. Se una richiesta di avvio fallisce, ParallelCluster termina la capacità inutilizzata creata da tutte le richieste di avvio.

  • Se l'allocazione dei nodi si estende su più risorse di elaborazione, ParallelCluster deve effettuare una richiesta di all-or-nothingavvio per ogni risorsa di calcolo. Anche queste richieste vengono raggruppate. Se una richiesta di avvio fallisce per una delle risorse di calcolo, ParallelCluster termina la capacità inutilizzata creata da tutte le richieste di avvio delle risorse di calcolo.

scalabilità a livello di lavoro con limitazioni note della strategia di lancio: all-or-nothing

  • Quando si invia un lavoro in una risorsa di calcolo con un singolo tipo di istanza, in una coda che si estende su più zone di disponibilità, la API chiamata di all-or-nothingEC2avvio ha esito positivo solo se tutta la capacità può essere fornita in un'unica zona di disponibilità.

  • Quando invii un lavoro in una risorsa di calcolo con più tipi di istanze, in una coda con un'unica zona di disponibilità, la API chiamata di EC2 lancio di all-or-nothingAmazon ha successo solo se tutta la capacità può essere fornita da un singolo tipo di istanza.

  • Quando invii un lavoro in una risorsa di calcolo con più tipi di istanze, in una coda che si estende su più zone di disponibilità, la API chiamata di EC2 lancio di all-or-nothingAmazon non è supportata ed ParallelCluster esegue invece la scalabilità al massimo.