Slurm strategie di allocazione dinamica dei nodi nella versione 3.7.x

ParallelCluster utilizza 2 tipi di strategie di allocazione dinamica dei nodi per scalare il cluster:

Allocazione basata sulle informazioni richieste disponibili sui nodi:
- Ripresa di tutti i nodi o ridimensionamento dell'elenco dei nodi:
  
  ParallelCluster ridimensiona il cluster basandosi solo su Slurmi nomi degli elenchi di nodi richiesti quando Slurmè in ResumeProgram esecuzione. Alloca le risorse di calcolo ai nodi solo in base al nome del nodo. L'elenco dei nomi dei nodi può includere più processi.
- Curriculum a livello di lavoro o scalabilità a livello di lavoro:
  
  ParallelCluster ridimensiona il cluster in base ai requisiti di ciascun processo, al numero corrente di nodi allocati al processo e ai nodi che devono essere ripristinati. ParallelCluster ottiene queste informazioni dalla variabile di ambiente. SLURM_RESUME_FILE
Allocazione con una strategia di EC2 lancio su Amazon:
- Scalabilità al massimo:
  
  ParallelCluster ridimensiona il cluster utilizzando una chiamata API Amazon EC2 Launch Instance con la capacità di destinazione minima pari a 1, per avviare alcune, ma non necessariamente tutte le istanze necessarie per supportare i nodi richiesti.
- Una ll-or-nothing scalabilità:
  
  ParallelCluster ridimensiona il cluster utilizzando una chiamata API Amazon EC2 Launch Instance che ha esito positivo solo se vengono lanciate tutte le istanze necessarie per supportare i nodi richiesti. In questo caso, chiama l'API Amazon EC2 Launch Instance con la capacità target minima pari alla capacità totale richiesta.

Per impostazione predefinita, ParallelCluster utilizza il ridimensionamento dell'elenco dei nodi con una strategia di EC2 lancio di Amazon al massimo per avviare alcune, ma non necessariamente tutte, le istanze necessarie per supportare i nodi richiesti. Cerca di fornire quanta più capacità possibile per soddisfare il carico di lavoro inviato.

A partire dalla ParallelCluster versione 3.7.0, ParallelCluster utilizza la scalabilità a livello di processo con una strategia di all-or-nothing EC2lancio per i lavori inviati in modalità esclusiva. Quando invii un lavoro in modalità esclusiva, il lavoro ha accesso esclusivo ai nodi allocati. Per ulteriori informazioni, consulta EXCLUSIVE nella Slurm documentazione.

Per inviare un'offerta di lavoro in modalità esclusiva:

Passa il flag esclusivo quando invii un Slurm job al cluster. Ad esempio, sbatch ... --exclusive.

O
Invia un lavoro a una coda del cluster che è stata configurata con JobExclusiveAllocationset totrue.

Quando invii un lavoro in modalità esclusiva:

ParallelCluster attualmente i batch lanciano richieste per includere fino a 500 nodi. Se un processo richiede più di 500 nodi, ParallelCluster effettua una richiesta di all-or-nothingavvio per ogni set di 500 nodi e una richiesta di avvio aggiuntiva per il resto dei nodi.
Se l'allocazione dei nodi è in una singola risorsa di elaborazione, ParallelCluster effettua una richiesta di all-or-nothingavvio per ogni set di 500 nodi e una richiesta di avvio aggiuntiva per il resto dei nodi. Se una richiesta di avvio fallisce, ParallelCluster termina la capacità inutilizzata creata da tutte le richieste di avvio.
Se l'allocazione dei nodi si estende su più risorse di elaborazione, ParallelCluster deve effettuare una richiesta di all-or-nothingavvio per ogni risorsa di calcolo. Anche queste richieste vengono raggruppate. Se una richiesta di avvio fallisce per una delle risorse di calcolo, ParallelCluster termina la capacità inutilizzata creata da tutte le richieste di avvio delle risorse di calcolo.

scalabilità a livello di lavoro con limitazioni note della strategia di lancio: all-or-nothing

Quando invii un lavoro in una risorsa di calcolo con un singolo tipo di istanza, in una coda che si estende su più zone di disponibilità, la chiamata API di all-or-nothing EC2avvio ha esito positivo solo se tutta la capacità può essere fornita in un'unica zona di disponibilità.
Quando invii un lavoro in una risorsa di calcolo con più tipi di istanze, in una coda con un'unica zona di disponibilità, la chiamata all'API di EC2 avvio di all-or-nothingAmazon ha successo solo se tutta la capacità può essere fornita da un singolo tipo di istanza.
Quando invii un lavoro in una risorsa di calcolo con più tipi di istanze, in una coda che si estende su più zone di disponibilità, la chiamata all'API di EC2 avvio di all-or-nothingAmazon non è supportata ed ParallelCluster esegue invece la massima scalabilità.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Versione 3.8.0

Versione 3.6.x e precedenti

Slurm strategie di allocazione dinamica dei nodi nella versione 3.7.x

Allocazione basata sulle informazioni richieste disponibili sui nodi:

Allocazione con una strategia di EC2 lancio su Amazon: