Trabalho com Instâncias spot - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Trabalho com Instâncias spot

AWS ParallelCluster usa Instâncias Spot se você tiver definido SlurmQueues/CapacityTypeou AwsBatchQueues/CapacityTypeSPOTno arquivo de configuração do cluster. As instâncias spot são mais econômicas do que as instâncias sob demanda, mas podem ser interrompidas. Isso pode ajudar a aproveitar os avisos de interrupção de instâncias spot, que enviam um aviso de dois minutos antes que o Amazon EC2 interrompa ou encerre a instância spot. Para obter mais informações, consulte Interrupções de instâncias spot no Guia do usuário do Amazon EC2. Para saber como AwsBatchQueues funciona com instâncias spot, consulte Recursos de computação no Guia do usuário do AWS Batch .

O agendador AWS ParallelCluster configurado atribui trabalhos a recursos computacionais em filas com instâncias spot da mesma forma que atribui trabalhos a recursos de computação em filas com instâncias sob demanda.

Ao usar instâncias spot, uma função AWSServiceRoleForEC2Spot vinculada ao serviço deve existir em sua conta. Para criar essa função na sua conta usando o AWS CLI, execute o seguinte comando:

$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

Para obter mais informações, consulte Função vinculada ao serviço para solicitações de instâncias spot no Guia do usuário do Amazon EC2.

As seções a seguir descrevem três cenários nos quais as instâncias spot podem ser interrompidas ao usar SlurmQueues.

Cenário 1: Uma instância spot sem trabalhos em execução é interrompida

Quando essa interrupção ocorre, AWS ParallelCluster tenta substituir a instância se a fila do agendador tiver trabalhos pendentes que exijam instâncias adicionais ou se o número de instâncias ativas for menor que//. SlurmQueuesComputeResourcesMinCount Se não for AWS ParallelCluster possível provisionar novas instâncias, uma solicitação de novas instâncias será repetida periodicamente.

Cenário 2: Uma instância spot que executa trabalhos de nó único é interrompida

O trabalho falha com um código de estado deNODE_FAIL, e o trabalho é colocado novamente na fila (a menos que seja --no-requeue especificado quando o trabalho é enviado). Se o nó for estático, ele será substituído. Se o nó for um nó dinâmico, o nó será encerrado e redefinido. Para obter mais informações sobresbatch, incluindo o --no-requeue parâmetro, consulte sbatcha Slurmdocumentação.

Cenário 3: Uma instância spot que executa trabalhos de vários nós é interrompida

O trabalho falha com um código de estado deNODE_FAIL, e o trabalho é colocado novamente na fila (a menos que tenha --no-requeue sido especificado quando o trabalho foi enviado). Se o nó for estático, ele será substituído. Se o nó for um nó dinâmico, o nó será encerrado e redefinido. Outros nós que estavam executando os trabalhos encerrados podem ser alocados a outros trabalhos pendentes, ou reduzidos depois que o tempo configurado SlurmSettings / ScaledownIdletime tiver passado.

Para obter mais informações sobre instâncias spot, consulte Instâncias spot no Guia do usuário do Amazon EC2.