Práticas recomendadas - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Práticas recomendadas

As seções a seguir fornecem as melhores práticas de uso AWS ParallelCluster, incluindo alertas de desempenho e orçamento da rede.

Práticas recomendadas: seleção do tipo de instância do nó principal

Mesmo que o nó principal não execute uma tarefa, suas funções e seu tamanho são cruciais para o desempenho geral do cluster. Ao escolher o tipo de instância a ser usado em seu nó principal, considere as seguintes características:

Tamanho do cluster: O nó principal orquestra a lógica de escalabilidade do cluster e é responsável por anexar novos nós ao programador. Para aumentar e reduzir verticalmente a escala de um cluster que tem um grande número de nós, forneça um pouco mais de capacidade computacional ao nó principal.

Sistemas de arquivos compartilhados: ao usar sistemas de arquivos compartilhados, escolha um tipo de instância com largura de banda de rede suficiente e largura de EBS banda suficiente da Amazon para lidar com seus fluxos de trabalho. Certifique-se de que o nó principal seja capaz de expor diretórios de NFS servidor suficientes para o cluster e manipular os artefatos que precisam ser compartilhados entre os nós de computação e o nó principal.

Práticas recomendadas: desempenho da rede

O desempenho da rede é fundamental para aplicativos de computação de alto desempenho (HPC). Sem um desempenho de rede confiável, esses aplicativos não funcionam conforme o esperado. Para otimizar o desempenho da rede, considere as práticas recomendadas a seguir.

  • Grupo de posicionamento: Se você estiver usando Slurm, considere configurar cada Slurm fila para usar um grupo de posicionamento de clusters. Um grupo de posicionamento de cluster é um agrupamento lógico de instâncias dentro de uma única zona de disponibilidade. Para obter mais informações, consulte grupos de posicionamento no Guia EC2 do usuário da Amazon. Você pode especificar um PlacementGroup na seção Networking da fila, cada recurso de computação é atribuído ao grupo de posicionamento da fila. Ao especificar um PlacementGroup na seção Networking do recurso de computação, esse recurso de computação específico é atribuído ao grupo de posicionamento. A especificação do grupo de posicionamento de recursos de computação substitui a especificação da fila para o recurso de computação. Para obter mais informações, consulte SlurmQueues / Networking / PlacementGroup e SlurmQueues / ComputeResources / Networking / PlacementGroup.

    Networking: PlacementGroup: Enabled: true Id: your-placement-group-name

    Como alternativa, AWS ParallelCluster crie um grupo de colocação para você.

    Networking: PlacementGroup: Enabled: true

    A partir da AWS ParallelCluster versão 3.3.0, a criação e o gerenciamento do grupo de posicionamento são modificados. Quando você especifica o grupo de posicionamento a ser ativado, sem name ou Id, na fila, cada recurso de computação recebe seu próprio grupo de posicionamento gerenciado, em vez de um grupo gerenciado para toda a fila. Isso ajuda a reduzir erros de capacidade insuficiente. Se você precisar ter um grupo de posicionamento para toda a fila, poderá usar um grupo de posicionamento nomeado.

    SlurmQueues / Networking / PlacementGroup / Name foi adicionado como alternativa preferencial para SlurmQueues / Networking / PlacementGroup / Id.

    Para obter mais informações, consulte Networking.

  • Rede aprimorada: considere escolher um tipo de instância que ofereça suporte à rede avançada. Essa recomendação se aplica a todas as instâncias da geração atual. Para obter mais informações, consulte redes aprimoradas no Linux no Guia EC2 do usuário da Amazon.

  • Adaptador Elastic Fabric: para oferecer suporte a altos níveis de comunicação escalável entre instâncias, considere escolher interfaces de EFA rede para sua rede. O hardware personalizado EFA de bypass do sistema operacional (SO) aprimora as comunicações de instância a instância com a elasticidade e flexibilidade sob demanda do. Nuvem AWS Você pode configurar cada Slurm fila ComputeResourcepara usar Efa. Para obter mais informações sobre como usar EFA com AWS ParallelCluster, consulteElastic Fabric Adapter.

    ComputeResources: - Name: your-compute-resource-name Efa: Enabled: true

    Para obter mais informações sobre issoEFA, consulte Elastic Fabric Adapter no Guia EC2 do usuário da Amazon para instâncias Linux.

  • Largura de banda da instância: a largura de banda é dimensionada com o tamanho da instância. Para obter informações sobre os diferentes tipos de instância, consulte Instâncias EBS otimizadas da Amazon e tipos de EBS volume da Amazon no Guia do EC2 usuário da Amazon.

Práticas recomendadas: alertas de orçamento

Para gerenciar os custos dos recursos em AWS ParallelCluster, recomendamos que você use AWS Budgets ações para criar um orçamento. Você também pode criar alertas de limite de orçamento definido para AWS recursos selecionados. Para obter mais informações, consulte Como configurar uma ação de orçamento no Manual do usuário do AWS Budgets . Da mesma forma, você também pode usar CloudWatch a Amazon para criar um alarme de cobrança. Para mais informações, consulte Criar um alarme de faturamento para monitorar suas cobranças estimadas da AWS.

Melhores práticas: mover um cluster para uma nova versão AWS ParallelCluster secundária ou de patch

Atualmente, cada versão AWS ParallelCluster secundária é independente junto com sua pclusterCLI. Para mover um cluster para uma nova versão secundária ou de patch, você deve recriar o cluster usando a nova versão. CLI

Para otimizar o processo de mover um cluster para uma nova versão secundária ou de patch, recomendamos fazer o seguinte:

  • Salve dados pessoais em volumes externos criados fora do cluster, como Amazon EFS e FSx for Lustre. Ao fazer isso, você pode mover facilmente os dados de um cluster para outro no futuro.

  • Crie sistemas de armazenamento compartilhado usando os seguintes tipos. Você pode criar esses sistemas usando o AWS CLI ou AWS Management Console.

    Defina um sistema de arquivos ou volume em uma configuração de cluster como sistema de arquivos ou volume existente. Dessa forma, eles serão preservados quando você excluir o cluster e podem ser anexados a um novo cluster.

    Recomendamos que você use a Amazon EFS ou os sistemas FSx de arquivos Lustre. Esses dois sistemas podem ser anexados a vários clusters ao mesmo tempo. Além disso, você pode anexar qualquer um desses sistemas a um novo cluster antes de excluir o cluster existente.

  • Use ações de bootstrap personalizadas para personalizar suas instâncias em vez de usar uma personalizadaAMI. Se, em vez disso, você usar um personalizadoAMI, precisará excluí-lo e recriá-lo AMI para cada nova versão lançada.

  • Recomendamos aplicar as recomendações anteriores na seguinte sequência:

    1. Atualize a configuração do cluster existente para usar as definições existentes do sistema de arquivos.

    2. Verifique a versão do pcluster e atualize-a, se necessário.

    3. Crie e teste o novo cluster. Ao testar o novo cluster, verifique o seguinte:

      • Verifique se os dados estão disponíveis no cluster novo.

      • Verifique se a aplicação funciona no cluster novo.

    4. Depois que seu novo cluster estiver totalmente testado e operacional e você não precisar mais do cluster existente, exclua-o.