Recuperando e preservando logs - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Recuperando e preservando logs

AWS ParallelCluster cria métricas do Amazon EC2 para instâncias HeadNode e armazenamento de computação. Você pode ver as métricas nos painéis personalizados do CloudWatch console. AWS ParallelCluster também cria fluxos de CloudWatch log de cluster em grupos de registros. Você pode visualizar esses registros no CloudWatch console Painéis personalizados ou grupos de registros. A seção Monitoramento da configuração do cluster descreve como você pode modificar os CloudWatch registros e o painel do cluster. Para obter mais informações, consulte Integração com Amazon CloudWatch Logs e CloudWatch Painel da Amazon.

Os logs são um recurso útil para solucionar problemas. Por exemplo, se você quiser excluir um cluster com falha, talvez seja útil criar primeiro um arquivo dos logs do cluster. Siga as etapas Arquivar logs para criar um arquivo.

Registros de cluster indisponíveis em CloudWatch

Se os registros do cluster não estiverem disponíveis em CloudWatch, verifique se você não substituiu a configuração do AWS ParallelCluster CloudWatch registro ao adicionar registros personalizados à configuração.

Para adicionar registros personalizados à CloudWatch configuração, certifique-se de anexar à configuração em vez de buscá-la e substituí-la. Para obter mais informações sobre fetch-config eappend-config, consulte Arquivos de configuração de vários CloudWatch agentes no Guia CloudWatch do usuário.

Para restaurar a configuração do AWS ParallelCluster CloudWatch log, você pode executar os seguintes comandos dentro de um AWS ParallelCluster nó:

$ PLATFORM="$(ohai platform | jq -r ".[]")" LOG_GROUP_NAME="$(cat /etc/chef/dna.json | jq -r ".cluster.log_group_name")" SCHEDULER="$(cat /etc/chef/dna.json | jq -r ".cluster.scheduler")" NODE_ROLE="$(cat /etc/chef/dna.json | jq -r ".cluster.node_type")" CONFIG_DATA_PATH="/usr/local/etc/cloudwatch_agent_config.json" /opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/python /usr/local/bin/write_cloudwatch_agent_json.py --platform $PLATFORM --config $CONFIG_DATA_PATH --log-group $LOG_GROUP_NAME --scheduler $SCHEDULER --node-role $NODE_ROLE /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json -s

Arquivar logs

Você pode arquivar os logs no Amazon S3 ou em um arquivo local (dependendo do parâmetro --output-file).

nota

Adicione permissões à política de bucket do Amazon S3 para conceder CloudWatch acesso. Para obter mais informações, consulte Definir permissões em um bucket do Amazon S3 no Guia do usuário de CloudWatch registros.

$ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \ --bucket bucketname --bucket-prefix logs { "url": "https://bucketname.s3.eu-west-1.amazonaws.com/export-log/mycluster-logs-202109071136.tar.gz?..." } # use the --output-file parameter to save the logs locally $ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \ --bucket bucketname --bucket-prefix logs --output-file /tmp/archive.tar.gz { "path": "/tmp/archive.tar.gz" }

O arquivo contém os streams do Amazon CloudWatch Logs e os eventos de AWS CloudFormation pilha do nó principal e dos nós de computação dos últimos 14 dias, a menos que especificado explicitamente na configuração ou nos parâmetros do comando. export-cluster-logs O tempo necessário para que o comando seja concluído depende do número de nós no cluster e do número de fluxos de log disponíveis no CloudWatch Logs. Para obter mais informações sobre os fluxos de log disponíveis, consulte Integração com Amazon CloudWatch Logs.

Logs preservados

A partir da versão 3.0.0, AWS ParallelCluster preserva os CloudWatch registros por padrão quando um cluster é excluído. Se você quiser excluir um cluster e preservar seus logs, certifique-se de que Monitoring / Logs / CloudWatch / DeletionPolicy não esteja definido como Delete na configuração do cluster. Caso contrário, altere o valor desse campo para Retain e execute o comando pcluster update-cluster. Em seguida, execute pcluster delete-cluster --cluster-name <cluster_name> para excluir o cluster, mas mantenha o grupo de registros que está armazenado na Amazon CloudWatch.

Logs de nós encerrados

Se um nó de computação estático for encerrado inesperadamente e não CloudWatch tiver registros, verifique se a saída do console desse nó de computação AWS ParallelCluster foi registrada no nó principal do registro. /var/log/parallelcluster/compute_console_output Para ter mais informações, consulte Logs principais para depuração.

Se o /var/log/parallelcluster/compute_console_output registro não estiver disponível ou não contiver a saída do nó, use o AWS CLI para recuperar a saída do console do nó com falha. Faça login no nó principal do cluster e obtenha o nó com falha instance-id do arquivo /var/log/parallelcluster/slurm_resume.log.

Recupere a saída do console usando o comando a seguir com o instance-id:

$ aws ec2 get-console-output --instance-id i-abcdef01234567890

Se um nó de computação dinâmico for encerrado automaticamente após a inicialização e não CloudWatch tiver registros, envie um trabalho que ative uma ação de escalabilidade de cluster. Aguarde até que a instância falhe e recupere o log do console da instância.

Faça login no nó principal do cluster e obtenha o nó de computação instance-id do arquivo /var/log/parallelcluster/slurm_resume.log.

Recupere o log do console da instância usando o comando a seguir:

$ aws ec2 get-console-output --instance-id i-abcdef01234567890

O log de saída do console pode ajudá-lo a depurar a causa raiz de uma falha no nó de computação quando o log do nó de computação não estiver disponível.