Recupero e conservazione dei registri - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Recupero e conservazione dei registri

AWS ParallelClustercrea metriche EC2 per istanze HeadNode e storage di calcolo. Puoi visualizzare le metriche nelle dashboard personalizzate della CloudWatch console. AWS ParallelClustercrea anche flussi di CloudWatch log dei cluster in gruppi di log. Puoi visualizzare questi registri nelle dashboard personalizzate o nei gruppi di log della CloudWatch console. La sezione Configurazione del cluster di monitoraggio descrive come modificare i CloudWatch log e il dashboard del cluster. Per ulteriori informazioni, consultare Integrazione con Amazon CloudWatch Logs e CloudWatchPannello di controllo Amazon.

I log sono una risorsa utile per la risoluzione dei problemi. Ad esempio, se desideri eliminare un cluster in errore, potrebbe essere utile creare prima un archivio dei log del cluster. Segui i passaggi Ldei dei dei dei dei dei per creare un archivio.

Log del cluster non disponibili in CloudWatch

Se i log del cluster non sono disponibili inCloudWatch, assicurati di non aver sovrascritto la configurazione del AWS ParallelCluster CloudWatch registro quando aggiungi registri personalizzati alla configurazione.

Per aggiungere log personalizzati alla CloudWatch configurazione, assicurati di aggiungerli alla configurazione anziché recuperarli e sovrascriverli. Per ulteriori informazioni su fetch-config eappend-config, vedere File di configurazione di più CloudWatch agenti nella Guida per l'CloudWatchutente.

Per ripristinare la configurazione del AWS ParallelCluster CloudWatch registro, puoi eseguire i seguenti comandi all'interno di un AWS ParallelCluster nodo:

$ PLATFORM="$(ohai platform | jq -r ".[]")" LOG_GROUP_NAME="$(cat /etc/chef/dna.json | jq -r ".cluster.log_group_name")" SCHEDULER="$(cat /etc/chef/dna.json | jq -r ".cluster.scheduler")" NODE_ROLE="$(cat /etc/chef/dna.json | jq -r ".cluster.node_type")" CONFIG_DATA_PATH="/usr/local/etc/cloudwatch_agent_config.json" /opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/python /usr/local/bin/write_cloudwatch_agent_json.py --platform $PLATFORM --config $CONFIG_DATA_PATH --log-group $LOG_GROUP_NAME --scheduler $SCHEDULER --node-role $NODE_ROLE /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json -s

Ldei dei dei dei dei dei

Puoi archiviare i log in Amazon S3 o in un file locale (a seconda del --output-file parametro).

Nota

Aggiungere le autorizzazioni alla policy del bucket di Amazon S3 per concedere l'accesso. CloudWatch Per ulteriori informazioni, consulta Impostare le autorizzazioni su un bucket Amazon S3 nella CloudWatchLogs User Guide.

$ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \ --bucket bucketname --bucket-prefix logs { "url": "https://bucketname.s3.eu-west-1.amazonaws.com/export-log/mycluster-logs-202109071136.tar.gz?..." } # use the --output-file parameter to save the logs locally $ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \ --bucket bucketname --bucket-prefix logs --output-file /tmp/archive.tar.gz { "path": "/tmp/archive.tar.gz" }

L'archivio contiene CloudWatch i flussi e gli eventi di AWS CloudFormation stack di Amazon Logs provenienti dal nodo principale e dai nodi di calcolo degli ultimi 14 giorni, a meno che non sia specificato esplicitamente nella configurazione o nei parametri del comando. export-cluster-logs Il tempo necessario per completare il comando dipende dal numero di nodi nel cluster e dal numero di flussi di log disponibili in CloudWatch Logs. Per ulteriori informazioni sui Integrazione con Amazon CloudWatch Logs

Registri conservati

A partire dalla versione 3.0.0, AWS ParallelCluster conserva CloudWatch i log per impostazione predefinita quando un cluster viene eliminato. Se desideri eliminare un cluster e conservarne i log, assicurati che Monitoring//LogsCloudWatch/DeletionPolicynon sia impostato su Delete nella configurazione del cluster. Altrimenti, modifica il valore di questo campo in Retain ed esegui il pcluster update-cluster comando. Quindi, esegui pcluster delete-cluster --cluster-name <cluster_name> per eliminare il cluster, ma conserva il gruppo di log archiviato in AmazonCloudWatch.

Ldei dei dei dei del del del del del dei dei dei

Se un nodo di elaborazione statico termina inaspettatamente e non CloudWatch contiene alcun registro, controlla se l'output della console per quel nodo di calcolo AWS ParallelCluster è stato registrato sul nodo principale del registro. /var/log/parallelcluster/compute_console_output Per ulteriori informazioni, consulta Registri chiave per il debug.

Se il /var/log/parallelcluster/compute_console_output registro non è disponibile o non contiene l'output per il nodo, usa il per AWS CLI recuperare l'output della console dal nodo guasto. Accedere al nodo principale del cluster e recuperare il nodo con errore instance-id dal /var/log/parallelcluster/slurm_resume.log file.

Recupera l'output della instance-id console

$ aws ec2 get-console-output --instance-id i-abcdef01234567890

Se un nodo di elaborazione dinamico si interrompe automaticamente dopo l'avvio e non CloudWatch dispone di registri, invia un processo che attivi un'azione di ridimensionamento del cluster. Attendi che l'istanza fallisca e recupera il registro della console dell'istanza.

Accedi al nodo principale del cluster e ottieni il nodo di elaborazione instance-id dal file. /var/log/parallelcluster/slurm_resume.log

Recuperate il del del del del del del del del del del del del del del del del del del del del

$ aws ec2 get-console-output --instance-id i-abcdef01234567890

Il registro di output della console può aiutarti a eseguire il debug della causa principale di un errore del nodo di elaborazione quando il registro del nodo di calcolo non è disponibile.