I log del cluster non sono disponibili in CloudWatch Registri di archivio Registri conservati Registri dei nodi terminati

Recupero e conservazione dei log

AWS ParallelCluster crea EC2 metriche Amazon per istanze HeadNode e storage di calcolo. Puoi visualizzare le metriche nei dashboard personalizzati della CloudWatch console. AWS ParallelCluster crea anche flussi di CloudWatch log del cluster in gruppi di log. È possibile visualizzare questi registri nei dashboard personalizzati o nei CloudWatch gruppi di log della console. La sezione Configurazione del cluster di monitoraggio descrive come modificare i CloudWatch registri del cluster e il dashboard. Per ulteriori informazioni, consultare Integrazione con Amazon CloudWatch Logs e CloudWatch Pannello di controllo Amazon.

I log sono una risorsa utile per la risoluzione dei problemi. Ad esempio, se si desidera eliminare un cluster in errore, potrebbe essere utile creare prima un archivio dei log del cluster. Segui i passaggi indicati Registri di archivio per creare un archivio.

Argomenti

I log del cluster non sono disponibili in CloudWatch
Registri di archivio
Registri conservati
Registri dei nodi terminati

I log del cluster non sono disponibili in CloudWatch

Se i log del cluster non sono disponibili in CloudWatch, assicurati di non aver sovrascritto la configurazione del AWS ParallelCluster CloudWatch registro quando aggiungi log personalizzati alla configurazione.

Per aggiungere log personalizzati alla CloudWatch configurazione, assicurati di aggiungerli alla configurazione anziché recuperarli e sovrascriverli. Per ulteriori informazioni su fetch-config eappend-config, consulta File di configurazione per più CloudWatch agenti nella Guida per l'utente. CloudWatch

Per ripristinare la configurazione del AWS ParallelCluster CloudWatch registro, puoi eseguire i seguenti comandi all'interno di un AWS ParallelCluster nodo:


$ PLATFORM="$(ohai platform | jq -r ".[]")"
LOG_GROUP_NAME="$(cat /etc/chef/dna.json | jq -r ".cluster.log_group_name")"
SCHEDULER="$(cat /etc/chef/dna.json | jq -r ".cluster.scheduler")"
NODE_ROLE="$(cat /etc/chef/dna.json | jq -r ".cluster.node_type")"
CONFIG_DATA_PATH="/usr/local/etc/cloudwatch_agent_config.json"
/opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/python /usr/local/bin/write_cloudwatch_agent_json.py --platform $PLATFORM --config $CONFIG_DATA_PATH --log-group $LOG_GROUP_NAME --scheduler $SCHEDULER --node-role $NODE_ROLE
/opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json -s

Registri di archivio

Puoi archiviare i log in Amazon S3 o in un file locale (a seconda --output-file del parametro).

Nota

A partire dalla versione AWS ParallelCluster 3.12.0, puoi esportare i log nel bucket predefinito. AWS ParallelCluster In questo caso non è necessario impostare le autorizzazioni del bucket.

Nota

Aggiungi le autorizzazioni alla policy dei bucket di Amazon S3 per concedere l'accesso. CloudWatch Per ulteriori informazioni, consulta Impostare le autorizzazioni su un bucket Amazon S3 nella CloudWatch Logs User Guide.


$ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \
  --bucket bucketname --bucket-prefix logs
{
  "url": "https://bucketname.s3.eu-west-1.amazonaws.com/export-log/mycluster-logs-202109071136.tar.gz?..."
}

# use the --output-file parameter to save the logs locally
$ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \
  --bucket bucketname --bucket-prefix logs --output-file /tmp/archive.tar.gz
{
  "path": "/tmp/archive.tar.gz"
}

L'archivio contiene CloudWatch i flussi di Amazon Logs e gli eventi AWS CloudFormation dello stack dal nodo principale e dai nodi di calcolo degli ultimi 14 giorni, a meno che non sia specificato esplicitamente nella configurazione o nei parametri del comando. export-cluster-logs Il tempo necessario per completare il comando dipende dal numero di nodi nel cluster e dal numero di flussi di log disponibili in Logs. CloudWatch Per ulteriori informazioni sui flussi di log disponibili, vedere. Integrazione con Amazon CloudWatch Logs

Registri conservati

A partire dalla versione 3.0.0, AWS ParallelCluster conserva i CloudWatch log per impostazione predefinita quando un cluster viene eliminato. Se desideri eliminare un cluster e conservarne i log, assicurati che Monitoring//LogsCloudWatch/DeletionPolicynon sia impostato su nella configurazione del cluster. Delete Altrimenti, modifica il valore di questo campo in Retain ed esegui il pcluster update-cluster comando. Quindi, esegui pcluster delete-cluster --cluster-name <cluster_name> per eliminare il cluster, ma conserva il gruppo di log archiviato in Amazon CloudWatch.

Registri dei nodi terminati

Se un nodo di calcolo statico termina in modo imprevisto e non CloudWatch contiene alcun log, controlla se l'output della console per quel nodo di calcolo AWS ParallelCluster è stato registrato sul nodo principale del registro. /var/log/parallelcluster/compute_console_output Per ulteriori informazioni, consulta Registri chiave per il debug.

Se il /var/log/parallelcluster/compute_console_output log non è disponibile o non contiene l'output per il nodo, usa il per recuperare l'output della console dal AWS CLI nodo guasto. Accedi al nodo principale del cluster e recupera il nodo guasto instance-id dal /var/log/parallelcluster/slurm_resume.log file.

Recupera l'output della console utilizzando il seguente comando con: instance-id


$ aws ec2 get-console-output --instance-id i-abcdef01234567890

Se un nodo di calcolo dinamico si interrompe automaticamente dopo l'avvio e non CloudWatch contiene alcun registro, invia un processo che attivi un'azione di scalabilità del cluster. Attendi che l'istanza fallisca e recupera il log della console dell'istanza.

Accedi al nodo principale del cluster e recupera il nodo di calcolo instance-id dal /var/log/parallelcluster/slurm_resume.log file.

Per recuperare il registro della console dell'istanza, utilizzate il seguente comando:


$ aws ec2 get-console-output --instance-id i-abcdef01234567890

Il log di output della console può aiutarti a eseguire il debug della causa principale di un errore del nodo di calcolo quando il log del nodo di calcolo non è disponibile.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Recupera i log di PCUI e AWS ParallelCluster di runtime

AWS CloudFormation risorsa personalizzata