Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Récupération et conservation des journaux
AWS ParallelCluster crée des métriques Amazon EC2 pour HeadNode et calcule les instances et le stockage. Vous pouvez consulter les statistiques dans les tableaux de bord personnalisés de la CloudWatch console. AWS ParallelCluster crée également des flux de CloudWatch journaux de cluster dans des groupes de journaux. Vous pouvez consulter ces journaux dans les tableaux de bord personnalisés ou les groupes de journaux de la CloudWatch console. La section Configuration du cluster de surveillance décrit comment modifier les CloudWatch journaux et le tableau de bord du cluster. Pour plus d’informations, consultez Intégration à Amazon CloudWatch Logs et Tableau de CloudWatch bord Amazon.
Les journaux constituent une ressource utile pour résoudre les problèmes. Par exemple, si vous souhaitez supprimer un cluster défaillant, il peut être utile de créer d'abord une archive des journaux du cluster. Suivez les étapes décrites Journaux d'archivage pour créer une archive.
Rubriques
Les journaux du cluster ne sont pas disponibles dans CloudWatch
Si les journaux de cluster ne sont pas disponibles dans CloudWatch, assurez-vous de ne pas avoir remplacé la configuration des AWS ParallelCluster CloudWatch journaux lorsque vous ajoutez des journaux personnalisés à la configuration.
Pour ajouter des journaux personnalisés à la CloudWatch configuration, veillez à les ajouter à la configuration plutôt que de les récupérer et de les remplacer. Pour plus d'informations sur fetch-config
etappend-config
, consultez la section Fichiers de configuration de plusieurs CloudWatch agents dans le Guide de CloudWatch l'utilisateur.
Pour restaurer la configuration du AWS ParallelCluster CloudWatch journal, vous pouvez exécuter les commandes suivantes dans un AWS ParallelCluster nœud :
$
PLATFORM="$(ohai platform | jq -r ".[]")" LOG_GROUP_NAME="$(cat /etc/chef/dna.json | jq -r ".cluster.log_group_name")" SCHEDULER="$(cat /etc/chef/dna.json | jq -r ".cluster.scheduler")" NODE_ROLE="$(cat /etc/chef/dna.json | jq -r ".cluster.node_type")" CONFIG_DATA_PATH="/usr/local/etc/cloudwatch_agent_config.json" /opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/python /usr/local/bin/write_cloudwatch_agent_json.py --platform $PLATFORM --config $CONFIG_DATA_PATH --log-group $LOG_GROUP_NAME --scheduler $SCHEDULER --node-role $NODE_ROLE /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json -s
Journaux d'archivage
Vous pouvez archiver les journaux dans Amazon S3 ou dans un fichier local (selon le --output-file
paramètre).
Note
Ajoutez des autorisations à la politique du compartiment Amazon S3 pour accorder CloudWatch l'accès. Pour plus d'informations, consultez la section Définir des autorisations sur un compartiment Amazon S3 dans le Guide de l'utilisateur CloudWatch des journaux.
$
pcluster export-cluster-logs --cluster-name
mycluster
--regioneu-west-1
\ --bucketbucketname
--bucket-prefixlogs
{ "url": "https://bucketname.s3.eu-west-1.amazonaws.com/export-log/mycluster-logs-202109071136.tar.gz?..." }
# use the --output-file parameter to save the logs locally$
pcluster export-cluster-logs --cluster-name
mycluster
--regioneu-west-1
\ --bucketbucketname
--bucket-prefixlogs
--output-file/tmp/archive.tar.gz
{ "path": "/tmp/archive.tar.gz" }
L'archive contient les flux Amazon CloudWatch Logs et les événements de AWS CloudFormation pile provenant du nœud principal et des nœuds de calcul au cours des 14 derniers jours, sauf indication explicite dans la configuration ou dans les paramètres de la export-cluster-logs
commande. Le temps nécessaire à la fin de la commande dépend du nombre de nœuds du cluster et du nombre de flux de CloudWatch journaux disponibles dans Logs. Pour plus d'informations sur les flux de journaux disponibles, consultezIntégration à Amazon CloudWatch Logs.
Bûches préservées
À partir de la version 3.0.0, AWS ParallelCluster préserve CloudWatch les journaux par défaut lorsqu'un cluster est supprimé. Si vous souhaitez supprimer un cluster et conserver ses journaux, assurez-vous que Monitoring//LogsCloudWatch/DeletionPolicyn'est pas défini sur Delete
dans la configuration du cluster. Sinon, remplacez la valeur de ce champ par et exécutez la pcluster update-cluster
commande. Retain
Exécutez ensuite pcluster delete-cluster --cluster-name
pour supprimer le cluster, mais conservez le groupe de journaux stocké sur Amazon CloudWatch.<cluster_name>
Journaux des nœuds interrompus
Si un nœud de calcul statique se termine de manière inattendue et ne CloudWatch possède aucun journal, vérifiez s'il AWS ParallelCluster a enregistré la sortie de console pour ce nœud de calcul sur le nœud principal du /var/log/parallelcluster/compute_console_output
journal. Pour plus d’informations, consultez Journaux clés pour le débogage.
Si le /var/log/parallelcluster/compute_console_output
journal n'est pas disponible ou ne contient pas la sortie du nœud, utilisez le AWS CLI pour récupérer la sortie de console du nœud défaillant. Connectez-vous au nœud principal du cluster et récupérez le nœud instance-id
défaillant dans le /var/log/parallelcluster/slurm_resume.log
fichier.
Récupérez la sortie de la console à l'aide de la commande suivante avec instance-id
:
$
aws ec2 get-console-output --instance-id
i-abcdef01234567890
Si un nœud de calcul dynamique s'arrête automatiquement après son lancement et ne CloudWatch possède aucun journal, soumettez une tâche qui active une action de dimensionnement du cluster. Attendez que l'instance échoue et récupérez le journal de la console de l'instance.
Connectez-vous au nœud principal du cluster et récupérez le nœud instance-id
de calcul depuis le /var/log/parallelcluster/slurm_resume.log
fichier.
Récupérez le journal de la console de l'instance à l'aide de la commande suivante :
$
aws ec2 get-console-output --instance-id
i-abcdef01234567890
Le journal de sortie de la console peut vous aider à résoudre la cause première d'une défaillance d'un nœud de calcul lorsque le journal du nœud de calcul n'est pas disponible.