Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Journaux de sortie de la console Amazon EC2
Lorsqu'elle AWS ParallelCluster détecte qu'une instance de nœud de calcul statique se termine de manière inattendue, elle tente de récupérer la sortie de la console Amazon EC2 à partir de l'instance de nœud terminée après un certain temps. Ainsi, si le nœud de calcul n'a pas pu communiquer avec Amazon CloudWatch, des informations de dépannage utiles expliquant pourquoi le nœud s'est arrêté peuvent toujours être extraites de la sortie de la console. Cette sortie de console est enregistrée dans le /var/log/parallelcluster/compute_console_output
journal du nœud principal. Pour plus d'informations sur la sortie de la console Amazon EC2, consultez la section Sortie de la console d'instance dans le Guide de l'utilisateur Amazon EC2 pour les instances Linux.
Par défaut, extrait AWS ParallelCluster uniquement la sortie de la console à partir d'un sous-ensemble d'échantillons de nœuds terminés. Cela évite que le nœud principal du cluster ne soit submergé par plusieurs demandes de sortie de console causées par un grand nombre de résiliations. Par défaut, AWS ParallelCluster attend 5 minutes entre la détection de la terminaison et la récupération de la sortie de console pour laisser à Amazon EC2 le temps de récupérer la sortie de console finale depuis les nœuds.
Vous pouvez modifier la taille de l'échantillon et les valeurs des paramètres de temps d'attente dans le /etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf
fichier situé sur le nœud principal.
Cette fonctionnalité est ajoutée dans la AWS ParallelCluster version 3.5.0.
Paramètres de sortie de la console Amazon EC2
Vous pouvez modifier les valeurs des paramètres de sortie de la console Amazon EC2 suivants dans le /etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf
fichier situé sur le nœud principal.
compute_console_logging_enabled
Pour désactiver la collecte des journaux de sortie de la console, définissez compute_console_logging_enabled
surfalse
. L’argument par défaut est true
.
Vous pouvez mettre à jour ce paramètre à tout moment, sans arrêter le parc informatique.
compute_console_logging_max_sample_size
compute_console_logging_max_sample_size
définit le nombre maximum de nœuds de calcul à partir desquels sont AWS ParallelCluster collectées les sorties de console chaque fois qu'il détecte une interruption inattendue. Si cette valeur est inférieure à1
, AWS ParallelCluster extrait la sortie de console de tous les nœuds terminés. La valeur par défaut est 1
.
Vous pouvez mettre à jour ce paramètre à tout moment, sans arrêter le parc informatique.
compute_console_wait_time
compute_console_wait_time
définit le temps, en secondes, qui s'écoule entre AWS ParallelCluster la détection d'une défaillance d'un nœud et la collecte de la sortie de console à partir de ce nœud. Vous pouvez augmenter le temps d'attente si vous déterminez qu'Amazon EC2 a besoin de plus de temps pour collecter le résultat final du nœud arrêté. La valeur par défaut est de 300 secondes (5 minutes).
Vous pouvez mettre à jour ce paramètre à tout moment, sans arrêter le parc informatique.