Recuperación y conservación de registros - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Recuperación y conservación de registros

AWS ParallelClustercrea métricas de EC2 para las instancias HeadNode y el almacenamiento de Compute. Puede ver las métricas en los paneles personalizados de la CloudWatch consola. AWS ParallelClustertambién crea flujos de CloudWatch registro de clústeres en grupos de registros. Puede ver estos registros en los paneles personalizados o grupos de registros de la CloudWatch consola. La sección Supervisión de la configuración del clúster describe cómo puede modificar los CloudWatch registros y el panel de control del clúster. Para obtener más información, consulte Integración con Amazon CloudWatch Logs de y CloudWatch Panel de control de Amazon.

Los registros son un recurso útil para solucionar problemas. Por ejemplo, si desea eliminar un clúster con errores, puede ser útil crear primero un archivo de los registros del clúster. Siga los pasosArchivar registros que se indican para crear un archivo.

Los registros de clúster no están disponibles en CloudWatch

Si los registros del clúster no están disponibles en CloudWatch, compruebe que no ha sobrescrito la configuración deAWS ParallelCluster CloudWatch registro al añadir registros personalizados a la configuración.

Para añadir registros personalizados a la CloudWatch configuración, asegúrese de adjuntarlos a la configuración en lugar de buscarlos y sobrescribirlos. Para obtener más información sobrefetch-config yappend-config, consulte los archivos de configuración de varios CloudWatch agentes en la Guía delCloudWatch usuario.

Para restaurar la configuración delAWS ParallelCluster CloudWatch registro, puede ejecutar el siguiente comando dentro de unAWS ParallelCluster nodo:

$ /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json -s

Archivar registros

Puede archivar los registros en Amazon S3 o en un archivo local (según el--output-file parámetro).

nota

Agregue permisos a la política de bucket de Amazon S3 para conceder CloudWatch acceso. Para obtener más información, consulte Establecer permisos en un bucket de Amazon S3 en la Guía del usuario deCloudWatch Logs.

$ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \ --bucket bucketname --bucket-prefix logs { "url": "https://bucketname.s3.eu-west-1.amazonaws.com/export-log/mycluster-logs-202109071136.tar.gz?..." } # use the --output-file parameter to save the logs locally $ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \ --bucket bucketname --bucket-prefix logs --output-file /tmp/archive.tar.gz { "path": "/tmp/archive.tar.gz" }

El archivo contiene las transmisiones de Amazon CloudWatch Logs y los eventos deAWS CloudFormation pila del nodo principal y de los nodos de procesamiento de los últimos 14 días, a menos que se especifique explícitamente en la configuración o en los parámetros delexport-cluster-logs comando. El tiempo que tarda el comando en finalizar depende de la cantidad de nodos del clúster y de la cantidad de flujos de registro disponibles en CloudWatch Logs. Para obtener más información acerca de las secuencias de registro disponibles, consulteIntegración con Amazon CloudWatch Logs de.

Registros preservados

A partir de la versión 3.0.0,AWS ParallelCluster conserva CloudWatch los registros de forma predeterminada cuando se elimina un clúster. Si desea eliminar un clúster y conservar sus registros, asegúrese de que Monitoring//LogsCloudWatch/DeletionPolicyno esté configurado comoDelete en la configuración del clúster. De lo contrario, cambie el valor de este campo aRetain y ejecute elpcluster update-cluster comando. A continuación, ejecutapcluster delete-cluster --cluster-name <cluster_name> para eliminar el clúster, pero conserva el grupo de registro que está almacenado en Amazon CloudWatch.

Registros de nodos terminados

Si un nodo de procesamiento estático termina inesperadamente y no CloudWatch tiene registros, compruebe siAWS ParallelCluster ha registrado la salida de la consola de ese nodo de procesamiento en el nodo principal del/var/log/parallelcluster/compute_console_output registro. Para obtener más información, consulte Registros de claves para la depuración.

Si el/var/log/parallelcluster/compute_console_output registro no está disponible o no contiene la salida del nodo, utilice elAWS CLI para recuperar la salida de la consola del nodo que ha fallado. Inicie sesión en el nodo principal del clúster y obtenga el nodo fallidoinstance-id del/var/log/parallelcluster/slurm_resume.log archivo.

Obtenga la salida de la consola; para ello, use el siguiente comando coninstance-id:

$ aws ec2 get-console-output --instance-id i-abcdef01234567890

Si un nodo de procesamiento dinámico termina automáticamente tras su lanzamiento y no CloudWatch tiene registros, envíe un trabajo que active una acción de escalado de clústeres. Espere a que la instancia falle y recupere el registro de la consola de instancias.

Inicie sesión en el nodo principal del clúster y obtenga el nodoinstance-id de procesamiento del/var/log/parallelcluster/slurm_resume.log archivo.

Recupere el registro de la consola de instancias; para ello, use el siguiente comando:

$ aws ec2 get-console-output --instance-id i-abcdef01234567890

El registro de salida de la consola puede ayudarlo a depurar la causa principal de un error en el nodo de procesamiento cuando el registro del nodo de procesamiento no está disponible.