As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Logs do agendador no AWS PCS
Você pode configurar o AWS PCS para enviar dados de registro detalhados do seu agendador de cluster para o Amazon CloudWatch Logs, o Amazon Simple Storage Service (Amazon S3) e o Amazon Data Firehose. Isso pode ajudar no monitoramento e na solução de problemas.
AWS O PCS fornece registros dos seguintes daemons do Slurm por meio do tipo de log: PCS_SCHEDULER_LOGS
-
slurmctld— O daemon do controlador Slurm. Disponível para todas as versões compatíveis do Slurm. -
slurmdbd— O daemon do banco de dados Slurm. Disponível para o Slurm 24.11 e versões posteriores. -
slurmrestd— O daemon da API REST do Slurm. Disponível para o Slurm 25.05 e versões posteriores.
Os clusters que já têm a PCS_SCHEDULER_LOGS entrega configurada começam a receber slurmdbd e slurmrestd registram automaticamente quando executam uma versão compatível do Slurm. Não é exigida nenhuma configuração adicional.
Sumário
Pré-requisitos
O diretor do IAM que gerencia o cluster AWS PCS deve permitir a pcs:AllowVendedLogDeliveryForResource ação.
O exemplo a seguir da política do IAM concede as permissões necessárias.
Configurar registros do agendador
Você pode configurar os registros do agendador para seu cluster AWS PCS com o Console de gerenciamento da AWS ou AWS CLI.
Caminhos e nomes do fluxo de registros do agendador
O caminho e o nome dos registros do agendador AWS PCS dependem do tipo de destino.
O ${log_name} valor nos caminhos abaixo éslurmctld,slurmdbd, ouslurmrestd, dependendo do daemon que produziu o log.
-
CloudWatch Logs
-
Um stream de CloudWatch registros segue essa convenção de nomenclatura.
AWSLogs/PCS/${cluster_id}/${log_name}_${scheduler_major_version}.logexemplo
AWSLogs/PCS/abcdef0123/slurmctld_25.11.log AWSLogs/PCS/abcdef0123/slurmdbd_24.11.log AWSLogs/PCS/abcdef0123/slurmrestd_25.05.log
-
-
Bucket do S3
-
Um caminho de saída do bucket S3 segue esta convenção de nomenclatura:
AWSLogs/${account-id}/PCS/${region}/${cluster_id}/${log_name}/${scheduler_major_version}/yyyy/MM/dd/HH/exemplo
AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmctld/25.11/2024/09/01/00/ AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmdbd/24.11/2024/09/01/00/ AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmrestd/25.05/2024/09/01/00/
-
Um nome de objeto S3 segue esta convenção:
PCS_${log_name}_${scheduler_major_version}_#{expr date 'event_timestamp', format: "yyyy-MM-dd-HH"}_${cluster_id}_${hash}.logexemplo
PCS_slurmctld_25.11_2024-09-01-00_abcdef0123_0123abcdef.log
-
Exemplos de registros de log do agendador
AWS Os registros do agendador PCS são estruturados. Eles incluem campos como identificador do cluster, tipo de agendador, versões principais e de patch, além da mensagem de log emitida pelo processo daemon do Slurm. Os node_type campos log_name e identificam qual daemon produziu o log.
O exemplo a seguir mostra um registro de slurmctld log.
{
"resource_id": "s3431v9rx2",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1721230979,
"log_level": "info",
"log_name": "slurmctld",
"scheduler_type": "slurm",
"scheduler_major_version": "25.11",
"scheduler_patch_version": "2",
"node_type": "controller_primary",
"message": "[2024-07-17T15:42:58.614+00:00] Running as primary controller\n"
}
O exemplo a seguir mostra um registro de slurmdbd log (Slurm 24.11 e versões posteriores).
{
"resource_id": "pcs_bu93qsds2j",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1774485082772,
"log_level": "info",
"log_name": "slurmdbd",
"scheduler_type": "slurm",
"scheduler_major_version": "25.11",
"scheduler_patch_version": "2",
"node_type": "slurmdbd_primary",
"message": "[2026-03-26T00:31:22.772+00:00] mysql_common: storage token refreshed"
}
O exemplo a seguir mostra um registro de slurmrestd log (Slurm 25.05 e versões posteriores).
{
"resource_id": "pcs_bu93qsds2j",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1774485082772,
"log_level": "info",
"log_name": "slurmrestd",
"scheduler_type": "slurm",
"scheduler_major_version": "25.05",
"scheduler_patch_version": "3",
"node_type": "slurmrestd_primary",
"message": "[2026-03-26T00:31:22.772+00:00] slurmrestd: Listening on port 6820\n"
}