Mengambil dan melestarikan log - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengambil dan melestarikan log

AWS ParallelCluster membuat metrik Amazon EC2 untuk HeadNode dan Menghitung instans dan penyimpanan. Anda dapat melihat metrik di Dasbor Kustom CloudWatch konsol. AWS ParallelCluster juga membuat aliran CloudWatch log cluster di grup log. Anda dapat melihat log ini di CloudWatch konsol Dasbor Kustom atau grup Log. Bagian konfigurasi cluster Monitoring menjelaskan bagaimana Anda dapat memodifikasi CloudWatch log klaster dan dasbor. Untuk informasi selengkapnya, lihat Integrasi dengan Amazon CloudWatch Logs dan CloudWatch Dasbor Amazon.

Log adalah sumber daya yang berguna untuk memecahkan masalah. Misalnya, jika Anda ingin menghapus klaster yang gagal, mungkin berguna untuk terlebih dahulu membuat arsip log cluster. Ikuti langkah-langkah Log arsip untuk membuat arsip.

Log klaster tidak tersedia di CloudWatch

Jika log klaster tidak tersedia CloudWatch, periksa untuk memastikan Anda belum menimpa konfigurasi AWS ParallelCluster CloudWatch log saat menambahkan log khusus ke konfigurasi.

Untuk menambahkan log kustom ke CloudWatch konfigurasi, pastikan Anda menambahkan ke konfigurasi daripada mengambil dan menimpa. Untuk informasi selengkapnya tentang fetch-config danappend-config, lihat Beberapa file konfigurasi CloudWatch agen di Panduan CloudWatch Pengguna.

Untuk mengembalikan konfigurasi AWS ParallelCluster CloudWatch log, Anda dapat menjalankan perintah berikut di dalam AWS ParallelCluster node:

$ PLATFORM="$(ohai platform | jq -r ".[]")" LOG_GROUP_NAME="$(cat /etc/chef/dna.json | jq -r ".cluster.log_group_name")" SCHEDULER="$(cat /etc/chef/dna.json | jq -r ".cluster.scheduler")" NODE_ROLE="$(cat /etc/chef/dna.json | jq -r ".cluster.node_type")" CONFIG_DATA_PATH="/usr/local/etc/cloudwatch_agent_config.json" /opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/python /usr/local/bin/write_cloudwatch_agent_json.py --platform $PLATFORM --config $CONFIG_DATA_PATH --log-group $LOG_GROUP_NAME --scheduler $SCHEDULER --node-role $NODE_ROLE /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json -s

Log arsip

Anda dapat mengarsipkan log di Amazon S3 atau dalam file lokal (tergantung pada --output-file parameternya).

catatan

Tambahkan izin ke kebijakan bucket Amazon S3 untuk CloudWatch memberikan akses. Untuk informasi selengkapnya, lihat Menetapkan izin pada bucket Amazon S3 di CloudWatch Panduan Pengguna Log.

$ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \ --bucket bucketname --bucket-prefix logs { "url": "https://bucketname.s3.eu-west-1.amazonaws.com/export-log/mycluster-logs-202109071136.tar.gz?..." } # use the --output-file parameter to save the logs locally $ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \ --bucket bucketname --bucket-prefix logs --output-file /tmp/archive.tar.gz { "path": "/tmp/archive.tar.gz" }

Arsip berisi aliran Amazon CloudWatch Logs dan peristiwa AWS CloudFormation tumpukan dari node kepala dan node komputasi selama 14 hari terakhir, kecuali ditentukan secara eksplisit dalam konfigurasi atau dalam parameter untuk perintah. export-cluster-logs Waktu yang dibutuhkan untuk menyelesaikan perintah tergantung pada jumlah node di cluster dan jumlah aliran log yang tersedia di CloudWatch Log. Untuk informasi selengkapnya tentang aliran log yang tersedia, lihatIntegrasi dengan Amazon CloudWatch Logs.

Log yang diawetkan

Mulai dari versi 3.0.0, AWS ParallelCluster mempertahankan CloudWatch Log secara default saat cluster dihapus. Jika Anda ingin menghapus klaster dan mempertahankan lognya, pastikan Monitoring//Logs/CloudWatch/DeletionPolicytidak disetel ke Delete dalam konfigurasi cluster. Jika tidak, ubah nilai untuk bidang ini menjadiRetain, dan jalankan pcluster update-cluster perintah. Kemudian, jalankan pcluster delete-cluster --cluster-name <cluster_name> untuk menghapus cluster, tetapi pertahankan grup log yang disimpan di Amazon CloudWatch.

Log simpul yang dihentikan

Jika node komputasi statis tiba-tiba berakhir dan tidak CloudWatch memiliki log untuk itu, periksa apakah AWS ParallelCluster telah merekam output konsol untuk node komputasi tersebut pada node kepala di log. /var/log/parallelcluster/compute_console_output Untuk informasi selengkapnya, lihat Log kunci untuk debugging.

Jika /var/log/parallelcluster/compute_console_output log tidak tersedia atau tidak berisi output untuk node, gunakan AWS CLI untuk mengambil output konsol dari node yang gagal. Masuk ke node kepala cluster dan dapatkan node yang gagal instance-id dari /var/log/parallelcluster/slurm_resume.log file.

Ambil output konsol dengan menggunakan perintah berikut dengan: instance-id

$ aws ec2 get-console-output --instance-id i-abcdef01234567890

Jika node komputasi dinamis berhenti sendiri setelah diluncurkan dan tidak CloudWatch memiliki log untuk itu, kirimkan pekerjaan yang mengaktifkan tindakan penskalaan klaster. Tunggu instance gagal dan ambil log konsol instance.

Masuk ke node kepala cluster dan dapatkan node komputasi instance-id dari /var/log/parallelcluster/slurm_resume.log file.

Ambil log konsol instance dengan menggunakan perintah berikut:

$ aws ec2 get-console-output --instance-id i-abcdef01234567890

Log keluaran konsol dapat membantu Anda men-debug akar penyebab kegagalan node komputasi saat log node komputasi tidak tersedia.