SageMaker HyperPod FAQ - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

SageMaker HyperPod FAQ

Gunakan pertanyaan umum berikut untuk memecahkan masalah dengan menggunakan. SageMaker HyperPod

T. Mengapa saya tidak dapat menemukan grup log SageMaker HyperPod klaster saya di Amazon CloudWatch?

Secara default, log agen dan log start-up instance dikirim ke akun HyperPod platform. CloudWatch Dalam kasus skrip siklus hidup pengguna, log konfigurasi siklus hidup dikirim ke akun Anda. CloudWatch

Jika Anda menggunakan contoh skrip siklus hidup yang disediakan oleh tim HyperPod layanan, Anda dapat menemukan log konfigurasi siklus hidup yang ditulis/var/log/provision/provisioning.log, dan Anda tidak akan mengalami masalah ini.

Namun, jika Anda menggunakan jalur khusus untuk mengumpulkan log dari penyediaan siklus hidup dan tidak dapat menemukan grup log yang muncul di akun Anda CloudWatch, itu mungkin karena ketidakcocokan di jalur file log yang ditentukan dalam skrip siklus hidup Anda dan apa yang dicari CloudWatch agen yang berjalan pada instance cluster. HyperPod Dalam hal ini, itu berarti Anda perlu mengatur skrip siklus hidup Anda dengan benar untuk mengirim log ke CloudWatch agen, dan juga mengatur konfigurasi CloudWatch agen yang sesuai. Untuk mengatasi masalah, pilih salah satu opsi berikut.

  • Opsi 1: Perbarui skrip siklus hidup Anda untuk menulis log. /var/log/provision/provisioning.log

  • Opsi 2: Perbarui CloudWatch agen untuk mencari jalur kustom Anda untuk mencatat penyediaan siklus hidup.

    1. Setiap instance HyperPod cluster berisi file konfigurasi CloudWatch agen dalam format JSON di/opt/aws/amazon-cloudwatch-agent/sagemaker_cwagent_config.json. Dalam file konfigurasi, cari nama bidanglogs.logs_collected.files.collect_list.file_path. Dengan pengaturan default oleh HyperPod, pasangan kunci-nilai harus "file_path": "/var/log/provision/provisioning.log" seperti yang didokumentasikan di. Logging SageMaker HyperPod di tingkat instans Cuplikan kode berikut menunjukkan bagaimana file JSON terlihat dengan konfigurasi default. HyperPod

      "logs": { "logs_collected": { "files": { "collect_list": [ { "file_path": "/var/log/provision/provisioning.log", "log_group_name": "/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]", "log_stream_name": "LifecycleConfig/[InstanceGroupName]/{instance_id}", "retention_in_days": -1 } ] } }, "force_flush_interval": 3 }
    2. Ganti nilai untuk nama "file_path" bidang dengan jalur kustom yang Anda gunakan dalam skrip siklus hidup Anda. Misalnya, jika Anda telah menyiapkan skrip siklus hidup untuk menulis/var/log/custom-provision/custom-provisioning.log, perbarui nilainya agar sesuai dengannya sebagai berikut.

      "file_path": "/var/log/custom-provision/custom-provisioning.log"
    3. Mulai ulang CloudWatch agen dengan file konfigurasi untuk menyelesaikan penerapan jalur kustom. Misalnya, CloudWatch perintah berikut menunjukkan cara me-restart CloudWatch agen dengan file konfigurasi CloudWatch agen dari langkah 1. Untuk informasi selengkapnya, lihat juga Memecahkan masalah agen. CloudWatch

      sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl \ -a fetch-config -m ec2 -s -c \ file:/opt/aws/amazon-cloudwatch-agent/sagemaker_cwagent_config.json

T. Konfigurasi tertentu apa yang HyperPod dikelola dalam file konfigurasi Slurm seperti dan? slurm.conf gres.conf

Saat Anda membuat klaster Slurm aktif HyperPod, HyperPod agen akan menyiapkan gres.conffile slurm.confdan file /opt/slurm/etc/ untuk mengelola klaster Slurm berdasarkan permintaan pembuatan klaster dan skrip siklus HyperPod hidup Anda. Daftar berikut menunjukkan parameter spesifik apa yang ditangani dan ditimpa HyperPod agen.

penting

Kami sangat menyarankan agar Anda TIDAK mengubah parameter ini dikelola oleh HyperPod.

  • Dalam slurm.conf, HyperPod mengatur parameter dasar berikut:ClusterName,SlurmctldHost,PartitionName, danNodeName.

    Juga, untuk mengaktifkan Lanjutkan otomatis fungsionalitas, HyperPod membutuhkan TaskPlugin dan SchedulerParameters parameter yang ditetapkan sebagai berikut. HyperPod Agen mengatur dua parameter ini dengan nilai yang diperlukan secara default.

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • Di gres.conf, HyperPod mengelola NodeName node GPU.

T. Bagaimana cara menjalankan Docker pada node Slurm? HyperPod

Untuk membantu Anda menjalankan Docker pada node Slurm yang berjalan HyperPod, tim HyperPod layanan menyediakan skrip penyiapan yang dapat Anda sertakan sebagai bagian dari konfigurasi siklus hidup untuk pembuatan klaster. Untuk mempelajari selengkapnya, lihat Mulailah dengan skrip siklus hidup dasar yang disediakan oleh HyperPod dan Jalankan kontainer Docker pada node komputasi Slurm SageMaker HyperPod.

T. Bagaimana cara menggunakan penyimpanan NVMe lokal dari instans P untuk meluncurkan kontainer Docker atau Enroot dengan Slurm?

Karena volume root default node head Anda biasanya dibatasi oleh volume EBS 100GB, Anda perlu mengatur Docker dan Enroot untuk menggunakan penyimpanan instance NVMe lokal. Untuk mempelajari cara mengatur toko NVMe dan menggunakannya untuk meluncurkan kontainer Docker, lihat. Jalankan kontainer Docker pada node komputasi Slurm SageMaker HyperPod

T. Bagaimana cara mengatur grup keamanan EFA?

Jika Anda ingin membuat HyperPod klaster dengan instans yang mendukung EFA, pastikan Anda menyiapkan grup keamanan untuk mengizinkan semua lalu lintas masuk dan keluar ke dan dari grup keamanan itu sendiri. Untuk mempelajari selengkapnya, lihat Langkah 1: Menyiapkan grup keamanan berkemampuan EFA di Panduan Pengguna Amazon EC2.

T. Bagaimana cara memonitor node HyperPod cluster saya? Apakah ada CloudWatch metrik yang diekspor dari? HyperPod

Untuk mendapatkan observabilitas dalam pemanfaatan sumber daya klaster Anda, sebaiknya Anda mengintegrasikan HyperPod klaster dengan Grafana Terkelola Amazon dan Layanan Terkelola Amazon untuk HyperPod Prometheus. Dengan berbagai dasbor Grafana sumber terbuka dan paket eksportir, Anda dapat mengekspor dan memvisualisasikan metrik yang terkait dengan sumber daya cluster. HyperPod Untuk mempelajari lebih lanjut tentang pengaturan SageMaker HyperPod dengan Grafana Terkelola Amazon dan Layanan Terkelola Amazon untuk Prometheus, lihat. Memantau sumber daya SageMaker HyperPod klaster Perhatikan bahwa SageMaker HyperPod saat ini tidak mendukung ekspor metrik sistem ke Amazon. CloudWatch

T. Dapatkah saya menambahkan penyimpanan tambahan ke node HyperPod cluster? Instance cluster memiliki penyimpanan instance lokal terbatas.

Jika penyimpanan instans default tidak mencukupi untuk beban kerja Anda, Anda dapat mengonfigurasi penyimpanan tambahan per instans. Mulai dari rilis pada 20 Juni 2024, Anda dapat menambahkan volume Amazon Elastic Block Store (EBS) tambahan ke setiap instans di cluster Anda. SageMaker HyperPod Perhatikan bahwa kemampuan ini tidak dapat diterapkan ke grup instans SageMaker HyperPod cluster yang ada yang dibuat sebelum 20 Juni 2024. Anda dapat memanfaatkan kemampuan ini dengan menambal SageMaker HyperPod cluster yang ada yang dibuat sebelum 20 Juni 2024 dan menambahkan grup instans baru ke dalamnya. Kemampuan ini sepenuhnya efektif untuk setiap SageMaker HyperPod cluster yang dibuat setelah 20 Juni 2024.