SageMaker HyperPod - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

SageMaker HyperPod

SageMaker HyperPod membantu Anda menyediakan cluster tangguh untuk menjalankan beban kerja machine learning (ML) dan mengembangkan state-of-the-art model seperti model bahasa besar (LLM), model difusi, dan model dasar (FM). Ini mempercepat pengembangan FM dengan menghilangkan angkat berat yang tidak berdiferensiasi yang terlibat dalam membangun dan memelihara cluster komputasi skala besar yang ditenagai oleh ribuan akselerator seperti AWS Trainium dan NVIDIA A100 dan H100 Graphical Processing Unit (GPU). Ketika akselerator gagal, cluster penyembuhan diri secara otomatis mendeteksi dan mengganti perangkat keras yang rusak dengan cepat sehingga Anda dapat fokus menjalankan beban kerja ML selama berminggu-minggu dan berbulan-bulan tanpa gangguan. Selain itu, dengan SageMaker HyperPod, Anda dapat menyesuaikan lingkungan komputasi agar sesuai dengan kebutuhan Anda dan mengonfigurasinya dengan perpustakaan pelatihan SageMaker terdistribusi Amazon untuk mencapai kinerja optimal. AWS

Cluster operasi

Anda dapat membuat, mengonfigurasi, dan memelihara SageMaker HyperPod cluster secara grafis melalui antarmuka pengguna konsol (UI) dan secara terprogram melalui antarmuka AWS baris perintah (CLI) atau. AWS SDK for Python (Boto3) Dengan Amazon VPC, Anda dapat mengamankan jaringan cluster dan juga memanfaatkan konfigurasi cluster Anda dengan sumber daya di VPC Anda, seperti Amazon FSx for Lustre, yang menawarkan throughput tercepat. Anda juga dapat memberikan peran IAM yang berbeda ke grup instans klaster, dan membatasi tindakan yang dapat dioperasikan oleh sumber daya klaster dan pengguna Anda. Untuk mempelajari selengkapnya, lihat Beroperasi SageMaker HyperPod.

Mengonfigurasi lingkungan ML Anda

SageMaker HyperPod berjalanSageMaker HyperPod DLAMI, yang mengatur lingkungan ML pada HyperPod cluster. Anda dapat mengonfigurasi penyesuaian tambahan ke DLAMI dengan menyediakan skrip siklus hidup untuk mendukung kasus penggunaan Anda. Untuk mempelajari lebih lanjut tentang cara mengatur skrip siklus hidup, lihat dan. Memulai dengan SageMaker HyperPod SageMaker HyperPod praktik terbaik konfigurasi siklus hidup

Penjadwalan pekerjaan

Setelah Anda berhasil membuat HyperPod cluster, pengguna cluster dapat masuk ke node cluster (seperti node head atau controller, log-in node, dan worker node) dan menjadwalkan pekerjaan untuk menjalankan beban kerja machine learning. Untuk mempelajari selengkapnya, lihat Jalankan pekerjaan di SageMaker HyperPod cluster.

Ketahanan terhadap kegagalan perangkat keras

SageMaker HyperPod menjalankan pemeriksaan kesehatan pada node cluster dan menyediakan fungsionalitas auto-resume beban kerja. Dengan fitur ketahanan klaster HyperPod, Anda dapat melanjutkan beban kerja dari pos pemeriksaan terakhir yang Anda simpan, setelah node yang salah diganti dengan node yang sehat di cluster dengan lebih dari 16 node. Untuk mempelajari selengkapnya, lihat SageMaker HyperPod ketahanan klaster.

Pencatatan dan pengelolaan klaster

Anda dapat menemukan metrik pemanfaatan SageMaker HyperPod sumber daya dan log siklus hidup di Amazon CloudWatch, dan mengelola SageMaker HyperPod sumber daya dengan menandainya. Setiap CreateCluster API yang dijalankan membuat aliran log yang berbeda, dinamai dalam <cluster-name>-<timestamp> format. Di aliran log, Anda dapat memeriksa nama host, nama skrip siklus hidup yang gagal, dan output dari skrip yang gagal seperti dan. stdout stderr Untuk informasi selengkapnya, lihat SageMaker HyperPod manajemen klaster.

Kompatibel dengan SageMaker alat

Dengan menggunakan SageMaker HyperPod, Anda dapat mengonfigurasi cluster dengan pustaka komunikasi kolektif yang AWS dioptimalkan yang ditawarkan oleh SageMaker, seperti perpustakaan paralelisme data SageMaker terdistribusi (SMDDP). Pustaka SMDDP mengimplementasikan AllGather operasi yang dioptimalkan ke AWS komputasi dan infrastruktur jaringan untuk instans pembelajaran SageMaker mesin berkinerja terbaik yang didukung oleh GPU NVIDIA A100. Untuk mempelajari informasi lebih lanjut, lihat Jalankan beban kerja pelatihan terdistribusi dengan Slurm on SageMaker HyperPod.