Mengalokasikan kuota komputasi dalam tata kelola tugas Amazon SageMaker HyperPod

Administrator klaster dapat memutuskan bagaimana organisasi menggunakan komputasi yang dibeli. Melakukannya mengurangi pemborosan dan sumber daya yang menganggur. Anda dapat mengalokasikan kuota komputasi sehingga tim dapat meminjam sumber daya yang tidak digunakan satu sama lain. Menghitung alokasi kuota dalam tata kelola HyperPod tugas memungkinkan administrator mengalokasikan sumber daya pada tingkat instans dan pada tingkat sumber daya yang lebih terperinci. Kemampuan ini menyediakan manajemen sumber daya yang fleksibel dan efisien untuk tim dengan memungkinkan kontrol terperinci atas sumber daya komputasi individu alih-alih memerlukan seluruh alokasi instance. Mengalokasikan pada tingkat granular menghilangkan inefisiensi alokasi tingkat instans tradisional. Melalui pendekatan ini, Anda dapat mengoptimalkan pemanfaatan sumber daya dan mengurangi komputasi idle.

Alokasi kuota komputasi mendukung tiga jenis alokasi sumber daya: akselerator, vCPU, dan memori. Akselerator adalah komponen dalam contoh komputer yang dipercepat yang melakukan fungsi, seperti perhitungan angka floating point, pemrosesan grafis, atau pencocokan pola data. Akselerator termasuk GPUs, akselerator Trainium, dan inti neuron. Untuk berbagi GPU multi-tim, tim yang berbeda dapat menerima alokasi GPU spesifik dari jenis instans yang sama, memaksimalkan pemanfaatan perangkat keras akselerator. Untuk beban kerja intensif memori yang memerlukan RAM tambahan untuk preprocessing data atau skenario caching model, Anda dapat mengalokasikan kuota memori di luar rasio default. GPU-to-memory Untuk tugas praprosesing CPU yang membutuhkan sumber daya CPU besar bersama pelatihan GPU, Anda dapat mengalokasikan alokasi sumber daya CPU independen.

Setelah Anda memberikan nilai, tata kelola HyperPod tugas menghitung rasio menggunakan rumus sumber daya yang dialokasikan dibagi dengan jumlah total sumber daya yang tersedia dalam instance. HyperPod Tata kelola tugas kemudian menggunakan rasio ini untuk menerapkan alokasi default ke sumber daya lain, tetapi Anda dapat mengganti default ini dan menyesuaikannya berdasarkan kasus penggunaan Anda. Berikut ini adalah contoh skenario bagaimana tata kelola HyperPod tugas mengalokasikan sumber daya berdasarkan nilai Anda:

Hanya akselerator yang ditentukan - tata kelola HyperPod tugas menerapkan rasio default untuk vCPU dan memori berdasarkan nilai akselerator.
Hanya vCPU yang ditentukan - tata kelola HyperPod tugas menghitung rasio dan menerapkannya ke memori. Akselerator diatur ke 0.
Hanya memori yang ditentukan - tata kelola HyperPod tugas menghitung rasio dan menerapkannya ke vCPU karena komputasi diperlukan untuk menjalankan beban kerja yang ditentukan memori. Akselerator diatur ke 0.

Untuk mengontrol alokasi kuota secara terprogram, Anda dapat menggunakan ComputeQuotaResourceConfigobjek dan menentukan alokasi Anda dalam bilangan bulat.


{
    "ComputeQuotaConfig": {
        "ComputeQuotaResources": [{
            "InstanceType": "ml.g5.24xlarge",
            "Accelerators": "16",
            "vCpu": "200.0",
            "MemoryInGiB": "2.0"
        }]
    }
}

Untuk melihat semua alokasi yang dialokasikan, termasuk default, gunakan operasi. DescribeComputeQuota Untuk memperbarui alokasi Anda, gunakan UpdateComputeQuotaoperasi.

Anda juga dapat menggunakan HyperPod CLI untuk mengalokasikan kuota komputasi. Untuk informasi selengkapnya tentang API, lihat . Contoh berikut menunjukkan cara mengatur kuota komputasi menggunakan CLI. HyperPod


hyp create hyp-pytorch-job --version 1.1 --job-name sample-job \
--image 123456789012.dkr.ecr.us-west-2.amazonaws.com/ptjob:latest \
--pull-policy "Always" \
--tasks-per-node 1 \
--max-retry 1 \
--priority high-priority \
--namespace hyperpod-ns-team-name \
--queue-name hyperpod-ns-team-name-localqueue \
--instance-type sample-instance-type \
--accelerators 1 \
--vcpu 3 \
--memory 1 \
--accelerators-limit 1 \
--vcpu-limit 4 \
--memory-limit 2

Untuk mengalokasikan kuota menggunakan AWS konsol, ikuti langkah-langkah ini.

Buka konsol Amazon SageMaker AI di https://console.aws.amazon.com/sagemaker/.
Di bawah HyperPod cluster, pilih Manajemen cluster.
Di bawah Alokasi komputasi, pilih Buat.
Jika Anda belum memiliki instance, pilih Tambahkan alokasi untuk menambahkan instance.
Di bawah Alokasi, pilih untuk mengalokasikan berdasarkan instans atau sumber daya individu. Jika Anda mengalokasikan berdasarkan sumber daya individu, SageMaker AI secara otomatis menetapkan alokasi ke sumber daya lain dengan rasio yang Anda pilih. Untuk mengganti alokasi berbasis rasio ini, gunakan sakelar yang sesuai untuk mengganti komputasi tersebut.
Ulangi langkah 4 dan 5 untuk mengonfigurasi instance tambahan.

Setelah mengalokasikan kuota komputasi, Anda kemudian dapat mengirimkan lowongan kerja melalui CLI atau. HyperPod kubectl HyperPodmenjadwalkan beban kerja secara efisien berdasarkan kuota yang tersedia.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menghapus kebijakan

Contoh perintah