Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Jenis Instance untuk Algoritma Bawaan
Sebagian besar algoritma Amazon SageMaker AI telah direkayasa untuk memanfaatkan komputasi GPU untuk pelatihan. Meskipun biaya per instans lebih tinggi, GPUs latih lebih cepat, membuatnya lebih hemat biaya. Pengecualian dicatat dalam panduan ini.
Untuk mempelajari tentang EC2 instance yang didukung, lihat Detail instans
Ukuran dan jenis data dapat memiliki efek besar pada konfigurasi perangkat keras mana yang paling efektif. Ketika model yang sama dilatih secara berulang, pengujian awal di seluruh spektrum jenis instance dapat menemukan konfigurasi yang lebih hemat biaya dalam jangka panjang. Selain itu, algoritme yang melatih paling efisien GPUs mungkin tidak memerlukan inferensi GPUs yang efisien. Eksperimen untuk menentukan solusi efektivitas biaya yang paling banyak. Untuk mendapatkan rekomendasi instans otomatis atau melakukan uji pemuatan khusus, gunakan Amazon SageMaker Inference Recommender.
Untuk informasi selengkapnya tentang spesifikasi perangkat keras SageMaker AI, lihat Jenis Instans Amazon SageMaker AI ML
UltraServers
UltraServers sambungkan beberapa EC2 instans Amazon menggunakan interkoneksi akselerator bandwidth tinggi latensi rendah. Mereka dibangun untuk menangani AI/ML beban kerja skala besar yang membutuhkan daya pemrosesan yang signifikan. Untuk informasi selengkapnya, lihat Amazon EC2 UltraServers
Untuk memulai UltraServers di Amazon SageMaker AI, buat rencana pelatihan. Setelah Anda UltraServer tersedia dalam rencana pelatihan, buat pekerjaan pelatihan dengan AWS Management Console, Amazon SageMaker AI API, atau AWS CLI. Ingatlah untuk menentukan jenis UltraServer instans yang Anda beli dalam rencana pelatihan.
An UltraServer dapat menjalankan satu atau beberapa pekerjaan sekaligus. UltraServers mengelompokkan contoh bersama, yang memberi Anda fleksibilitas dalam hal cara mengalokasikan UltraServer kapasitas Anda di organisasi Anda. Saat Anda mengonfigurasi pekerjaan, ingat juga pedoman keamanan data organisasi Anda, karena instance dalam satu pekerjaan UltraServer dapat mengakses data untuk pekerjaan lain di instans lain pada saat yang sama UltraServer.
Jika Anda mengalami kegagalan perangkat keras di UltraServer, SageMaker AI secara otomatis mencoba menyelesaikan masalah. Saat SageMaker AI menyelidiki dan menyelesaikan masalah, Anda mungkin menerima pemberitahuan dan tindakan melalui AWS Health Acara atau. AWS Dukungan
Setelah pekerjaan pelatihan Anda selesai, SageMaker AI menghentikan instans, tetapi mereka tetap tersedia dalam rencana pelatihan Anda jika rencananya masih aktif. Untuk menjaga instance tetap UltraServer berjalan setelah pekerjaan selesai, Anda dapat menggunakan kolam hangat yang dikelola.
Jika rencana pelatihan Anda memiliki kapasitas yang cukup, Anda bahkan dapat menjalankan pekerjaan pelatihan di beberapa UltraServers. Secara default, masing-masing UltraServer dilengkapi dengan 18 instance, terdiri dari 17 instance dan 1 instance cadangan. Jika Anda membutuhkan lebih banyak contoh, Anda harus membeli lebih banyak UltraServers. Saat membuat pekerjaan pelatihan, Anda dapat mengonfigurasi bagaimana pekerjaan ditempatkan UltraServers menggunakan InstancePlacementConfig
parameter.
Jika Anda tidak mengonfigurasi penempatan pekerjaan, SageMaker AI secara otomatis mengalokasikan pekerjaan ke instans di dalam Anda. UltraServer Strategi default ini didasarkan pada upaya terbaik yang memprioritaskan mengisi semua instance dalam satu UltraServer sebelum menggunakan yang berbeda. UltraServer Misalnya, jika Anda meminta 14 instans dan memiliki 2 UltraServers dalam rencana pelatihan Anda, SageMaker AI menggunakan semua instance di yang pertama. UltraServer Jika Anda meminta 20 instans dan memiliki 2 UltraServers dalam rencana pelatihan Anda, SageMaker AI akan menggunakan semua 17 instance di yang pertama UltraServer dan kemudian menggunakan 3 dari yang kedua. UltraServer Contoh dalam UltraServer penggunaan NVLink untuk berkomunikasi, tetapi individu UltraServers menggunakan Elastic Fabric Adapter (EFA), yang dapat memengaruhi kinerja pelatihan model.