Pelatihan Spot Terkelola di Amazon SageMaker - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pelatihan Spot Terkelola di Amazon SageMaker

Amazon SageMaker memudahkan untuk melatih model pembelajaran mesin menggunakan instans Amazon EC2 Spot yang dikelola. Pelatihan spot terkelola dapat mengoptimalkan biaya model pelatihan hingga 90% dibandingkan instans sesuai permintaan. SageMaker mengelola interupsi Spot atas nama Anda.

Pelatihan Spot Terkelola menggunakan instans Amazon EC2 Spot untuk menjalankan pekerjaan pelatihan, bukan instans sesuai permintaan. Anda dapat menentukan pekerjaan pelatihan mana yang menggunakan instans spot dan kondisi penghentian yang menentukan berapa lama SageMaker menunggu pekerjaan dijalankan menggunakan instans Amazon EC2 Spot. Metrik dan log yang dihasilkan selama pelatihan berjalan tersedia di CloudWatch.

Penyetelan model SageMaker otomatis Amazon, juga dikenal sebagai tuning hyperparameter, dapat menggunakan pelatihan spot terkelola. Untuk informasi lebih lanjut tentang penyetelan model otomatis, lihatPenyetelan model otomatis dengan SageMaker.

Instans spot dapat terganggu, menyebabkan pekerjaan membutuhkan waktu lebih lama untuk memulai atau menyelesaikan. Anda dapat mengonfigurasi pekerjaan pelatihan spot terkelola untuk menggunakan pos pemeriksaan. SageMaker menyalin data pos pemeriksaan dari jalur lokal ke Amazon S3. Saat pekerjaan dimulai ulang, SageMaker salin data dari Amazon S3 kembali ke jalur lokal. Pekerjaan pelatihan kemudian dapat dilanjutkan dari pos pemeriksaan terakhir alih-alih memulai kembali. Untuk informasi selengkapnya tentang pos pemeriksaan, lihat. Pos pemeriksaan di Amazon SageMaker

catatan

Kecuali pekerjaan pelatihan Anda akan selesai dengan cepat, kami sarankan Anda menggunakan pos pemeriksaan dengan pelatihan spot terkelola. SageMaker algoritma bawaan dan algoritme pasar yang tidak memiliki pos pemeriksaan saat ini dibatasi hingga 3600 detik (60 menit). MaxWaitTimeInSeconds

Untuk menggunakan pelatihan spot terkelola, buat pekerjaan pelatihan. Setel EnableManagedSpotTraining ke True dan tentukanMaxWaitTimeInSeconds. MaxWaitTimeInSecondsharus lebih besar dariMaxRuntimeInSeconds. Untuk informasi selengkapnya tentang membuat pekerjaan pelatihan, lihat DescribeTrainingJob.

Anda dapat menghitung penghematan dari menggunakan pelatihan spot terkelola menggunakan rumus(1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100. Misalnya, jika BillableTimeInSeconds 100 dan TrainingTimeInSeconds 500, ini berarti bahwa pekerjaan pelatihan Anda berjalan selama 500 detik, tetapi Anda ditagih hanya 100 detik. Tabungan Anda adalah (1 - (100/500)) * 100 = 80%.

Untuk mempelajari cara menjalankan pekerjaan pelatihan di instans SageMaker spot Amazon dan cara kerja pelatihan spot terkelola serta mengurangi waktu yang dapat ditagih, lihat contoh buku catatan berikut: