Menggunakan pelatihan tambahan di AWS Clean Rooms MS - AWS Clean Rooms

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan pelatihan tambahan di AWS Clean Rooms MS

Prasyarat:

  • Sebuah Akun AWS dengan akses ke AWS Clean Rooms

  • Model terlatih yang ada dalam kolaborasi

  • Dataset baru atau yang diperbarui untuk pelatihan tambahan

  • Izin yang sesuai untuk membuat dan mengelola model ML dalam kolaborasi

  • Keakraban dengan hiperparameter dan konfigurasi model yang ada

Dengan pelatihan tambahan, Anda dapat menggunakan artefak model yang ada dan kumpulan data yang diperbarui untuk melatih model baru. Pelatihan tambahan menghemat waktu dan sumber daya.

Gunakan pelatihan tambahan untuk:

  • Latih model baru menggunakan kumpulan data yang diperluas yang memiliki pola dasar yang tidak diperhitungkan dalam pelatihan sebelumnya.

  • Latih beberapa varian model, baik dengan hiperparameter yang berbeda atau menggunakan kumpulan data yang berbeda.

Console
Untuk menjalankan pekerjaan pelatihan tambahan (konsol)
  1. Masuk ke AWS Management Console dan buka AWS Clean Rooms konsol di https://console.aws.amazon.com/cleanrooms.

  2. Di panel navigasi kiri, pilih Kolaborasi.

  3. Pada halaman Kolaborasi, pilih kolaborasi di mana artefak model yang ingin Anda gunakan untuk pelatihan tambahan ada.

  4. Setelah kolaborasi terbuka, pilih tab model ML.

  5. Di bawah model Custom MS, di bagian Model terlatih, pilih tombol radio di sebelah model terlatih yang ingin Anda latih secara bertahap.

  6. Pada halaman Ikhtisar, di bawah Versi,

    1. Pilih tombol radio di sebelah model terlatih yang ingin Anda latih secara bertahap.

    2. Pilih Kereta dari versi.

  7. Pada halaman Buat model terlatih dari versi, untuk versi model Terlatih, pilih versinya.

    Versi model dasar dipilih secara otomatis. Anda dapat mengubah versi ini jika ada versi lain.

  8. Untuk detail model Terlatih, masukkan yang berikut ini:

    1. Untuk Nama, masukkan nama unik untuk model dalam kolaborasi.

    2. (Opsional) Untuk Deskripsi, masukkan deskripsi model yang dilatih.

    3. Untuk mode input data Pelatihan, pilih salah satu dari berikut ini:

      • Pilih File jika Anda memiliki kumpulan data yang lebih kecil yang dapat muat pada volume penyimpanan ML dan Anda lebih memilih akses sistem file tradisional untuk skrip pelatihan Anda.

      • Pilih Pipe untuk kumpulan data besar untuk mengalirkan data langsung dari S3, menghindari kebutuhan untuk mengunduh semuanya ke disk, yang dapat meningkatkan kecepatan pelatihan dan mengurangi persyaratan penyimpanan.

      • Pilih FastFileapakah Anda ingin menggabungkan manfaat streaming dari S3 dengan akses sistem file, terutama untuk membaca data secara berurutan atau ketika berhadapan dengan lebih sedikit file untuk waktu startup yang lebih cepat.

    4. Untuk nama saluran pelatihan tambahan, masukkan nama untuk saluran pelatihan tambahan

      catatan

      Jika Anda menentukan nama saluran pelatihan tambahan tanpa ID versi, sistem akan menggunakan model dasar untuk pelatihan tambahan.

  9. Untuk detail saluran masukan ML, lakukan hal berikut:

    1. Untuk saluran input ML, tentukan saluran input ML yang menyediakan data ke algoritma model.

      Untuk menambahkan saluran lain, pilih Tambahkan saluran input ML lainnya. Anda dapat menambahkan hingga 19 saluran input ML tambahan.

    2. Untuk nama Saluran, masukkan nama saluran input ML.

    3. Untuk jenis distribusi data Amazon S3, pilih salah satu dari berikut ini:

      • Pilih Sepenuhnya direplikasi untuk memberikan setiap instance pelatihan dengan salinan lengkap kumpulan data Anda. Ini berfungsi paling baik ketika kumpulan data Anda cukup kecil untuk muat dalam memori atau ketika setiap instance membutuhkan akses ke semua data.

      • Pilih Sharded by S3 kunci untuk membagi dataset Anda di seluruh instans pelatihan berdasarkan kunci S3. Setiap instance menerima sekitar 1/n dari total objek S3, di mana 'n' adalah jumlah instance. Ini berfungsi paling baik untuk kumpulan data besar yang ingin Anda proses secara paralel.

      catatan

      Pertimbangkan ukuran set data dan persyaratan pelatihan Anda saat memilih jenis distribusi. Sepenuhnya direplikasi menyediakan akses data yang lengkap tetapi membutuhkan lebih banyak penyimpanan, sementara Sharded by S3 key memungkinkan pemrosesan terdistribusi kumpulan data besar.

  10. Untuk Durasi pelatihan maksimum, pilih jumlah waktu maksimum yang Anda inginkan untuk melatih model Anda.

  11. Untuk Hyperparameters, tentukan parameter spesifik algoritma dan nilai yang dimaksudkan. Hyperparameter khusus untuk model yang dilatih dan digunakan untuk menyempurnakan pelatihan model.

  12. Untuk variabel Lingkungan, tentukan variabel spesifik algoritme apa pun dan nilai yang dimaksudkan. Variabel lingkungan diatur dalam wadah Docker.

  13. Untuk Enkripsi, untuk menggunakan kustom AWS KMS key, pilih kotak centang Enkripsi rahasia dengan kunci KMS kustom.

  14. Untuk konfigurasi EC2 Sumber Daya, tentukan informasi tentang sumber daya komputasi yang digunakan untuk pelatihan model.

    1. Untuk jenis Instance, pilih jenis instance yang ingin Anda jalankan.

    2. Untuk hitungan Instance, masukkan jumlah instance.

    3. Untuk ukuran Volume dalam GB, masukkan ukuran volume penyimpanan ML.

  15. Pilih Buat model terlatih dari versi.

API

Untuk menjalankan pekerjaan pelatihan tambahan (API)

Jalankan kode berikut dengan parameter spesifik Anda:

import boto3 acr_ml_client= boto3.client('cleanroomsml') acr_ml_client.create_trained_model( membershipIdentifier= 'membership_id', configuredModelAlgorithmAssociationArn = 'arn:aws:cleanrooms-ml:region:account:membership/membershipIdentifier/configured-model-algorithm-association/identifier', name='trained_model_name', resourceConfig={ 'instanceType': 'ml.m5.xlarge', 'volumeSizeInGB': 1 }, incrementalTrainingDataChannels=[ { 'trainedModelArn': trained_model_arn, 'channelName': 'channel_name' }, ] dataChannels=[ { 'mlInputChannelArn': channel_arn_1, 'channelName': 'channel_name' }, { 'mlInputChannelArn': channel_arn_2, 'channelName': 'channel_name' } ] )
catatan

Batas: Maksimum total 20 saluran (termasuk keduanya dataChannels danincrementalTrainingDataChannels).

catatan

Setelah model terlatih dibuat, Anda tidak dapat mengeditnya. Untuk membuat perubahan, hapus model terlatih dan buat yang baru.