Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pelatihan Iteratif
Gambaran umum
Pelatihan berulang adalah proses menyempurnakan model berulang kali melalui beberapa siklus pelatihan di berbagai metode pelatihan — melatih, mengevaluasi, menganalisis kesalahan, menyesuaikan data/objectives/hyperparameters — dengan setiap putaran dimulai dari pos pemeriksaan sebelumnya. Pendekatan ini memungkinkan Anda untuk secara sistematis menargetkan mode kegagalan model, menggabungkan contoh yang dikuratori untuk mengatasi kelemahan tertentu, dan beradaptasi dengan perubahan persyaratan dari waktu ke waktu.
Manfaat dibandingkan pelatihan single-pass:
-
Peningkatan yang ditargetkan: Mengatasi pola kegagalan spesifik yang ditemukan melalui evaluasi
-
Penyempurnaan adaptif: Menanggapi pergeseran distribusi atau persyaratan produk yang berkembang
-
Mitigasi risiko: Validasi perbaikan secara bertahap daripada berkomitmen pada satu kali pelatihan jangka panjang
-
Efisiensi data: Fokuskan upaya pengumpulan data pada area di mana model berkinerja buruk
-
Pelatihan Kurikulum: Beberapa putaran pelatihan dengan kualitas data yang semakin tinggi
Cara kerjanya
Lokasi dan akses pos pemeriksaan
Setelah setiap pekerjaan pelatihan selesai, file manifes dihasilkan di lokasi keluaran yang ditentukan oleh output_path parameter dalam konfigurasi pelatihan Anda.
Untuk mengakses pos pemeriksaan Anda
-
Arahkan ke yang Anda tentukan
output_pathdi S3 -
Unduh dan ekstrak
output.tar.gzfile -
Buka
manifest.jsonfile di dalamnya -
Temukan
checkpoint_s3_bucketparameter, yang berisi URI S3 dari model terlatih Anda
Contoh struktur manifest.json
{ "checkpoint_s3_bucket": "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>/stepID", ... }
Memahami ember escrow
Karena bobot Amazon Nova adalah hak milik, pos pemeriksaan model terlatih disimpan dalam bucket S3 escrow dalam akun yang AWS dikelola daripada disalin ke akun Anda. Ember escrow ini:
-
Berisi bobot model khusus Anda dengan aman
-
Dapat direferensikan oleh AWS layanan lain (Inferensi, Evaluasi, dan pekerjaan pelatihan berikutnya)
-
Hanya dapat diakses ke AWS akun Anda melalui izin IAM
-
Menimbulkan biaya penyimpanan S3 standar di akun Anda (lihat Pertimbangan biaya)
Anda dapat menggunakan jalur keranjang escrow seperti model_name_or_path dalam latihan Anda berikutnya untuk melanjutkan pelatihan berulang.
Menggunakan pos pemeriksaan untuk pelatihan berulang
Konfigurasikan tugas pelatihan Anda berikutnya untuk menggunakan pos pemeriksaan sebelumnya sebagai model dasar:
run: name: "my-iterative-training-job" model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<previous-job-name>" data_s3_path: s3://<bucket>/<data-file>.jsonl replicas: 4
Kapan menggunakan pelatihan berulang
Kasus penggunaan yang ideal
Gunakan pelatihan berulang ketika Anda memiliki:
-
Loop umpan balik — Kemampuan untuk mengumpulkan kasus kegagalan dunia nyata dan mengatasinya secara sistematis
-
Lingkungan dinamis - Dokumentasi yang berkembang, APIs, atau topik pendukung yang membutuhkan pembaruan model berkala
-
Evaluasi yang kuat - Tolok ukur yang kuat dan kerangka evaluasi (lihat contoh di bawah) untuk mengukur peningkatan dengan percaya diri
-
Kemampuan operasi ML - Sumber daya untuk mengelola beberapa siklus pelatihan dan kontrol versi
Contoh kerangka evaluasi yang kuat
-
Suite benchmark otomatis dengan pass/fail ambang batas
-
Protokol evaluasi manusia dengan metrik reliabilitas antar-penilai
-
Skenario pengujian tim merah yang mencakup kasus tepi dan input permusuhan
-
Infrastruktur pengujian A/B untuk mengukur dampak produksi
Pola umum
SFT → RFT Pipeline: Pola iteratif yang sering digunakan melibatkan:
-
SFT pertama — Ajarkan model bagaimana memecahkan masalah melalui contoh demonstrasi
-
RFT kedua - Optimalkan kinerja di seluruh ruang masalah yang lebih luas menggunakan sinyal hadiah
Urutan ini penting ketika model berkinerja buruk pada awalnya — RFT pada model akurasi mendekati nol tidak akan meningkatkan kinerja tanpa terlebih dahulu menetapkan kemampuan pemecahan masalah dasar melalui SFT.
Kapan tidak menggunakan pelatihan berulang
Hindari pelatihan berulang untuk:
-
Tugas yang stabil dan terdefinisi dengan baik — Data stasioner dengan persyaratan konsisten yang sudah mencapai kinerja mendekati langit-langit
-
Masalah klasifikasi sederhana — Tugas sempit di mana pelatihan single-pass cukup
-
Kendala sumber daya - Kurangnya kemampuan operasi ML khusus untuk mengelola beberapa siklus pelatihan
-
Keuntungan marjinal - Ketika overhead tidak membenarkan peningkatan kinerja minimal
Contoh alur kerja: SFT → RFT
Contoh ini menunjukkan pola pelatihan berulang yang umum untuk model penalaran.
Langkah 1: Pelatihan SFT awal
Konfigurasikan dan luncurkan pekerjaan pelatihan SFT Anda dengan kumpulan data Anda:
run: name: "initial-sft-training" model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "nova-lite-2/prod" data_s3_path: s3://<bucket>/sft-training-data.jsonl validation_data_s3_path: s3://<bucket>/sft-validation-data.jsonl
Alasan: SFT menyediakan demonstrasi tambahan yang membentuk output model ke dalam format dan suara yang Anda inginkan, membangun kemampuan dasar.
Setelah pelatihan selesai
-
Perhatikan
output_pathkonfigurasi dalam pekerjaan pelatihan Anda -
Download
output.tar.gzdari lokasi tersebut -
Ekstrak dan temukan
manifest.json -
Salin
checkpoint_s3_bucketnilainya
Langkah 2: Pelatihan RFT di pos pemeriksaan SFT
Buat pekerjaan pelatihan RFT baru menggunakan pos pemeriksaan SFT:
run: name: "rft-on-sft-checkpoint" model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<initial-sft-training>" data_s3_path: s3://<bucket>/rft-training-data.jsonl reward_lambda_arn: <your-reward-function-arn>
Alasan: Pelatihan RFT dibangun di atas fondasi SFT, memungkinkan model untuk mengembangkan pola penalaran yang lebih kompleks yang dioptimalkan oleh fungsi hadiah Anda.
Langkah 3: Evaluasi dan iterasi
Jalankan evaluasi di pos pemeriksaan RFT untuk menilai kinerja:
run: name: "evaluate-rft-checkpoint" model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<rft-on-sft-checkpoint>" data_s3_path: s3://<bucket>/evaluation-data.jsonl
Jika metrik target tidak terpenuhi, lanjutkan iterasi dengan data atau hiperparameter yang disesuaikan.
penting
⚠️ Penting: Teknik pelatihan (LoRa vs Peringkat Penuh) harus tetap konsisten di semua iterasi:
-
Jika Anda menggunakan SFT dengan LoRa, Anda harus menggunakan RFT dengan LoRa
-
Jika Anda menggunakan SFT dengan Peringkat Penuh, Anda harus menggunakan RFT dengan Peringkat Penuh
-
Anda tidak dapat beralih antara Pipa tengah LoRa dan Peringkat Penuh
Memantau kemajuan di seluruh iterasi
Anda dapat melacak metrik melalui MLFlow.
Buat MLflow aplikasi
Menggunakan UI Studio: Jika Anda membuat pekerjaan pelatihan melalui UI Studio, MLflow aplikasi default dibuat secara otomatis dan dipilih secara default di bawah Opsi Lanjutan.
Menggunakan CLI: Jika Anda menggunakan CLI, Anda harus membuat MLflow aplikasi dan meneruskannya sebagai input ke permintaan API pekerjaan pelatihan.
mlflow_app_name="<enter your MLflow app name>" role_arn="<enter your role ARN>" bucket_name="<enter your bucket name>" region="<enter your region>" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region)
Akses MLflow aplikasinya
Menggunakan CLI: Buat URL yang telah ditentukan sebelumnya untuk mengakses UI aplikasi: MLflow
aws sagemaker create-presigned-mlflow-app-url \ --arn $mlflow_app_arn \ --region $region \ --output text
Menggunakan UI Studio: UI Studio menampilkan metrik kunci yang disimpan MLflow dan menyediakan tautan ke UI MLflow aplikasi.
Metrik kunci untuk dilacak
Pantau metrik ini di seluruh iterasi untuk menilai peningkatan dan melacak kemajuan pekerjaan:
Untuk SFT
-
Kurva kehilangan pelatihan
-
Jumlah sampel yang dikonsumsi dan waktu untuk memproses sampel
-
Akurasi kinerja pada set uji yang ditahan
-
Kepatuhan format (misalnya, tingkat keluaran JSON yang valid)
-
Kebingungan pada data evaluasi khusus domain
Untuk RFT
-
Skor hadiah rata-rata selama pelatihan
-
Distribusi hadiah (persentase respons hadiah tinggi)
-
Tren hadiah validasi (perhatikan overfitting)
-
Tingkat keberhasilan khusus tugas (misalnya, tingkat kelulusan eksekusi kode, akurasi masalah matematika)
Umum
-
Delta kinerja benchmark antara iterasi
-
Skor evaluasi manusia pada sampel yang representatif
-
Metrik produksi (jika menerapkan secara berulang)
Menentukan kapan harus berhenti
Berhenti iterasi saat:
-
Dataran tinggi kinerja - Pelatihan tambahan tidak lagi meningkatkan metrik target secara bermakna
-
Peralihan teknik membantu — Jika salah satu teknik mencapai puncaknya, coba beralih (misalnya, SFT → RFT → SFT) untuk menerobos langit-langit kinerja
-
Metrik target tercapai - Kriteria keberhasilan Anda terpenuhi
-
Regresi terdeteksi - Iterasi baru menurunkan kinerja (lihat prosedur rollback di bawah)
Untuk prosedur evaluasi terperinci, lihat bagian Evaluasi.
Praktik terbaik
Mulai kecil dan skala secara bertahap
Mulailah dengan kumpulan data minimal dan periode pelatihan tunggal untuk memvalidasi pendekatan Anda sebelum meningkatkan skala. Ini membangun kepercayaan diri dan membantu mengidentifikasi masalah sejak dini.
Menetapkan metrik keberhasilan yang jelas
Tentukan indikator kuantitatif dan kualitatif sebelum memulai:
Contoh metrik keberhasilan berdasarkan kasus penggunaan
-
Menjawab pertanyaan — Akurasi kecocokan yang tepat, skor F1, peringkat preferensi manusia
-
Pembuatan kode - Tingkat kelulusan pengujian unit, keberhasilan kompilasi, waktu eksekusi
-
Tugas penalaran — Akurasi langkah, kebenaran jawaban akhir, skor hadiah
-
Pembuatan konten - Skor koherensi, akurasi faktual, kepatuhan gaya
Menerapkan evaluasi otomatis
Siapkan jalur evaluasi otomatis untuk melacak kinerja setelah setiap putaran, memungkinkan iterasi cepat dan perbandingan objektif.
Pertahankan kontrol versi yang ketat
Dokumen untuk setiap iterasi:
-
Versi dan modifikasi dataset
-
Model lokasi pos pemeriksaan
-
Perubahan hyperparameter
-
Metrik kinerja dan delta
-
Pengamatan kualitatif
Ini membangun pengetahuan institusional dan memungkinkan debugging.
Fokus pada kualitas data daripada kuantitas
Analisis kasus kegagalan dari putaran sebelumnya dan tambahkan contoh berkualitas tinggi yang ditargetkan daripada hanya meningkatkan ukuran kumpulan data.
Rencanakan anggaran iterasi
Rencanakan 3-5 iterasi sebagai rentang tipikal:
-
1-2 iterasi — Seringkali cukup untuk perbaikan sederhana atau pemolesan akhir
-
3-5 iterasi — Sesuai untuk tugas-tugas kompleks yang membutuhkan beberapa siklus penyempurnaan
-
5+ iterasi — Dapat menunjukkan pengembalian yang berkurang atau kebutuhan untuk pendekatan yang berbeda
Sesuaikan berdasarkan anggaran komputasi dan tingkat peningkatan kinerja.
Menerapkan kemampuan rollback
Jika iterasi memperkenalkan regresi:
-
Identifikasi regresi — Bandingkan metrik evaluasi di seluruh pos pemeriksaan
-
Kembali ke pos pemeriksaan sebelumnya - Gunakan jalur S3 pos pemeriksaan sebelumnya sebagai milik Anda
model_name_or_path -
Sesuaikan pendekatan pelatihan — Ubah data, hiperparameter, atau teknik sebelum mencoba lagi
-
Dokumentasikan kegagalan — Catat apa yang menyebabkan regresi untuk menghindari pengulangan
Contoh rollback
run: name: "rollback-to-iteration-2" model_type: amazon.nova-2-lite-v1:0:256k # Use iteration 2 checkpoint instead of failed iteration 3 model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<iteration-2-job-name>"
Pertimbangan Biaya
Penyimpanan pos pemeriksaan
-
Lokasi - Pos pemeriksaan yang disimpan dalam ember escrow dikenakan biaya penyimpanan S3 standar yang ditagih ke akun Anda AWS
-
Retensi - Pos pemeriksaan dipertahankan tanpa batas kecuali dihapus secara eksplisit
-
Manajemen - Menerapkan kebijakan siklus hidup untuk mengarsipkan atau menghapus pos pemeriksaan lama yang tidak lagi Anda perlukan
Kiat pengoptimalan biaya
-
Hapus pos pemeriksaan menengah setelah memvalidasi iterasi yang lebih baru
-
Arsipkan pos pemeriksaan ke S3 Glacier untuk retensi jangka panjang dengan biaya lebih rendah
-
Tetapkan kebijakan retensi berdasarkan kepatuhan dan kebutuhan eksperimen
Batasan
Konsistensi keluarga model
Saat pelatihan berulang, Anda harus menggunakan jenis model yang sama di semua iterasi.
Pelatihan awal
run: model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "nova-lite-2/prod"
Iterasi berikutnya harus menggunakan model_type yang sama
run: model_type: amazon.nova-2-lite-v1:0:256k # Must match original model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"
Konsistensi teknik pelatihan
Teknik pelatihan harus tetap konsisten di seluruh iterasi:
-
Model yang dilatih Lora hanya dapat dilatih secara iteratif dengan LoRa
-
Full-Rank-trained model hanya dapat dilatih secara iteratif dengan Full-Rank
Bagaimana adaptor LoRa bekerja dalam pelatihan berulang
-
Setiap iterasi pelatihan LoRa menghasilkan bobot adaptor baru
-
Adaptor baru mengganti (bukan tumpukan dengan) adaptor sebelumnya
-
Model dasar tetap beku; hanya adaptor yang diperbarui
Matriks kompatibilitas teknik
| Pelatihan awal | Dapat iterasi dengan |
|---|---|
| SFT (Peringkat Penuh) | SFT (Peringkat Penuh), RFT (Peringkat Penuh) |
| SFT (LoRa) | SFT (LoRa), RFT (LoRa) |
| RFT (Peringkat Penuh) | RFT (Peringkat Penuh) |
| RFT (LoRa) | RFT (LoRa) |
Memverifikasi kompatibilitas sebelum memulai pekerjaan
-
Periksa resep pelatihan Anda sebelumnya untuk mengidentifikasi jenis model dan teknik pelatihan (LoRa vs Peringkat Penuh)
-
Pastikan resep baru Anda cocok dengan jenis model dan teknik
-
Tinjau manifest.json untuk mengonfirmasi jalur pos pemeriksaan sudah benar
Pemecahan masalah
Kesalahan: “Teknik pelatihan model yang tidak kompatibel terdeteksi”
Penyebab: Teknik pelatihan (LoRa vs Peringkat Penuh) tidak cocok dengan teknik pos pemeriksaan.
Resolusi: Pastikan resep Anda menggunakan teknik pelatihan yang sama dengan model aslinya:
-
Jika pos pemeriksaan dilatih dengan LoRa, gunakan LoRa dalam resep baru Anda
-
Jika pos pemeriksaan dilatih dengan Peringkat Penuh, gunakan Peringkat Penuh dalam resep baru Anda
Kesalahan: “Model dasar untuk pekerjaan yang diekstrak dari model_name_or_path tidak cocok dengan model_type”
Penyebab: Jenis model yang ditentukan model_type tidak cocok dengan model sebenarnya di pos pemeriksaan.
Resolusi: Verifikasi bahwa:
-
model_typeDalam resep Anda cocok dengan jenis model asli -
Jalur pos pemeriksaan S3 sudah benar
model_name_or_path -
Anda menggunakan jalur dari file manifest.json yang benar
Contoh konfigurasi yang benar
run: model_type: amazon.nova-2-lite-v1:0:256k # Must match checkpoint's model model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"
Kesalahan: “Konfigurasi model tidak ditemukan”
Penyebab: Jalur S3 tidak valid atau model_name_or_path tidak dapat diakses.
Resolusi:
-
Verifikasi jalur S3 disalin dengan benar dari file manifest.json
-
Pastikan peran IAM Anda memiliki izin untuk mengakses keranjang escrow
-
Konfirmasikan pekerjaan pelatihan sebelumnya berhasil diselesaikan
-
Periksa kesalahan ketik di jalur
Regresi kinerja setelah iterasi
Gejala: Metrik evaluasi menurun setelah iterasi pelatihan baru.
Resolusi:
-
Rollback - Gunakan pos pemeriksaan sebelumnya sebagai model dasar Anda
-
Analisis — Meninjau log pelatihan dan kualitas data untuk iterasi yang gagal
-
Sesuaikan — Ubah hiperparameter (kurangi tingkat pembelajaran), tingkatkan kualitas data, atau kurangi zaman pelatihan
-
Coba lagi - Luncurkan iterasi baru dengan penyesuaian