Gambaran umum Cara kerjanya Kapan menggunakan pelatihan berulang Contoh alur kerja: SFT → RFT Memantau kemajuan di seluruh iterasi Praktik terbaik Pertimbangan Biaya Batasan Pemecahan masalah

Pelatihan Iteratif

Gambaran umum

Pelatihan berulang adalah proses menyempurnakan model berulang kali melalui beberapa siklus pelatihan di berbagai metode pelatihan — melatih, mengevaluasi, menganalisis kesalahan, menyesuaikan data/objectives/hyperparameters — dengan setiap putaran dimulai dari pos pemeriksaan sebelumnya. Pendekatan ini memungkinkan Anda untuk secara sistematis menargetkan mode kegagalan model, menggabungkan contoh yang dikuratori untuk mengatasi kelemahan tertentu, dan beradaptasi dengan perubahan persyaratan dari waktu ke waktu.

Manfaat dibandingkan pelatihan single-pass:

Peningkatan yang ditargetkan: Mengatasi pola kegagalan spesifik yang ditemukan melalui evaluasi
Penyempurnaan adaptif: Menanggapi pergeseran distribusi atau persyaratan produk yang berkembang
Mitigasi risiko: Validasi perbaikan secara bertahap daripada berkomitmen pada satu kali pelatihan jangka panjang
Efisiensi data: Fokuskan upaya pengumpulan data pada area di mana model berkinerja buruk
Pelatihan Kurikulum: Beberapa putaran pelatihan dengan kualitas data yang semakin tinggi

Cara kerjanya

Lokasi dan akses pos pemeriksaan

Setelah setiap pekerjaan pelatihan selesai, file manifes dihasilkan di lokasi keluaran yang ditentukan oleh output_path parameter dalam konfigurasi pelatihan Anda.

Untuk mengakses pos pemeriksaan Anda

Arahkan ke yang Anda tentukan output_path di S3
Unduh dan ekstrak output.tar.gz file
Buka manifest.json file di dalamnya
Temukan checkpoint_s3_bucket parameter, yang berisi URI S3 dari model terlatih Anda

Contoh struktur manifest.json


{  
  "checkpoint_s3_bucket": "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>/stepID",  
  ...  
}

Memahami ember escrow

Karena bobot Amazon Nova adalah hak milik, pos pemeriksaan model terlatih disimpan dalam bucket S3 escrow dalam akun yang AWS dikelola daripada disalin ke akun Anda. Ember escrow ini:

Berisi bobot model khusus Anda dengan aman
Dapat direferensikan oleh AWS layanan lain (Inferensi, Evaluasi, dan pekerjaan pelatihan berikutnya)
Hanya dapat diakses ke AWS akun Anda melalui izin IAM
Menimbulkan biaya penyimpanan S3 standar di akun Anda (lihat Pertimbangan biaya)

Anda dapat menggunakan jalur keranjang escrow seperti model_name_or_path dalam latihan Anda berikutnya untuk melanjutkan pelatihan berulang.

Menggunakan pos pemeriksaan untuk pelatihan berulang

Konfigurasikan tugas pelatihan Anda berikutnya untuk menggunakan pos pemeriksaan sebelumnya sebagai model dasar:


run:  
  name: "my-iterative-training-job"  
  model_type: amazon.nova-2-lite-v1:0:256k  
  model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<previous-job-name>"  
  data_s3_path: s3://<bucket>/<data-file>.jsonl  
  replicas: 4

Kapan menggunakan pelatihan berulang

Kasus penggunaan yang ideal

Gunakan pelatihan berulang ketika Anda memiliki:

Loop umpan balik — Kemampuan untuk mengumpulkan kasus kegagalan dunia nyata dan mengatasinya secara sistematis
Lingkungan dinamis - Dokumentasi yang berkembang, APIs, atau topik pendukung yang membutuhkan pembaruan model berkala
Evaluasi yang kuat - Tolok ukur yang kuat dan kerangka evaluasi (lihat contoh di bawah) untuk mengukur peningkatan dengan percaya diri
Kemampuan operasi ML - Sumber daya untuk mengelola beberapa siklus pelatihan dan kontrol versi

Contoh kerangka evaluasi yang kuat

Suite benchmark otomatis dengan pass/fail ambang batas
Protokol evaluasi manusia dengan metrik reliabilitas antar-penilai
Skenario pengujian tim merah yang mencakup kasus tepi dan input permusuhan
Infrastruktur pengujian A/B untuk mengukur dampak produksi

Pola umum

SFT → RFT Pipeline: Pola iteratif yang sering digunakan melibatkan:

SFT pertama — Ajarkan model bagaimana memecahkan masalah melalui contoh demonstrasi
RFT kedua - Optimalkan kinerja di seluruh ruang masalah yang lebih luas menggunakan sinyal hadiah

Urutan ini penting ketika model berkinerja buruk pada awalnya — RFT pada model akurasi mendekati nol tidak akan meningkatkan kinerja tanpa terlebih dahulu menetapkan kemampuan pemecahan masalah dasar melalui SFT.

Kapan tidak menggunakan pelatihan berulang

Hindari pelatihan berulang untuk:

Tugas yang stabil dan terdefinisi dengan baik — Data stasioner dengan persyaratan konsisten yang sudah mencapai kinerja mendekati langit-langit
Masalah klasifikasi sederhana — Tugas sempit di mana pelatihan single-pass cukup
Kendala sumber daya - Kurangnya kemampuan operasi ML khusus untuk mengelola beberapa siklus pelatihan
Keuntungan marjinal - Ketika overhead tidak membenarkan peningkatan kinerja minimal

Contoh alur kerja: SFT → RFT

Contoh ini menunjukkan pola pelatihan berulang yang umum untuk model penalaran.

Langkah 1: Pelatihan SFT awal

Konfigurasikan dan luncurkan pekerjaan pelatihan SFT Anda dengan kumpulan data Anda:


run:  
  name: "initial-sft-training"  
  model_type: amazon.nova-2-lite-v1:0:256k  
  model_name_or_path: "nova-lite-2/prod"  
  data_s3_path: s3://<bucket>/sft-training-data.jsonl  
  validation_data_s3_path: s3://<bucket>/sft-validation-data.jsonl

Alasan: SFT menyediakan demonstrasi tambahan yang membentuk output model ke dalam format dan suara yang Anda inginkan, membangun kemampuan dasar.

Setelah pelatihan selesai

Perhatikan output_path konfigurasi dalam pekerjaan pelatihan Anda
Download output.tar.gz dari lokasi tersebut
Ekstrak dan temukan manifest.json
Salin checkpoint_s3_bucket nilainya

Langkah 2: Pelatihan RFT di pos pemeriksaan SFT

Buat pekerjaan pelatihan RFT baru menggunakan pos pemeriksaan SFT:


run:  
  name: "rft-on-sft-checkpoint"  
  model_type: amazon.nova-2-lite-v1:0:256k  
  model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<initial-sft-training>"  
  data_s3_path: s3://<bucket>/rft-training-data.jsonl  
  reward_lambda_arn: <your-reward-function-arn>

Alasan: Pelatihan RFT dibangun di atas fondasi SFT, memungkinkan model untuk mengembangkan pola penalaran yang lebih kompleks yang dioptimalkan oleh fungsi hadiah Anda.

Langkah 3: Evaluasi dan iterasi

Jalankan evaluasi di pos pemeriksaan RFT untuk menilai kinerja:


run:  
  name: "evaluate-rft-checkpoint"  
  model_type: amazon.nova-2-lite-v1:0:256k  
  model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<rft-on-sft-checkpoint>"  
  data_s3_path: s3://<bucket>/evaluation-data.jsonl

Jika metrik target tidak terpenuhi, lanjutkan iterasi dengan data atau hiperparameter yang disesuaikan.

penting

⚠️ Penting: Teknik pelatihan (LoRa vs Peringkat Penuh) harus tetap konsisten di semua iterasi:

Jika Anda menggunakan SFT dengan LoRa, Anda harus menggunakan RFT dengan LoRa
Jika Anda menggunakan SFT dengan Peringkat Penuh, Anda harus menggunakan RFT dengan Peringkat Penuh
Anda tidak dapat beralih antara Pipa tengah LoRa dan Peringkat Penuh

Memantau kemajuan di seluruh iterasi

Anda dapat melacak metrik melalui MLFlow.

Buat MLflow aplikasi

Menggunakan UI Studio: Jika Anda membuat pekerjaan pelatihan melalui UI Studio, MLflow aplikasi default dibuat secara otomatis dan dipilih secara default di bawah Opsi Lanjutan.

Menggunakan CLI: Jika Anda menggunakan CLI, Anda harus membuat MLflow aplikasi dan meneruskannya sebagai input ke permintaan API pekerjaan pelatihan.


mlflow_app_name="<enter your MLflow app name>"  
role_arn="<enter your role ARN>"   
bucket_name="<enter your bucket name>"   
region="<enter your region>"  
  
mlflow_app_arn=$(aws sagemaker create-mlflow-app \  
  --name $mlflow_app_name \  
  --artifact-store-uri "s3://$bucket_name" \  
  --role-arn $role_arn \  
  --region $region)

Akses MLflow aplikasinya

Menggunakan CLI: Buat URL yang telah ditentukan sebelumnya untuk mengakses UI aplikasi: MLflow


aws sagemaker create-presigned-mlflow-app-url \  
  --arn $mlflow_app_arn \  
  --region $region \  
  --output text

Menggunakan UI Studio: UI Studio menampilkan metrik kunci yang disimpan MLflow dan menyediakan tautan ke UI MLflow aplikasi.

Metrik kunci untuk dilacak

Pantau metrik ini di seluruh iterasi untuk menilai peningkatan dan melacak kemajuan pekerjaan:

Untuk SFT

Kurva kehilangan pelatihan
Jumlah sampel yang dikonsumsi dan waktu untuk memproses sampel
Akurasi kinerja pada set uji yang ditahan
Kepatuhan format (misalnya, tingkat keluaran JSON yang valid)
Kebingungan pada data evaluasi khusus domain

Untuk RFT

Skor hadiah rata-rata selama pelatihan
Distribusi hadiah (persentase respons hadiah tinggi)
Tren hadiah validasi (perhatikan overfitting)
Tingkat keberhasilan khusus tugas (misalnya, tingkat kelulusan eksekusi kode, akurasi masalah matematika)

Umum

Delta kinerja benchmark antara iterasi
Skor evaluasi manusia pada sampel yang representatif
Metrik produksi (jika menerapkan secara berulang)

Menentukan kapan harus berhenti

Berhenti iterasi saat:

Dataran tinggi kinerja - Pelatihan tambahan tidak lagi meningkatkan metrik target secara bermakna
Peralihan teknik membantu — Jika salah satu teknik mencapai puncaknya, coba beralih (misalnya, SFT → RFT → SFT) untuk menerobos langit-langit kinerja
Metrik target tercapai - Kriteria keberhasilan Anda terpenuhi
Regresi terdeteksi - Iterasi baru menurunkan kinerja (lihat prosedur rollback di bawah)

Untuk prosedur evaluasi terperinci, lihat bagian Evaluasi.

Praktik terbaik

Mulai kecil dan skala secara bertahap

Mulailah dengan kumpulan data minimal dan periode pelatihan tunggal untuk memvalidasi pendekatan Anda sebelum meningkatkan skala. Ini membangun kepercayaan diri dan membantu mengidentifikasi masalah sejak dini.

Menetapkan metrik keberhasilan yang jelas

Tentukan indikator kuantitatif dan kualitatif sebelum memulai:

Contoh metrik keberhasilan berdasarkan kasus penggunaan

Menjawab pertanyaan — Akurasi kecocokan yang tepat, skor F1, peringkat preferensi manusia
Pembuatan kode - Tingkat kelulusan pengujian unit, keberhasilan kompilasi, waktu eksekusi
Tugas penalaran — Akurasi langkah, kebenaran jawaban akhir, skor hadiah
Pembuatan konten - Skor koherensi, akurasi faktual, kepatuhan gaya

Menerapkan evaluasi otomatis

Siapkan jalur evaluasi otomatis untuk melacak kinerja setelah setiap putaran, memungkinkan iterasi cepat dan perbandingan objektif.

Pertahankan kontrol versi yang ketat

Dokumen untuk setiap iterasi:

Versi dan modifikasi dataset
Model lokasi pos pemeriksaan
Perubahan hyperparameter
Metrik kinerja dan delta
Pengamatan kualitatif

Ini membangun pengetahuan institusional dan memungkinkan debugging.

Fokus pada kualitas data daripada kuantitas

Analisis kasus kegagalan dari putaran sebelumnya dan tambahkan contoh berkualitas tinggi yang ditargetkan daripada hanya meningkatkan ukuran kumpulan data.

Rencanakan anggaran iterasi

Rencanakan 3-5 iterasi sebagai rentang tipikal:

1-2 iterasi — Seringkali cukup untuk perbaikan sederhana atau pemolesan akhir
3-5 iterasi — Sesuai untuk tugas-tugas kompleks yang membutuhkan beberapa siklus penyempurnaan
5+ iterasi — Dapat menunjukkan pengembalian yang berkurang atau kebutuhan untuk pendekatan yang berbeda

Sesuaikan berdasarkan anggaran komputasi dan tingkat peningkatan kinerja.

Menerapkan kemampuan rollback

Jika iterasi memperkenalkan regresi:

Identifikasi regresi — Bandingkan metrik evaluasi di seluruh pos pemeriksaan
Kembali ke pos pemeriksaan sebelumnya - Gunakan jalur S3 pos pemeriksaan sebelumnya sebagai milik Anda model_name_or_path
Sesuaikan pendekatan pelatihan — Ubah data, hiperparameter, atau teknik sebelum mencoba lagi
Dokumentasikan kegagalan — Catat apa yang menyebabkan regresi untuk menghindari pengulangan

Contoh rollback


run:  
  name: "rollback-to-iteration-2"  
  model_type: amazon.nova-2-lite-v1:0:256k  
  # Use iteration 2 checkpoint instead of failed iteration 3  
  model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<iteration-2-job-name>"

Pertimbangan Biaya

Penyimpanan pos pemeriksaan

Lokasi - Pos pemeriksaan yang disimpan dalam ember escrow dikenakan biaya penyimpanan S3 standar yang ditagih ke akun Anda AWS
Retensi - Pos pemeriksaan dipertahankan tanpa batas kecuali dihapus secara eksplisit
Manajemen - Menerapkan kebijakan siklus hidup untuk mengarsipkan atau menghapus pos pemeriksaan lama yang tidak lagi Anda perlukan

Kiat pengoptimalan biaya

Hapus pos pemeriksaan menengah setelah memvalidasi iterasi yang lebih baru
Arsipkan pos pemeriksaan ke S3 Glacier untuk retensi jangka panjang dengan biaya lebih rendah
Tetapkan kebijakan retensi berdasarkan kepatuhan dan kebutuhan eksperimen

Batasan

Konsistensi keluarga model

Saat pelatihan berulang, Anda harus menggunakan jenis model yang sama di semua iterasi.

Pelatihan awal


run:  
  model_type: amazon.nova-2-lite-v1:0:256k  
  model_name_or_path: "nova-lite-2/prod"

Iterasi berikutnya harus menggunakan model_type yang sama


run:  
  model_type: amazon.nova-2-lite-v1:0:256k  # Must match original  
  model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

Konsistensi teknik pelatihan

Teknik pelatihan harus tetap konsisten di seluruh iterasi:

Model yang dilatih Lora hanya dapat dilatih secara iteratif dengan LoRa
Full-Rank-trained model hanya dapat dilatih secara iteratif dengan Full-Rank

Bagaimana adaptor LoRa bekerja dalam pelatihan berulang

Setiap iterasi pelatihan LoRa menghasilkan bobot adaptor baru
Adaptor baru mengganti (bukan tumpukan dengan) adaptor sebelumnya
Model dasar tetap beku; hanya adaptor yang diperbarui

Matriks kompatibilitas teknik

Pelatihan awal	Dapat iterasi dengan
SFT (Peringkat Penuh)	SFT (Peringkat Penuh), RFT (Peringkat Penuh)
SFT (LoRa)	SFT (LoRa), RFT (LoRa)
RFT (Peringkat Penuh)	RFT (Peringkat Penuh)
RFT (LoRa)	RFT (LoRa)

Memverifikasi kompatibilitas sebelum memulai pekerjaan

Periksa resep pelatihan Anda sebelumnya untuk mengidentifikasi jenis model dan teknik pelatihan (LoRa vs Peringkat Penuh)
Pastikan resep baru Anda cocok dengan jenis model dan teknik
Tinjau manifest.json untuk mengonfirmasi jalur pos pemeriksaan sudah benar

Pemecahan masalah

Kesalahan: “Teknik pelatihan model yang tidak kompatibel terdeteksi”

Penyebab: Teknik pelatihan (LoRa vs Peringkat Penuh) tidak cocok dengan teknik pos pemeriksaan.

Resolusi: Pastikan resep Anda menggunakan teknik pelatihan yang sama dengan model aslinya:

Jika pos pemeriksaan dilatih dengan LoRa, gunakan LoRa dalam resep baru Anda
Jika pos pemeriksaan dilatih dengan Peringkat Penuh, gunakan Peringkat Penuh dalam resep baru Anda

Kesalahan: “Model dasar untuk pekerjaan yang diekstrak dari model_name_or_path tidak cocok dengan model_type”

Penyebab: Jenis model yang ditentukan model_type tidak cocok dengan model sebenarnya di pos pemeriksaan.

Resolusi: Verifikasi bahwa:

model_typeDalam resep Anda cocok dengan jenis model asli
Jalur pos pemeriksaan S3 sudah benar model_name_or_path
Anda menggunakan jalur dari file manifest.json yang benar

Contoh konfigurasi yang benar


run:  
  model_type: amazon.nova-2-lite-v1:0:256k  # Must match checkpoint's model  
  model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

Kesalahan: “Konfigurasi model tidak ditemukan”

Penyebab: Jalur S3 tidak valid atau model_name_or_path tidak dapat diakses.

Resolusi:

Verifikasi jalur S3 disalin dengan benar dari file manifest.json
Pastikan peran IAM Anda memiliki izin untuk mengakses keranjang escrow
Konfirmasikan pekerjaan pelatihan sebelumnya berhasil diselesaikan
Periksa kesalahan ketik di jalur

Regresi kinerja setelah iterasi

Gejala: Metrik evaluasi menurun setelah iterasi pelatihan baru.

Resolusi:

Rollback - Gunakan pos pemeriksaan sebelumnya sebagai model dasar Anda
Analisis — Meninjau log pelatihan dan kualitas data untuk iterasi yang gagal
Sesuaikan — Ubah hiperparameter (kurangi tingkat pembelajaran), tingkatkan kualitas data, atau kurangi zaman pelatihan
Coba lagi - Luncurkan iterasi baru dengan penyesuaian

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Evaluasi RFT

Inferensi Batuan Dasar Amazon