Pelatihan Iteratif -

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pelatihan Iteratif

Gambaran umum

Pelatihan berulang adalah proses menyempurnakan model berulang kali melalui beberapa siklus pelatihan di berbagai metode pelatihan — melatih, mengevaluasi, menganalisis kesalahan, menyesuaikan data/objectives/hyperparameters — dengan setiap putaran dimulai dari pos pemeriksaan sebelumnya. Pendekatan ini memungkinkan Anda untuk secara sistematis menargetkan mode kegagalan model, menggabungkan contoh yang dikuratori untuk mengatasi kelemahan tertentu, dan beradaptasi dengan perubahan persyaratan dari waktu ke waktu.

Manfaat dibandingkan pelatihan single-pass:

  • Peningkatan yang ditargetkan: Mengatasi pola kegagalan spesifik yang ditemukan melalui evaluasi

  • Penyempurnaan adaptif: Menanggapi pergeseran distribusi atau persyaratan produk yang berkembang

  • Mitigasi risiko: Validasi perbaikan secara bertahap daripada berkomitmen pada satu kali pelatihan jangka panjang

  • Efisiensi data: Fokuskan upaya pengumpulan data pada area di mana model berkinerja buruk

  • Pelatihan Kurikulum: Beberapa putaran pelatihan dengan kualitas data yang semakin tinggi

Cara kerjanya

Lokasi dan akses pos pemeriksaan

Setelah setiap pekerjaan pelatihan selesai, file manifes dihasilkan di lokasi keluaran yang ditentukan oleh output_path parameter dalam konfigurasi pelatihan Anda.

Untuk mengakses pos pemeriksaan Anda

  • Arahkan ke yang Anda tentukan output_path di S3

  • Unduh dan ekstrak output.tar.gz file

  • Buka manifest.json file di dalamnya

  • Temukan checkpoint_s3_bucket parameter, yang berisi URI S3 dari model terlatih Anda

Contoh struktur manifest.json

{ "checkpoint_s3_bucket": "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>/stepID", ... }

Memahami ember escrow

Karena bobot Amazon Nova adalah hak milik, pos pemeriksaan model terlatih disimpan dalam bucket S3 escrow dalam akun yang AWS dikelola daripada disalin ke akun Anda. Ember escrow ini:

  • Berisi bobot model khusus Anda dengan aman

  • Dapat direferensikan oleh AWS layanan lain (Inferensi, Evaluasi, dan pekerjaan pelatihan berikutnya)

  • Hanya dapat diakses ke AWS akun Anda melalui izin IAM

  • Menimbulkan biaya penyimpanan S3 standar di akun Anda (lihat Pertimbangan biaya)

Anda dapat menggunakan jalur keranjang escrow seperti model_name_or_path dalam latihan Anda berikutnya untuk melanjutkan pelatihan berulang.

Menggunakan pos pemeriksaan untuk pelatihan berulang

Konfigurasikan tugas pelatihan Anda berikutnya untuk menggunakan pos pemeriksaan sebelumnya sebagai model dasar:

run: name: "my-iterative-training-job" model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<previous-job-name>" data_s3_path: s3://<bucket>/<data-file>.jsonl replicas: 4

Kapan menggunakan pelatihan berulang

Kasus penggunaan yang ideal

Gunakan pelatihan berulang ketika Anda memiliki:

  • Loop umpan balik — Kemampuan untuk mengumpulkan kasus kegagalan dunia nyata dan mengatasinya secara sistematis

  • Lingkungan dinamis - Dokumentasi yang berkembang, APIs, atau topik pendukung yang membutuhkan pembaruan model berkala

  • Evaluasi yang kuat - Tolok ukur yang kuat dan kerangka evaluasi (lihat contoh di bawah) untuk mengukur peningkatan dengan percaya diri

  • Kemampuan operasi ML - Sumber daya untuk mengelola beberapa siklus pelatihan dan kontrol versi

Contoh kerangka evaluasi yang kuat

  • Suite benchmark otomatis dengan pass/fail ambang batas

  • Protokol evaluasi manusia dengan metrik reliabilitas antar-penilai

  • Skenario pengujian tim merah yang mencakup kasus tepi dan input permusuhan

  • Infrastruktur pengujian A/B untuk mengukur dampak produksi

Pola umum

SFT → RFT Pipeline: Pola iteratif yang sering digunakan melibatkan:

  • SFT pertama — Ajarkan model bagaimana memecahkan masalah melalui contoh demonstrasi

  • RFT kedua - Optimalkan kinerja di seluruh ruang masalah yang lebih luas menggunakan sinyal hadiah

Urutan ini penting ketika model berkinerja buruk pada awalnya — RFT pada model akurasi mendekati nol tidak akan meningkatkan kinerja tanpa terlebih dahulu menetapkan kemampuan pemecahan masalah dasar melalui SFT.

Kapan tidak menggunakan pelatihan berulang

Hindari pelatihan berulang untuk:

  • Tugas yang stabil dan terdefinisi dengan baik — Data stasioner dengan persyaratan konsisten yang sudah mencapai kinerja mendekati langit-langit

  • Masalah klasifikasi sederhana — Tugas sempit di mana pelatihan single-pass cukup

  • Kendala sumber daya - Kurangnya kemampuan operasi ML khusus untuk mengelola beberapa siklus pelatihan

  • Keuntungan marjinal - Ketika overhead tidak membenarkan peningkatan kinerja minimal

Contoh alur kerja: SFT → RFT

Contoh ini menunjukkan pola pelatihan berulang yang umum untuk model penalaran.

Langkah 1: Pelatihan SFT awal

Konfigurasikan dan luncurkan pekerjaan pelatihan SFT Anda dengan kumpulan data Anda:

run: name: "initial-sft-training" model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "nova-lite-2/prod" data_s3_path: s3://<bucket>/sft-training-data.jsonl validation_data_s3_path: s3://<bucket>/sft-validation-data.jsonl

Alasan: SFT menyediakan demonstrasi tambahan yang membentuk output model ke dalam format dan suara yang Anda inginkan, membangun kemampuan dasar.

Setelah pelatihan selesai

  • Perhatikan output_path konfigurasi dalam pekerjaan pelatihan Anda

  • Download output.tar.gz dari lokasi tersebut

  • Ekstrak dan temukan manifest.json

  • Salin checkpoint_s3_bucket nilainya

Langkah 2: Pelatihan RFT di pos pemeriksaan SFT

Buat pekerjaan pelatihan RFT baru menggunakan pos pemeriksaan SFT:

run: name: "rft-on-sft-checkpoint" model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<initial-sft-training>" data_s3_path: s3://<bucket>/rft-training-data.jsonl reward_lambda_arn: <your-reward-function-arn>

Alasan: Pelatihan RFT dibangun di atas fondasi SFT, memungkinkan model untuk mengembangkan pola penalaran yang lebih kompleks yang dioptimalkan oleh fungsi hadiah Anda.

Langkah 3: Evaluasi dan iterasi

Jalankan evaluasi di pos pemeriksaan RFT untuk menilai kinerja:

run: name: "evaluate-rft-checkpoint" model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<rft-on-sft-checkpoint>" data_s3_path: s3://<bucket>/evaluation-data.jsonl

Jika metrik target tidak terpenuhi, lanjutkan iterasi dengan data atau hiperparameter yang disesuaikan.

penting

⚠️ Penting: Teknik pelatihan (LoRa vs Peringkat Penuh) harus tetap konsisten di semua iterasi:

  • Jika Anda menggunakan SFT dengan LoRa, Anda harus menggunakan RFT dengan LoRa

  • Jika Anda menggunakan SFT dengan Peringkat Penuh, Anda harus menggunakan RFT dengan Peringkat Penuh

  • Anda tidak dapat beralih antara Pipa tengah LoRa dan Peringkat Penuh

Memantau kemajuan di seluruh iterasi

Anda dapat melacak metrik melalui MLFlow.

Buat MLflow aplikasi

Menggunakan UI Studio: Jika Anda membuat pekerjaan pelatihan melalui UI Studio, MLflow aplikasi default dibuat secara otomatis dan dipilih secara default di bawah Opsi Lanjutan.

Menggunakan CLI: Jika Anda menggunakan CLI, Anda harus membuat MLflow aplikasi dan meneruskannya sebagai input ke permintaan API pekerjaan pelatihan.

mlflow_app_name="<enter your MLflow app name>" role_arn="<enter your role ARN>" bucket_name="<enter your bucket name>" region="<enter your region>" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region)

Akses MLflow aplikasinya

Menggunakan CLI: Buat URL yang telah ditentukan sebelumnya untuk mengakses UI aplikasi: MLflow

aws sagemaker create-presigned-mlflow-app-url \ --arn $mlflow_app_arn \ --region $region \ --output text

Menggunakan UI Studio: UI Studio menampilkan metrik kunci yang disimpan MLflow dan menyediakan tautan ke UI MLflow aplikasi.

Metrik kunci untuk dilacak

Pantau metrik ini di seluruh iterasi untuk menilai peningkatan dan melacak kemajuan pekerjaan:

Untuk SFT

  • Kurva kehilangan pelatihan

  • Jumlah sampel yang dikonsumsi dan waktu untuk memproses sampel

  • Akurasi kinerja pada set uji yang ditahan

  • Kepatuhan format (misalnya, tingkat keluaran JSON yang valid)

  • Kebingungan pada data evaluasi khusus domain

Untuk RFT

  • Skor hadiah rata-rata selama pelatihan

  • Distribusi hadiah (persentase respons hadiah tinggi)

  • Tren hadiah validasi (perhatikan overfitting)

  • Tingkat keberhasilan khusus tugas (misalnya, tingkat kelulusan eksekusi kode, akurasi masalah matematika)

Umum

  • Delta kinerja benchmark antara iterasi

  • Skor evaluasi manusia pada sampel yang representatif

  • Metrik produksi (jika menerapkan secara berulang)

Menentukan kapan harus berhenti

Berhenti iterasi saat:

  • Dataran tinggi kinerja - Pelatihan tambahan tidak lagi meningkatkan metrik target secara bermakna

  • Peralihan teknik membantu — Jika salah satu teknik mencapai puncaknya, coba beralih (misalnya, SFT → RFT → SFT) untuk menerobos langit-langit kinerja

  • Metrik target tercapai - Kriteria keberhasilan Anda terpenuhi

  • Regresi terdeteksi - Iterasi baru menurunkan kinerja (lihat prosedur rollback di bawah)

Untuk prosedur evaluasi terperinci, lihat bagian Evaluasi.

Praktik terbaik

Mulai kecil dan skala secara bertahap

Mulailah dengan kumpulan data minimal dan periode pelatihan tunggal untuk memvalidasi pendekatan Anda sebelum meningkatkan skala. Ini membangun kepercayaan diri dan membantu mengidentifikasi masalah sejak dini.

Menetapkan metrik keberhasilan yang jelas

Tentukan indikator kuantitatif dan kualitatif sebelum memulai:

Contoh metrik keberhasilan berdasarkan kasus penggunaan

  • Menjawab pertanyaan — Akurasi kecocokan yang tepat, skor F1, peringkat preferensi manusia

  • Pembuatan kode - Tingkat kelulusan pengujian unit, keberhasilan kompilasi, waktu eksekusi

  • Tugas penalaran — Akurasi langkah, kebenaran jawaban akhir, skor hadiah

  • Pembuatan konten - Skor koherensi, akurasi faktual, kepatuhan gaya

Menerapkan evaluasi otomatis

Siapkan jalur evaluasi otomatis untuk melacak kinerja setelah setiap putaran, memungkinkan iterasi cepat dan perbandingan objektif.

Pertahankan kontrol versi yang ketat

Dokumen untuk setiap iterasi:

  • Versi dan modifikasi dataset

  • Model lokasi pos pemeriksaan

  • Perubahan hyperparameter

  • Metrik kinerja dan delta

  • Pengamatan kualitatif

Ini membangun pengetahuan institusional dan memungkinkan debugging.

Fokus pada kualitas data daripada kuantitas

Analisis kasus kegagalan dari putaran sebelumnya dan tambahkan contoh berkualitas tinggi yang ditargetkan daripada hanya meningkatkan ukuran kumpulan data.

Rencanakan anggaran iterasi

Rencanakan 3-5 iterasi sebagai rentang tipikal:

  • 1-2 iterasi — Seringkali cukup untuk perbaikan sederhana atau pemolesan akhir

  • 3-5 iterasi — Sesuai untuk tugas-tugas kompleks yang membutuhkan beberapa siklus penyempurnaan

  • 5+ iterasi — Dapat menunjukkan pengembalian yang berkurang atau kebutuhan untuk pendekatan yang berbeda

Sesuaikan berdasarkan anggaran komputasi dan tingkat peningkatan kinerja.

Menerapkan kemampuan rollback

Jika iterasi memperkenalkan regresi:

  • Identifikasi regresi — Bandingkan metrik evaluasi di seluruh pos pemeriksaan

  • Kembali ke pos pemeriksaan sebelumnya - Gunakan jalur S3 pos pemeriksaan sebelumnya sebagai milik Anda model_name_or_path

  • Sesuaikan pendekatan pelatihan — Ubah data, hiperparameter, atau teknik sebelum mencoba lagi

  • Dokumentasikan kegagalan — Catat apa yang menyebabkan regresi untuk menghindari pengulangan

Contoh rollback

run: name: "rollback-to-iteration-2" model_type: amazon.nova-2-lite-v1:0:256k # Use iteration 2 checkpoint instead of failed iteration 3 model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<iteration-2-job-name>"

Pertimbangan Biaya

Penyimpanan pos pemeriksaan

  • Lokasi - Pos pemeriksaan yang disimpan dalam ember escrow dikenakan biaya penyimpanan S3 standar yang ditagih ke akun Anda AWS

  • Retensi - Pos pemeriksaan dipertahankan tanpa batas kecuali dihapus secara eksplisit

  • Manajemen - Menerapkan kebijakan siklus hidup untuk mengarsipkan atau menghapus pos pemeriksaan lama yang tidak lagi Anda perlukan

Kiat pengoptimalan biaya

  • Hapus pos pemeriksaan menengah setelah memvalidasi iterasi yang lebih baru

  • Arsipkan pos pemeriksaan ke S3 Glacier untuk retensi jangka panjang dengan biaya lebih rendah

  • Tetapkan kebijakan retensi berdasarkan kepatuhan dan kebutuhan eksperimen

Batasan

Konsistensi keluarga model

Saat pelatihan berulang, Anda harus menggunakan jenis model yang sama di semua iterasi.

Pelatihan awal

run: model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "nova-lite-2/prod"

Iterasi berikutnya harus menggunakan model_type yang sama

run: model_type: amazon.nova-2-lite-v1:0:256k # Must match original model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

Konsistensi teknik pelatihan

Teknik pelatihan harus tetap konsisten di seluruh iterasi:

  • Model yang dilatih Lora hanya dapat dilatih secara iteratif dengan LoRa

  • Full-Rank-trained model hanya dapat dilatih secara iteratif dengan Full-Rank

Bagaimana adaptor LoRa bekerja dalam pelatihan berulang

  • Setiap iterasi pelatihan LoRa menghasilkan bobot adaptor baru

  • Adaptor baru mengganti (bukan tumpukan dengan) adaptor sebelumnya

  • Model dasar tetap beku; hanya adaptor yang diperbarui

Matriks kompatibilitas teknik

Pelatihan awal Dapat iterasi dengan
SFT (Peringkat Penuh) SFT (Peringkat Penuh), RFT (Peringkat Penuh)
SFT (LoRa) SFT (LoRa), RFT (LoRa)
RFT (Peringkat Penuh) RFT (Peringkat Penuh)
RFT (LoRa) RFT (LoRa)

Memverifikasi kompatibilitas sebelum memulai pekerjaan

  • Periksa resep pelatihan Anda sebelumnya untuk mengidentifikasi jenis model dan teknik pelatihan (LoRa vs Peringkat Penuh)

  • Pastikan resep baru Anda cocok dengan jenis model dan teknik

  • Tinjau manifest.json untuk mengonfirmasi jalur pos pemeriksaan sudah benar

Pemecahan masalah

Kesalahan: “Teknik pelatihan model yang tidak kompatibel terdeteksi”

Penyebab: Teknik pelatihan (LoRa vs Peringkat Penuh) tidak cocok dengan teknik pos pemeriksaan.

Resolusi: Pastikan resep Anda menggunakan teknik pelatihan yang sama dengan model aslinya:

  • Jika pos pemeriksaan dilatih dengan LoRa, gunakan LoRa dalam resep baru Anda

  • Jika pos pemeriksaan dilatih dengan Peringkat Penuh, gunakan Peringkat Penuh dalam resep baru Anda

Kesalahan: “Model dasar untuk pekerjaan yang diekstrak dari model_name_or_path tidak cocok dengan model_type”

Penyebab: Jenis model yang ditentukan model_type tidak cocok dengan model sebenarnya di pos pemeriksaan.

Resolusi: Verifikasi bahwa:

  • model_typeDalam resep Anda cocok dengan jenis model asli

  • Jalur pos pemeriksaan S3 sudah benar model_name_or_path

  • Anda menggunakan jalur dari file manifest.json yang benar

Contoh konfigurasi yang benar

run: model_type: amazon.nova-2-lite-v1:0:256k # Must match checkpoint's model model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

Kesalahan: “Konfigurasi model tidak ditemukan”

Penyebab: Jalur S3 tidak valid atau model_name_or_path tidak dapat diakses.

Resolusi:

  • Verifikasi jalur S3 disalin dengan benar dari file manifest.json

  • Pastikan peran IAM Anda memiliki izin untuk mengakses keranjang escrow

  • Konfirmasikan pekerjaan pelatihan sebelumnya berhasil diselesaikan

  • Periksa kesalahan ketik di jalur

Regresi kinerja setelah iterasi

Gejala: Metrik evaluasi menurun setelah iterasi pelatihan baru.

Resolusi:

  • Rollback - Gunakan pos pemeriksaan sebelumnya sebagai model dasar Anda

  • Analisis — Meninjau log pelatihan dan kualitas data untuk iterasi yang gagal

  • Sesuaikan — Ubah hiperparameter (kurangi tingkat pembelajaran), tingkatkan kualitas data, atau kurangi zaman pelatihan

  • Coba lagi - Luncurkan iterasi baru dengan penyesuaian