Pelatihan berulang - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pelatihan berulang

Pelatihan berulang memungkinkan pengembangan jalur pelatihan canggih untuk model Amazon Nova dengan merantai beberapa teknik pelatihan secara berurutan. Pendekatan ini memungkinkan Anda untuk melapisi metode penyesuaian yang berbeda untuk mencapai model yang disesuaikan dengan tepat.

Prosesnya dimulai dengan melatih model Amazon Nova menggunakan salah satu teknik standar (seperti SFT, PEFT, atau DPO). Setelah selesai, Anda akan menemukan manifest.json file di lokasi output S3 yang Anda tentukan. File ini berisi checkpoint_s3_bucket nilai yang menunjukkan di mana model terlatih disimpan.

Anda kemudian dapat menggunakan lokasi pos pemeriksaan ini sebagai model_name_or_path parameter dalam pelatihan berikutnya, yang secara efektif membangun pekerjaan penyesuaian Anda sebelumnya. Ini menciptakan rantai peningkatan progresif, dengan setiap tahap pelatihan menyempurnakan model lebih lanjut berdasarkan kebutuhan spesifik Anda.

Pelatihan berulang memungkinkan Anda mengembangkan jalur pelatihan yang lebih canggih untuk menyetel model Amazon Nova. Dengan merantai modul pelatihan, Anda dapat menyusun teknik pelatihan untuk menyesuaikan model Anda sesuai dengan kebutuhan Anda.

Anda mulai dengan melatih Amazon Nova menggunakan salah satu teknik yang dijelaskan dalamKustomisasi Amazon Nova di Amazon SageMaker HyperPod. Di lokasi output S3 yang ditentukan selama pelatihan, cari manifest.json file. File ini berisi nilai checkpoint_s3_bucket yang menunjukkan di mana model output didefinisikan. Anda dapat memanfaatkan lokasi keluaran ini sebagai model_name_or_path nilai dalam pelatihan future run.

Contoh

Contoh langkah berikut melalui alur kerja yang mendefinisikan pelatihan iteratif fine-tuning (SFT) > SFT> direct preference optimization (DPO) yang diawasi berjalan untuk model Amazon Nova Lite. Pertama, Anda harus menentukan resep lari untuk pelatihan SFT awal model pondasi.

## Run config run: name: "my-fullrank-run-sft" # A descriptive name for your training job model_type: "amazon.nova-lite-v1:0:300k" # Model variant specification, do not change model_name_or_path: "nova-lite/prod" # Base model path, do not change replicas: 4 # Number of compute instances for training, allowed values are 4, 8, 16 data_s3_path: "s3://Path to training data" # Your training data path output_s3_path: "s3://Path to output data location" # Output artifact path

Pekerjaan pelatihan ini akan menghasilkan manifest.json file di jalur yang ditentukan pada output_s3_path yang menyerupai berikut ini:

{"checkpoint_s3_bucket":"s3://<escrow bucket>/<job id>/outputs/checkpoints"}

Jalur pos pemeriksaan ini dapat digunakan dalam langkah pelatihan berulang berikutnya sebagai. model_name_or_path Melakukan hal itu mengarahkan pelatihan untuk menggunakan pos pemeriksaan sebelumnya sebagai model dasar untuk metode pelatihan berikutnya alih-alih model pondasi dasar.

Langkah berikut dalam contoh mendefinisikan pelatihan SFT yang dijalankan pada kumpulan data yang berbeda, yang dapat digunakan untuk melatih model di berbagai rangkaian interaksi.

## Run config run: name: "my-fullrank-run-sft-2" # A descriptive name for your training job model_type: "amazon.nova-lite-v1:0:300k" # Model variant specification, do not change model_name_or_path: "s3://customer-escrow-bucket-unique_id/my-fullrank-run-sft-unique id/outputs/checkpoints" # Model checkpoint after 1st SFT run replicas: 4 # Number of compute instances for training, allowed values are 4, 8, 16 data_s3_path: "s3://Path to training data #2" # Customer data path output_s3_path: "s3://Path to output data location" # Output artifact path

Seperti set pelatihan pertama, ini akan menampilkan manifest.json file serupa di lokasi output:

{"checkpoint_s3_bucket":"s3://<escrow bucket>/<job id>/outputs/checkpoints"}

Ini kemudian dapat digunakan sebagai masukan akhir untuk pelatihan berulang terakhir yang dijalankan menggunakan DPO:

## Run config run: name: "my-fullrank-run-dpo" # A descriptive name for your training job model_type: "amazon.nova-lite-v1:0:300k" # Model variant specification, do not change model_name_or_path: "s3://customer-escrow-bucket-unique_id/my-fullrank-run-sft-2-unique id/outputs/checkpoints" # Model checkpoint after 2nd SFT run replicas: 4 # Number of compute instances for training, allowed values are 4, 8, 16 data_s3_path: "s3://Path to training data #2" # Your training data path output_s3_path: "s3://Path to output data location" # Output artifact path

Output pada setiap langkah dari pipa pelatihan berulang ini dapat digunakan baik untuk inferensi atau evaluasi juga untuk memeriksa kemajuan model di sepanjang jalan untuk memastikannya konvergen ke output yang diinginkan.

Batasan

Pelatihan berulang dapat dijalankan dengan salah satu metode pelatihan yang tersedia dalam urutan apa pun, untuk sebanyak mungkin iterasi yang Anda butuhkan untuk mencapai hasil yang Anda inginkan. Saat pelatihan berulang, baik model maupun tekniknya (yaitu peringkat penuh dibandingkan dengan LoRa PEFT) harus tetap konsisten. Misalnya, jika Anda mencoba berlatih berulang dengan fine-tuning peringkat penuh setelah pelatihan LoRa PEFT, pekerjaan pelatihan akan menimbulkan kesalahan. Demikian pula, jika Anda ingin menentukan pekerjaan pelatihan Amazon Nova Lite di atas pos pemeriksaan Amazon Nova Micro, Anda akan menerima kesalahan.