Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
SageMaker Lowongan Pelatihan AI
Menyesuaikan model Amazon Nova dengan Amazon SageMaker Training Jobs mengikuti alur kerja terstruktur yang dirancang untuk menyederhanakan proses kompleks penyempurnaan model bahasa besar. end-to-endAlur kerja ini mencakup pelatihan model, evaluasi, dan penerapan untuk inferensi. Untuk informasi selengkapnya, lihat Menyesuaikan model Amazon Nova di Panduan Pengembang Amazon SageMaker AI.
Dengan Amazon SageMaker AI, Anda dapat menyempurnakan model foundation yang sudah terlatih sebelumnya, seperti Amazon Nova, tanpa melatih model Anda sendiri dari awal. Bagian berikut merinci opsi fine-tuning di SageMaker AI saat bekerja dengan model foundation Amazon Nova.
Topik
Penyetelan peringkat penuh
Penyetelan peringkat penuh memodifikasi semua parameter model pondasi untuk mengoptimalkan kinerjanya untuk tugas atau domain tertentu. Pendekatan komprehensif ini memperbarui seluruh arsitektur model, memungkinkan adaptasi yang lebih dalam daripada metode berbasis adaptor. Untuk informasi lebih lanjut, lihat Fine-tune foundation models.
Cara kerja fine-tuning peringkat penuh
Selama fine-tuning peringkat penuh, model belajar dengan memperbarui semua parameternya menggunakan data pelatihan Anda. Proses fine-tuning peringkat penuh ini:
-
Memungkinkan model untuk mengembangkan pengetahuan khusus untuk domain Anda.
-
Memungkinkan perubahan signifikan pada representasi dasar model.
-
Membutuhkan lebih banyak sumber daya komputasi dibandingkan dengan metode berbasis adaptor tetapi dapat mencapai kinerja spesifik tugas yang lebih baik.
Kapan memilih fine-tuning peringkat penuh
Sebaiknya gunakan fine-tuning peringkat penuh dalam skenario berikut:
-
Ketika fine-tuning LoRa PEFT tidak mencapai tingkat kinerja yang diinginkan.
-
Untuk domain khusus yang membutuhkan keahlian mendalam (seperti bidang medis, hukum, atau teknis).
-
Bila Anda memiliki kumpulan data besar dan berkualitas tinggi untuk kasus penggunaan Anda.
-
Ketika persyaratan akurasi lebih besar daripada pertimbangan biaya komputasi.
-
Untuk aplikasi yang membutuhkan penyimpangan signifikan dari perilaku model dasar.
Penyetelan adaptor peringkat rendah
Metode yang paling efektif dan hemat biaya untuk meningkatkan kinerja model dasar adalah melalui fine-tuning hemat parameter adaptor peringkat rendah (LoRa PEFT). Prinsip dasar LoRa PEFT adalah bahwa hanya sejumlah kecil bobot tambahan yang memerlukan pembaruan untuk menyesuaikannya dengan tugas atau domain baru.
LoRa PEFT secara efisien menyempurnakan model pondasi dengan memperkenalkan matriks bobot peringkat rendah yang dapat dilatih ke dalam lapisan model tertentu, mengurangi jumlah parameter yang dapat dilatih sambil mempertahankan kualitas model. Adaptor LoRa PEFT menambah model pondasi dasar dengan menggabungkan lapisan adaptor ringan yang memodifikasi bobot model selama inferensi, sambil menjaga parameter model asli tetap utuh. Pendekatan ini juga dianggap sebagai salah satu teknik fine-tuning yang paling hemat biaya. Untuk informasi selengkapnya, lihat Menyesuaikan model dengan komponen inferensi adaptor.
Kapan memilih LoRa PEFT
Kami merekomendasikan penggunaan LoRa PEFT dalam skenario berikut:
-
Anda biasanya harus mulai dengan LoRa PEFT daripada metode fine-tuning lainnya karena ini adalah prosedur pelatihan yang cepat.
-
LoRa PEFT efektif dalam kasus di mana kinerja model dasar sudah memuaskan. Dalam hal ini, tujuan LoRa PEFT adalah untuk meningkatkan kemampuannya di berbagai tugas terkait, seperti ringkasan teks atau terjemahan bahasa. Properti regularisasi LoRa PEFT juga membantu mencegah overfitting dan mengurangi risiko model “melupakan” domain sumber. Ini memastikan model tetap serbaguna dan mudah beradaptasi dengan berbagai aplikasi.
-
Anda dapat menggunakan LoRa PEFT untuk skenario penyetelan instruksi dengan kumpulan data yang relatif kecil. LoRa PEFT berkinerja lebih baik dengan kumpulan data khusus tugas yang lebih kecil daripada kumpulan data yang lebih luas dan lebih besar.
-
Untuk kumpulan data besar berlabel yang melebihi batas data kustomisasi Amazon Bedrock, Anda dapat menggunakan LoRa PEFT pada SageMaker AI untuk menghasilkan hasil yang lebih baik.
-
Jika Anda telah mencapai hasil yang menjanjikan melalui fine-tuning Amazon Bedrock, LoRa PEFT pada SageMaker AI dapat membantu mengoptimalkan hiperparameter model lebih lanjut.
Optimalisasi preferensi langsung
Optimalisasi preferensi langsung (DPO) adalah metode fine-tuning yang efisien untuk model pondasi yang menggunakan data perbandingan berpasangan untuk menyelaraskan output model dengan preferensi manusia. Pendekatan ini memberikan optimalisasi langsung perilaku model berdasarkan umpan balik manusia tentang respons mana yang lebih diinginkan.
Mengapa DPO penting
Model yayasan yang dilatih pada data skala besar sering menghasilkan output yang mungkin benar secara faktual tetapi gagal menyelaraskan dengan kebutuhan pengguna tertentu, nilai organisasi, atau persyaratan keselamatan. DPO mengatasi kesenjangan ini dengan memungkinkan Anda melakukan hal berikut:
-
Sempurnakan model ke arah pola perilaku yang diinginkan.
-
Kurangi output yang tidak diinginkan atau respons berbahaya.
-
Sejajarkan respons model dengan suara merek dan pedoman komunikasi.
-
Tingkatkan kualitas respons berdasarkan umpan balik pakar domain.
Bagaimana DPO bekerja
DPO menggunakan contoh berpasangan di mana evaluator manusia menunjukkan mana dari dua kemungkinan tanggapan yang lebih disukai. Model belajar untuk memaksimalkan kemungkinan menghasilkan respons yang disukai sambil meminimalkan yang tidak diinginkan. Anda dapat menerapkan DPO dengan menggunakan salah satu teknik berikut:
-
DPO peringkat penuh: Memperbarui semua parameter model untuk mengoptimalkan respons yang disukai.
-
DPO berbasis Lora: Menggunakan adaptor ringan untuk mempelajari penyelarasan preferensi, membutuhkan lebih sedikit sumber daya komputasi.
Kapan memilih DPO
Kami merekomendasikan menggunakan DPO dalam skenario berikut:
-
Mengoptimalkan output subjektif yang membutuhkan keselarasan dengan preferensi manusia tertentu.
-
Menyesuaikan nada, gaya, atau karakteristik konten model agar sesuai dengan pola respons yang diinginkan.
-
Membuat perbaikan yang ditargetkan untuk model yang ada berdasarkan umpan balik pengguna dan analisis kesalahan.
-
Mempertahankan kualitas output yang konsisten di berbagai kasus penggunaan.
-
Menerapkan pagar pengaman melalui pola respons yang disukai.
-
Pelatihan dengan pembelajaran penguatan bebas hadiah.
-
Hanya menggunakan data preferensi alih-alih data bertingkat atau berlabel.
-
Meningkatkan model dalam tugas penyelarasan bernuansa, seperti membantu, tidak berbahaya, atau kejujuran.
DPO efektif untuk menyempurnakan perilaku model secara berulang melalui kumpulan data preferensi yang dikuratori dengan cermat yang menunjukkan output yang diinginkan versus yang tidak diinginkan. Fleksibilitas metode dalam mendukung pendekatan peringkat penuh dan berbasis LoRa memungkinkan Anda memilih implementasi yang paling sesuai berdasarkan sumber daya komputasi dan persyaratan spesifik Anda.
Distilasi
Distilasi model adalah metode yang mentransfer pengetahuan dari model besar dan canggih ke model yang lebih kecil dan efisien. Dengan model Amazon Nova, model “guru” yang lebih besar (seperti Amazon Nova Pro atau Amazon Nova Premier) meneruskan kemampuannya ke model “siswa” yang lebih kecil (seperti Amazon Nova Lite atau Amazon Nova Micro). Ini menciptakan model khusus yang mempertahankan kinerja tinggi sambil menggunakan lebih sedikit sumber daya.
Untuk informasi tentang cara menyelesaikan ini menggunakan Pekerjaan Pelatihan SageMaker AI, lihat distilasi Amazon Nova.