Siapkan kumpulan data pelatihan Anda untuk fine-tuning dan pra-pelatihan lanjutan

Untuk menyiapkan kumpulan data pelatihan dan validasi untuk model kustom Anda, Anda membuat .jsonl file, di mana setiap baris adalah objek JSON yang sesuai dengan catatan. Sebelum Anda dapat memulai pekerjaan penyesuaian model, Anda setidaknya harus menyiapkan kumpulan data pelatihan. File yang Anda buat harus sesuai dengan format untuk metode kustomisasi dan model yang Anda pilih. Catatan di dalamnya harus sesuai dengan persyaratan ukuran tergantung model Anda.

Untuk informasi tentang persyaratan model, lihat. Persyaratan model untuk kumpulan data pelatihan dan validasi Untuk melihat kuota default yang berlaku untuk kumpulan data pelatihan dan validasi yang digunakan untuk menyesuaikan model yang berbeda, lihat Kuota Jumlah catatan pelatihan dan validasi di titik akhir Amazon Bedrock dan kuota di. Referensi Umum AWS

Apakah kumpulan data validasi didukung dan format kumpulan data pelatihan dan validasi Anda bergantung pada faktor-faktor berikut.

Jenis pekerjaan penyesuaian fine-tuning (Fine-tuning atau Continued Pre-training).
Modalitas input dan output data.

Untuk informasi tentang model fine-tuning, lihat Amazon Nova Model fine-tuning. Amazon Nova

Topik

Modalitas yang didukung untuk fine-tuning dan melanjutkan pra-pelatihan

Bagian berikut menjelaskan berbagai kemampuan fine-tuning dan pra-pelatihan yang didukung oleh masing-masing model, yang diatur oleh modalitas input dan outputnya. Untuk informasi tentang model fine-tuning, lihat Amazon Nova Model fine-tuning. Amazon Nova

Text-to-Text model

Text-to-Text model dapat disetel dengan baik untuk berbagai tugas berbasis teks, termasuk aplikasi percakapan dan non-percakapan. Untuk informasi tentang menyiapkan data untuk Text-to-Text model fine-tuning, lihat. Siapkan data untuk model text-to-text fine-tuning

Model non-percakapan berikut dioptimalkan untuk tugas-tugas seperti meringkas, terjemahan, dan menjawab pertanyaan:

Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite
Amazon Titan Teks Premier
Cohere Command
Cohere Command Light
Meta Llama 3.1 8B Instruct
Meta Llama 3.1 70B Instruct

Model percakapan berikut dirancang untuk interaksi satu putaran dan multi-putaran. Jika model menggunakan Converse API, kumpulan data fine-tuning Anda harus mengikuti format pesan Converse API dan menyertakan pesan sistem, pengguna, dan asisten. Sebagai contoh, lihat Siapkan data untuk model text-to-text fine-tuning. Untuk informasi selengkapnya tentang operasi Converse API, lihatMelakukan percakapan dengan operasi Converse API.

Antropik Claude 3 Haiku
MetaLlama 3.2 1B Instruct(Format API Converse)
MetaLlama 3.2 3B Instruct(Format API Converse)
MetaLlama 3.2 11B InstructVisi (Format API Converse)
MetaLlama 3.2 90B InstructVisi (Format API Converse)

Text-Image-to-Text & Text-to-Image model s

Model berikut mendukung fine-tuning untuk pembuatan gambar dan pemrosesan teks-gambar. Model-model ini memproses atau menghasilkan gambar berdasarkan input tekstual, atau menghasilkan teks berdasarkan input tekstual dan gambar. Untuk informasi tentang menyiapkan data untuk model fine-tuning Text-Image-to-Text & Text-to-Image model, lihat. Siapkan data untuk menyempurnakan model pemrosesan gambar dan teks

Amazon Titan Image Generator G1 V1
MetaLlama 3.2 11B InstructVisi
MetaLlama 3.2 90B InstructVisi

Gambar-untuk-Embeddings

Model berikut mendukung fine-tuning untuk tugas-tugas seperti klasifikasi dan pengambilan. Model-model ini menghasilkan representasi numerik (embeddings) dari input gambar. Untuk informasi tentang menyiapkan data untuk Image-to-Embeddings model fine-tuning, lihat. Siapkan data untuk menyempurnakan pembuatan gambar dan model penyematan

Amazon Titan Multimodal Embeddings G1
Amazon Titan Image Generator G1 V1

Pra-pelatihan lanjutan: Text-to-Text

Model-model berikut dapat digunakan untuk pra-pelatihan lanjutan. Model-model ini mendukung pra-pelatihan lanjutan pada data spesifik domain untuk meningkatkan pengetahuan dasar mereka. Untuk informasi tentang menyiapkan data untuk Pra-pelatihan Lanjutan untuk Text-to-Text model, lihatSiapkan kumpulan data untuk pra-pelatihan lanjutan.

Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Model dan Wilayah yang didukung untuk fine-tuning dan melanjutkan pra-pelatihan

Persyaratan model untuk kumpulan data pelatihan dan validasi