Siapkan dataset - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Siapkan dataset

Sebelum Anda dapat memulai pekerjaan penyesuaian model, Anda perlu menyiapkan kumpulan data pelatihan secara minimal. Apakah kumpulan data validasi didukung dan format kumpulan data pelatihan dan validasi Anda bergantung pada faktor-faktor berikut.

  • Jenis pekerjaan kustomisasi (fine-tuning atau Continued Pre-training).

  • Modalitas input dan output data.

Untuk melihat kumpulan data dan persyaratan file untuk model yang berbeda, lihatKuota kustomisasi model.

Pilih tab yang relevan dengan kasus penggunaan Anda.

Fine-tuning: Text-to-text

Untuk menyempurnakan text-to-text model, siapkan kumpulan data pelatihan dan validasi opsional dengan membuat file JSONL dengan beberapa baris JSON. Setiap baris JSON adalah sampel yang berisi a prompt dan completion bidang. Gunakan 6 karakter per token sebagai perkiraan untuk jumlah token. Formatnya adalah sebagai berikut.

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

Berikut ini adalah item contoh untuk tugas tanya jawab:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

Untuk menyempurnakan image-to-embedding model text-to-image atau, siapkan kumpulan data pelatihan dengan membuat file JSONL dengan beberapa baris JSON. Kumpulan data validasi tidak didukung. Setiap baris JSON adalah sampel yang berisiimage-ref, Amazon S3 URI untuk gambar, dan caption yang bisa menjadi prompt untuk gambar.

Gambar harus dalam format JPEG atau PNG.

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Berikut ini adalah item contoh:

{"image-ref": "s3://my-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Untuk mengizinkan Amazon Bedrock mengakses file gambar, tambahkan kebijakan IAM yang mirip dengan yang ada di Izin untuk mengakses file pelatihan dan validasi dan untuk menulis file output di S3 peran layanan kustomisasi model Amazon Bedrock yang Anda atur atau yang disiapkan secara otomatis untuk Anda di konsol. Jalur Amazon S3 yang Anda berikan dalam kumpulan data pelatihan harus berada di folder yang Anda tentukan dalam kebijakan.

Continued Pre-training: Text-to-text

Untuk melakukan Pra-pelatihan Lanjutan pada text-to-text model, siapkan kumpulan data pelatihan dan validasi opsional dengan membuat file JSONL dengan beberapa baris JSON. Karena Pra-pelatihan Lanjutan melibatkan data yang tidak berlabel, setiap baris JSON adalah sampel yang hanya berisi bidang. input Gunakan 6 karakter per token sebagai perkiraan untuk jumlah token. Formatnya adalah sebagai berikut.

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

Berikut ini adalah contoh item yang bisa ada dalam data pelatihan.

{"input": "AWS stands for Amazon Web Services"}