Amazon Titan Multimodal Embeddings G1 model

Mode fokus

Amazon Titan Multimodal Embeddings G1 model - Amazon Bedrock

Panjang penyematan Finetuning Mempersiapkan dataset Hyperparameter

Amazon Titan Foundation Model telah dilatih sebelumnya pada kumpulan data besar, menjadikannya model tujuan umum yang kuat. Gunakan apa adanya, atau sesuaikan dengan menyempurnakan model dengan data Anda sendiri untuk tugas tertentu tanpa membuat anotasi volume data yang besar.

Ada tiga jenis model Titan: embeddings, pembuatan teks, dan pembuatan gambar.

Ada dua Titan Multimodal Embeddings G1 model. Model Titan Multimodal Embeddings G1 menerjemahkan input teks (kata, frasa atau mungkin satuan teks yang besar) ke dalam representasi numerik (dikenal sebagai embeddings) yang berisi makna semantik teks. Meskipun model ini tidak akan menghasilkan teks, ini berguna untuk aplikasi seperti personalisasi dan pencarian. Dengan membandingkan embeddings, model akan menghasilkan respons yang lebih relevan dan kontekstual daripada pencocokan kata. Model Multimodal Embeddings G1 digunakan untuk kasus penggunaan seperti mencari gambar berdasarkan teks, dengan gambar untuk kesamaan, atau dengan kombinasi teks dan gambar. Ini menerjemahkan gambar input atau teks ke dalam embedding yang berisi makna semantik dari gambar dan teks dalam ruang semantik yang sama.

Model Titan Text bersifat generatif LLMs untuk tugas-tugas seperti ringkasan, pembuatan teks, klasifikasi, qnA terbuka, dan ekstraksi informasi. Mereka juga dilatih pada banyak bahasa pemrograman yang berbeda, serta format teks kaya seperti tabel, JSON, dan file.csv, di antara format lainnya.

Amazon Titan Multimodal Embeddings model G1

ID Model — amazon.titan-embed-image-v1
Token teks masukan maksimum - 256
Bahasa — Bahasa Inggris
Ukuran gambar masukan maks - 25 MB
Ukuran vektor keluaran - 1,024 (default), 384, 256
Jenis inferensi — On-Demand, Throughput yang Disediakan
Kasus penggunaan yang didukung — Pencarian, rekomendasi, dan personalisasi.

Titan Text Embeddings V1 mengambil sebagai input string yang tidak kosong dengan hingga 8.192 token dan mengembalikan penyematan 1.024 dimensi. Rasio karakter terhadap token dalam bahasa Inggris adalah 4,7 char/token, rata-rata. Catatan tentang kasus penggunaan RAG: Sementara Titan Text Embeddings V2 mampu menampung hingga 8.192 token, kami sarankan untuk mengelompokkan dokumen ke dalam segmen logis (seperti paragraf atau bagian).

Panjang penyematan

Menyetel panjang penyematan khusus adalah opsional. Panjang default penyematan adalah 1024 karakter yang akan berfungsi untuk sebagian besar kasus penggunaan. Panjang embedding dapat diatur ke 256, 384, atau 1024 karakter. Ukuran penyematan yang lebih besar menciptakan respons yang lebih rinci, tetapi juga akan meningkatkan waktu komputasi. Panjang penyematan yang lebih pendek kurang detail tetapi akan meningkatkan waktu respons.



    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 384, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })

Finetuning

Masukan ke Amazon Titan Multimodal Embeddings G1 finetuning adalah pasangan gambar-teks.
Format gambar: PNG, JPEG
Batas ukuran gambar masukan: 25 MB
Dimensi gambar: min: 256 px, maks: 4.096 px
Jumlah maksimum token dalam keterangan: 128
Rentang ukuran kumpulan data pelatihan: 1000 - 500.000
Rentang ukuran dataset validasi: 8 - 50.000
Panjang keterangan dalam karakter: 0 - 2.560
Total piksel maksimum per gambar: 2048* 2048* 3
Rasio aspek (w/jam): min: 0,25, maks: 4

Mempersiapkan dataset

Untuk dataset pelatihan, buat .jsonl file dengan beberapa baris JSON. Setiap baris JSON berisi caption atribut image-ref dan yang mirip dengan format Sagemaker Augmented Manifest. Diperlukan kumpulan data validasi. Teks otomatis saat ini tidak didukung.



   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Untuk kumpulan data pelatihan dan validasi, Anda akan membuat .jsonl file dengan beberapa baris JSON.

Jalur Amazon S3 harus berada di folder yang sama di mana Anda telah memberikan izin bagi Amazon Bedrock untuk mengakses data dengan melampirkan kebijakan IAM ke peran layanan Amazon Bedrock Anda. Untuk informasi selengkapnya tentang pemberian kebijakan IAM untuk data pelatihan, lihat Memberikan akses lowongan khusus ke data pelatihan Anda.

Hyperparameter

Nilai-nilai ini dapat disesuaikan untuk hiperparameter model Multimodal Embeddings. Nilai default akan berfungsi dengan baik untuk sebagian besar kasus penggunaan.

Tingkat pembelajaran - (tingkat pembelajaran min/maks) - default: 5.00E-05, min: 5.00E-08, maks: 1
Ukuran batch - Ukuran batch efektif - default: 576, min: 256, maks: 9.216
Epoch maks - default: “auto”, min: 1, maks: 100

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Penyematan Teks Amazon Titan

Ikhtisar model Amazon Titan Image Generator G1

Topik berikutnya:

Ikhtisar model Amazon Titan Image Generator G1

Topik sebelumnya:

Penyematan Teks Amazon Titan

Perlu bantuan?

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie