Dukungan multimodal untuk Amazon Nova - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Dukungan multimodal untuk Amazon Nova

Amazon Nova Understanding Models adalah model pemahaman multimodal, yang berarti mereka mendukung input multimodal seperti gambar, video, dan dokumen untuk menyimpulkan dan menjawab pertanyaan berdasarkan konten yang disediakan. Model Amazon Nova dilengkapi dengan kemampuan visi baru yang memungkinkan model untuk memahami dan menganalisis gambar, dokumen, dan video sehingga mewujudkan kasus penggunaan pemahaman multimodal.

Bagian berikut menguraikan pedoman untuk bekerja dengan gambar, dokumen, dan video di Amazon Nova. Ini termasuk strategi pra-pemrosesan yang digunakan, contoh kode, dan batasan yang relevan untuk dipertimbangkan.

Jenis konten yang didukung berdasarkan modalitas

Informasi berikut merinci format file yang didukung oleh file media dan metode input yang diterima.

Jenis File Media

Format File yang didukung

Metode Masukan

Strategi Penguraian

Citra

PNG, JPG, JPEG, GIF, WEBP

Base64

Amazon S3 URI

Pemahaman Visi Gambar

Dokumen Teks

(Hanya API Converse)

CSV, XLS, XLSX, HTML, TXT, MD, DOC

Byte

Amazon S3 URI

Pemahaman Tekstual dari dokumen saja.

Dokumen Media

(Hanya API Converse)

PDF, DOCX

Byte

Amazon S3 URI

Teks dengan Pemahaman Gambar yang disisipkan

Video

MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP

Base64

Amazon S3 URI

Pemahaman Visi Video

catatan

Anda dapat menyertakan hingga lima file dari komputer Anda atau 1000 file dari Amazon S3. Setiap file harus tidak lebih dari 1 GB saat diunggah dari Amazon S3. Ukuran total file yang diunggah tidak boleh melebihi 25 MB saat mengunggah dari komputer Anda atau 2 GB saat mengunggah dari Amazon S3.

Karena 25 MB adalah batas muatan keseluruhan, pastikan Anda memperhitungkan overhead base64. Saat bekerja, ingatlah bahwa pustaka dan kerangka kerja mempertahankan memori, dan konten media yang diteruskan dapat dengan cepat bertambah. Saat menggunakan video, menentukan s3Location harus meringankan banyak masalah penyimpanan.

catatan

Video dan dokumen besar membutuhkan waktu untuk diproses, terlepas dari metode input. Jika boto3 SDK kehabisan waktu sambil menunggu respons dari Amazon Bedrock, pastikan Anda memiliki nilai read_timeout yang sesuai dan telah memutakhirkan boto3 ke setidaknya versi 1.38.