View a markdown version of this page

Pemahaman multimodal - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pemahaman multimodal

Amazon Nova 2 Lite dapat memahami beberapa modalitas input. Model ini dilengkapi dengan kemampuan penglihatan yang memungkinkannya untuk memahami dan menganalisis gambar, dokumen, video, dan ucapan untuk menyimpulkan dan menjawab pertanyaan berdasarkan konten yang disediakan.

Bagian ini menguraikan pedoman untuk bekerja dengan gambar, dokumen, dan video di Amazon Nova termasuk strategi pra-pemrosesan yang digunakan, contoh kode, dan batasan yang relevan untuk dipertimbangkan.

Jenis konten yang didukung berdasarkan modalitas

Informasi berikut merinci format file yang didukung oleh setiap jenis file media dan metode input yang diterima.

Jenis file media Format file yang didukung Metode masukan Keterbatasan ukuran Jumlah objek
Citra

PNG, JPEG, GIF, WEBP

Catatan: Jika Anda menggunakan file GIF atau WebP animasi, hanya bingkai pertama yang akan digunakan.

Menyematkan data dalam permintaan

Jika Anda menggunakan Converse API, encode data sebagai byte.

Jika Anda menggunakan API Invoke, encode data sebagai string Base64.

25 MB 5
Amazon S3 URI Total 2 GB 1000
Video MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP

Menyematkan data dalam permintaan

Jika Anda menggunakan Converse API, encode data sebagai byte.

Jika Anda menggunakan API Invoke, encode data sebagai string Base64.

25 MB 1
Amazon S3 URI 1 GB 1

Pemahaman gambar

Pemahaman gambar mengacu pada kemampuan Amazon Nova untuk memproses gambar dan melakukan berbagai tugas visi komputer seperti:

  • Melakukan deteksi objek

  • Menjawab pertanyaan tentang gambar melalui Visual Question Answering (VQA)

  • Mengklasifikasikan dan meringkas gambar

  • Melakukan deteksi kotak pembatas

  • Pengenalan Karakter Optik (OCR)

  • Penghitungan objek

Gambar dapat disertakan sebagai prompt yang diteruskan ke API sebagai array byte atau melalui URI S3.

Informasi teknis utama

Berikut ini adalah informasi teknis utama yang perlu diperhatikan ketika Anda bekerja dengan kemampuan ini.

Ukuran gambar dan penskalaan ulang

Amazon Nova secara otomatis mengubah skala gambar untuk mengoptimalkan kualitas dan kinerja:

  • Menentukan rasio aspek terdekat (seperti 1:1, 1:2, 2:3 dan seterusnya)

  • Rescales sehingga satu sisi ≥ 896 px atau cocok dengan sisi yang lebih pendek dari gambar asli—mana yang lebih besar

  • Mempertahankan rasio aspek

  • Mendukung resolusi hingga 8.000 × 8.000 px

Koordinat kotak pembatas:

  • Berguna untuk tugas-tugas seperti mengidentifikasi elemen dalam tangkapan layar atau pentanahan gambar

  • Koordinat dapat diubah skala agar sesuai dengan dimensi asli gambar dalam pasca-pemrosesan

  • Mengembalikan kotak pembatas pada skala [0, 1000].

Estimasi token gambar

Amazon Nova mengubah setiap gambar menjadi token untuk diproses. Jumlah token tergantung pada resolusi dan rasio aspek gambar.

Berikut ini adalah contoh perkiraan jumlah token berdasarkan resolusi gambar:

Resolusi gambar Estimasi token
900 x 450 515
900 x 900 ~1.035
1400 x 900 ~ 1.600
1800 x 900 ~ 2.060
1300 x 1300 ~ 2.155

Contoh pemahaman gambar

Untuk contoh cara menyematkan data gambar secara langsung dalam permintaan, lihat input Multimodal menggunakan aset tertanam - Converse API (non-streaming) contoh di. Pustaka kode

Untuk mengunggah file gambar besar atau beberapa file gambar, di mana muatan keseluruhan lebih besar dari 25 MB, gunakan Amazon S3. Untuk contoh lengkap tentang cara menggunakan referensi Amazon S3 URI untuk input gambar, lihat contoh input Multimodal menggunakan S3 URI - Converse API (non-streaming) di contoh. Pustaka kode

catatan

Saat menggunakan S3, pastikan layanan Amazon Bedrock memiliki izin untuk mengakses bucket dan objek.

Keterbatasan utama

Daftar berikut menguraikan batasan model pemahaman gambar saat ini:

  • Pemahaman gambar multibahasa: Model memiliki pemahaman terbatas tentang gambar multibahasa dan bingkai video dan dapat berjuang atau berhalusinasi pada tugas-tugas sederhana.

  • Identifikasi orang: Model Amazon Nova 2 tidak mendukung kemampuan untuk mengidentifikasi atau memberi nama individu dalam gambar, dokumen, atau video.

  • Penalaran spasial: Model Amazon Nova 2 memiliki kemampuan penalaran spasial yang terbatas. Mereka mungkin berjuang dengan tugas-tugas yang membutuhkan lokalisasi atau analisis tata letak yang tepat.

  • Teks kecil dalam gambar dan video: Jika teks dalam gambar atau video terlalu kecil, pertimbangkan untuk meningkatkan ukuran relatif teks dalam gambar dengan memotong ke bagian yang relevan sambil mempertahankan konteks yang diperlukan.

Pemahaman video

Pemahaman video mengacu pada kemampuan Amazon Nova untuk memproses input video dan melakukan berbagai tugas pemahaman video seperti:

  • Menganalisis bingkai kunci dan meringkas konten video

  • Menjawab pertanyaan tentang segmen video (Video Question Answering, atau Video QA)

  • Mendeteksi dan melacak objek di seluruh bingkai

  • Mengidentifikasi tindakan, adegan, dan peristiwa

  • Melakukan segmentasi temporal untuk menemukan momen tertentu

  • Menghasilkan keterangan deskriptif atau ringkasan urutan video

Informasi teknis utama

Berikut ini adalah informasi teknis utama yang perlu diperhatikan ketika Anda bekerja dengan kemampuan ini.

Informasi ukuran video

Kemampuan pemahaman video Amazon Nova mendukung rasio multi-aspek. Semua video diubah ukurannya dengan distorsi (naik atau turun, berdasarkan rasio aspek asli) hingga 672 × 672 dimensi persegi sebelum dimasukkan ke model.

Model ini menggunakan strategi pengambilan sampel dinamis berdasarkan panjang video. Untuk video berdurasi 16 menit atau kurang, Amazon Nova 2 Lite mengambil sampel 1 frame per detik (FPS). Untuk video yang berdurasi lebih dari 16 menit, laju pengambilan sampel menurun untuk mempertahankan sampel 960 frame yang konsisten, dengan laju pengambilan sampel bingkai bervariasi. Pendekatan ini dirancang untuk memberikan pemahaman video tingkat adegan yang lebih akurat untuk video yang lebih pendek dibandingkan dengan konten video yang lebih panjang.

Kami menyarankan Anda menjaga panjang video kurang dari 1 jam untuk gerakan rendah dan kurang dari 16 menit untuk apa pun dengan gerakan tinggi.

Seharusnya tidak ada perbedaan saat menganalisis versi video 4k dan versi Full HD. Demikian pula, karena laju pengambilan sampel adalah 1 FPS, video 60 FPS harus tampil sebaik video 30 FPS. Menggunakan resolusi dan FPS yang lebih tinggi dari yang dibutuhkan tidak menguntungkan karena batas 1 GB dalam ukuran video. Melakukannya akan membatasi panjang video yang sesuai dengan batas ukuran itu, jadi, Anda mungkin ingin melakukan pra-proses video lebih dari 1 GB.

Token video

Panjang video adalah faktor utama yang memengaruhi jumlah token yang dihasilkan. Untuk menghitung perkiraan biaya, kalikan perkiraan jumlah token video dengan harga per token untuk model tertentu yang digunakan.

Tabel berikut memberikan beberapa perkiraan pengambilan sampel bingkai dan pemanfaatan token per panjang video untuk Amazon Nova 2 Lite:

Panjang video Bingkai untuk sampel Tingkat sampel fps Perkiraan token
10 detik 10 1 2,880
30 detik 30 1 8.640
16 menit 960 1 276,480
20 menit 1200 1 345.600
30 menit 1800 1 518.400
45 menit 2700 1 777.600

Contoh pemahaman video

Untuk contoh cara menyematkan data video secara langsung dalam permintaan, lihat input Multimodal menggunakan aset tertanam - Converse API (non-streaming) contoh di file. Pustaka kode

Untuk contoh cara menggunakan referensi URI S3 dalam input video, lihat input Multimodal menggunakan contoh S3 URI - Converse API (non-streaming) dalam contoh. Pustaka kode

Keterbatasan utama

Berikut ini adalah batasan model utama, di mana akurasi dan kinerja model mungkin tidak dijamin:

  • Tidak ada dukungan audio: Model Amazon Nova saat ini dilatih untuk memproses dan memahami konten video hanya berdasarkan bingkai visual. Trek audio dalam video tidak diproses atau dianalisis.

  • Pemahaman gambar multibahasa: Model Amazon Nova memiliki pemahaman terbatas tentang gambar multibahasa dan bingkai video. Mereka mungkin berjuang atau berhalusinasi pada tugas-tugas sederhana.

  • Identifikasi orang: Model Amazon Nova tidak mendukung kemampuan untuk mengidentifikasi atau memberi nama individu dalam gambar, dokumen, atau video. Model tidak akan memberikan nama atau identitas orang dalam konten visual.

  • Teks kecil dalam video: Jika teks dalam gambar atau video terlalu kecil, pertimbangkan untuk meningkatkan ukuran relatif teks dalam video.

  • Penalaran spasial: Model Amazon Nova 2 memiliki kemampuan penalaran spasial yang terbatas. Mereka mungkin berjuang dengan tugas-tugas yang membutuhkan pemahaman yang tepat tentang posisi objek, jarak, atau hubungan spasial dalam video.

  • Konten yang tidak pantas: Model Amazon Nova tidak akan memproses gambar yang tidak pantas atau eksplisit yang melanggar Kebijakan Penggunaan yang Dapat Diterima.

  • Aplikasi perawatan kesehatan: Karena sifat sensitif dari artefak ini, meskipun model Amazon Nova dapat memberikan analisis umum pada beberapa gambar atau video perawatan kesehatan, kami tidak merekomendasikan penggunaannya untuk menafsirkan gambar medis sensitif seperti pemindaian diagnostik yang kompleks. Tanggapan model Amazon Nova tidak boleh dianggap sebagai pengganti nasihat medis profesional.

Pemahaman dokumen

Kemampuan pemahaman dokumen Amazon Nova memungkinkan Anda memasukkan seluruh dokumen (PDFs, file Word, spreadsheet, dan sebagainya) sebagai bagian dari prompt Anda. Hal ini memungkinkan model untuk menganalisis, meringkas, mengekstrak informasi dari, atau menjawab pertanyaan tentang konten dokumen.

Amazon Nova 2 Lite dapat menafsirkan teks dan elemen visual (seperti bagan atau tabel) dalam dokumen-dokumen ini. Ini memungkinkan kasus penggunaan seperti menjawab pertanyaan, meringkas, dan analisis laporan panjang atau dokumen yang dipindai.

Fitur pemahaman dokumen utama termasuk jendela konteks yang sangat besar (token 1M) untuk dokumen panjang dan kemampuan untuk menangani beberapa dokumen dalam satu kueri.

Modalitas dan format dokumen yang didukung

Amazon Nova membedakan antara dua jenis input dokumen:

  • Dokumen berbasis teks, seperti file TXT, CSV, HTML, Markdown, atau DOC, diproses terutama untuk konten tekstualnya. Amazon Nova memahami dan mengekstrak informasi dari teks dalam dokumen-dokumen ini.

  • Dokumen berbasis media, seperti file PDF atau DOCX, mungkin berisi tata letak kompleks, gambar, bagan, atau grafik tertanam. Untuk dokumen berbasis media, Amazon Nova menggunakan pemahaman berbasis visi untuk menafsirkan konten visual—seperti bagan, tabel, diagram, atau tangkapan layar—di samping teks dokumen.

Format file yang didukung mencakup jenis dokumen umum seperti:

  • Teks biasa dan file teks terstruktur: CSV, TXT

  • Spreadsheet: XLS, XLSX, HTML, Penurunan Harga

  • Format gambar standar (untuk gambar dalam dokumen): PNG, JPG, GIF, WebP

  • Format dokumen: DOC, DOCX, PDF

  • PDFs yang berisi pengkodean gambar, seperti CMYK atau SVG tidak didukung.

Batas ukuran dokumen dan pedoman penggunaan

Kendala

Kuota

Jumlah dokumen maksimum

Hingga 5 dokumen per permintaan (berlaku untuk upload langsung dan Amazon S3)

Ukuran dokumen berbasis teks

Setiap dokumen teks harus sama dengan atau kurang dari 4,5 MB

Ukuran dokumen berbasis media

Untuk file PDF dan DOCX, tidak ada batasan ukuran file individual. Saat menggunakan upload langsung, ukuran gabungan semua dokumen media harus kurang atau sama dengan 25 MB. Saat menggunakan Amazon S3, ukuran gabungan semua dokumen media harus kurang atau sama dengan 2 GB.

Konten PDF yang tidak didukung

PDFs yang berisi profil warna CMYK atau gambar SVG tidak didukung.

Harga

Amazon Nova menggunakan harga berbasis token: Anda membayar token input (semua yang Anda kirim, termasuk dokumen terlampir) dan token keluaran (respons model).

Memperkirakan token untuk PDFs: Untuk perencanaan, asumsikan halaman PDF standar 8,5x11 inci ≈ 2.560 token input (perkiraan ini mencakup elemen teks dan visual pada halaman biasa).

Contoh: Menggunakan pemahaman dokumen Nova melalui API dan S3

Untuk contoh cara menggunakannya melalui API, lihat input Multimodal menggunakan aset tertanam - Converse API (non-streaming) contoh di. Pustaka kode

Untuk contoh cara menggunakannya melalui S3, lihat input Multimodal menggunakan contoh S3 URI - Converse API (non-streaming) di. Pustaka kode