Jenis konten yang didukung berdasarkan modalitas Pemahaman gambar Pemahaman video Pemahaman dokumen

Pemahaman multimodal

Amazon Nova 2 Lite dapat memahami beberapa modalitas input. Model ini dilengkapi dengan kemampuan penglihatan yang memungkinkannya untuk memahami dan menganalisis gambar, dokumen, video, dan ucapan untuk menyimpulkan dan menjawab pertanyaan berdasarkan konten yang disediakan.

Bagian ini menguraikan pedoman untuk bekerja dengan gambar, dokumen, dan video di Amazon Nova termasuk strategi pra-pemrosesan yang digunakan, contoh kode, dan batasan yang relevan untuk dipertimbangkan.

Jenis konten yang didukung berdasarkan modalitas

Informasi berikut merinci format file yang didukung oleh setiap jenis file media dan metode input yang diterima.

Jenis file media	Format file yang didukung	Metode masukan	Keterbatasan ukuran	Jumlah objek
Citra	PNG, JPEG, GIF, WEBP Catatan: Jika Anda menggunakan file GIF atau WebP animasi, hanya bingkai pertama yang akan digunakan.	Menyematkan data dalam permintaan Jika Anda menggunakan Converse API, encode data sebagai byte. Jika Anda menggunakan API Invoke, encode data sebagai string Base64.	25 MB	5
Citra		Amazon S3 URI	Total 2 GB	1000
Video	MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP	Menyematkan data dalam permintaan Jika Anda menggunakan Converse API, encode data sebagai byte. Jika Anda menggunakan API Invoke, encode data sebagai string Base64.	25 MB	1
Video	MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP	Amazon S3 URI	1 GB	1

Pemahaman gambar

Pemahaman gambar mengacu pada kemampuan Amazon Nova untuk memproses gambar dan melakukan berbagai tugas visi komputer seperti:

Melakukan deteksi objek
Menjawab pertanyaan tentang gambar melalui Visual Question Answering (VQA)
Mengklasifikasikan dan meringkas gambar
Melakukan deteksi kotak pembatas
Pengenalan Karakter Optik (OCR)
Penghitungan objek

Gambar dapat disertakan sebagai prompt yang diteruskan ke API sebagai array byte atau melalui URI S3.

Informasi teknis utama

Berikut ini adalah informasi teknis utama yang perlu diperhatikan ketika Anda bekerja dengan kemampuan ini.

Ukuran gambar dan penskalaan ulang

Amazon Nova secara otomatis mengubah skala gambar untuk mengoptimalkan kualitas dan kinerja:

Menentukan rasio aspek terdekat (seperti 1:1, 1:2, 2:3 dan seterusnya)
Rescales sehingga satu sisi ≥ 896 px atau cocok dengan sisi yang lebih pendek dari gambar asli—mana yang lebih besar
Mempertahankan rasio aspek
Mendukung resolusi hingga 8.000 × 8.000 px

Koordinat kotak pembatas:

Berguna untuk tugas-tugas seperti mengidentifikasi elemen dalam tangkapan layar atau pentanahan gambar
Koordinat dapat diubah skala agar sesuai dengan dimensi asli gambar dalam pasca-pemrosesan
Mengembalikan kotak pembatas pada skala [0, 1000].

Estimasi token gambar

Amazon Nova mengubah setiap gambar menjadi token untuk diproses. Jumlah token tergantung pada resolusi dan rasio aspek gambar.

Berikut ini adalah contoh perkiraan jumlah token berdasarkan resolusi gambar:

Resolusi gambar	Estimasi token
900 x 450	515
900 x 900	~1.035
1400 x 900	~ 1.600
1800 x 900	~ 2.060
1300 x 1300	~ 2.155

Contoh pemahaman gambar

Untuk contoh cara menyematkan data gambar secara langsung dalam permintaan, lihat input Multimodal menggunakan aset tertanam - Converse API (non-streaming) contoh di. Pustaka kode

Untuk mengunggah file gambar besar atau beberapa file gambar, di mana muatan keseluruhan lebih besar dari 25 MB, gunakan Amazon S3. Untuk contoh lengkap tentang cara menggunakan referensi Amazon S3 URI untuk input gambar, lihat contoh input Multimodal menggunakan S3 URI - Converse API (non-streaming) di contoh. Pustaka kode

catatan

Saat menggunakan S3, pastikan layanan Amazon Bedrock memiliki izin untuk mengakses bucket dan objek.

Keterbatasan utama

Daftar berikut menguraikan batasan model pemahaman gambar saat ini:

Pemahaman gambar multibahasa: Model memiliki pemahaman terbatas tentang gambar multibahasa dan bingkai video dan dapat berjuang atau berhalusinasi pada tugas-tugas sederhana.
Identifikasi orang: Model Amazon Nova 2 tidak mendukung kemampuan untuk mengidentifikasi atau memberi nama individu dalam gambar, dokumen, atau video.
Penalaran spasial: Model Amazon Nova 2 memiliki kemampuan penalaran spasial yang terbatas. Mereka mungkin berjuang dengan tugas-tugas yang membutuhkan lokalisasi atau analisis tata letak yang tepat.
Teks kecil dalam gambar dan video: Jika teks dalam gambar atau video terlalu kecil, pertimbangkan untuk meningkatkan ukuran relatif teks dalam gambar dengan memotong ke bagian yang relevan sambil mempertahankan konteks yang diperlukan.

Pemahaman video

Pemahaman video mengacu pada kemampuan Amazon Nova untuk memproses input video dan melakukan berbagai tugas pemahaman video seperti:

Menganalisis bingkai kunci dan meringkas konten video
Menjawab pertanyaan tentang segmen video (Video Question Answering, atau Video QA)
Mendeteksi dan melacak objek di seluruh bingkai
Mengidentifikasi tindakan, adegan, dan peristiwa
Melakukan segmentasi temporal untuk menemukan momen tertentu
Menghasilkan keterangan deskriptif atau ringkasan urutan video

Informasi teknis utama

Berikut ini adalah informasi teknis utama yang perlu diperhatikan ketika Anda bekerja dengan kemampuan ini.

Informasi ukuran video

Kemampuan pemahaman video Amazon Nova mendukung rasio multi-aspek. Semua video diubah ukurannya dengan distorsi (naik atau turun, berdasarkan rasio aspek asli) hingga 672 × 672 dimensi persegi sebelum dimasukkan ke model.

Model ini menggunakan strategi pengambilan sampel dinamis berdasarkan panjang video. Untuk video berdurasi 16 menit atau kurang, Amazon Nova 2 Lite mengambil sampel 1 frame per detik (FPS). Untuk video yang berdurasi lebih dari 16 menit, laju pengambilan sampel menurun untuk mempertahankan sampel 960 frame yang konsisten, dengan laju pengambilan sampel bingkai bervariasi. Pendekatan ini dirancang untuk memberikan pemahaman video tingkat adegan yang lebih akurat untuk video yang lebih pendek dibandingkan dengan konten video yang lebih panjang.

Kami menyarankan Anda menjaga panjang video kurang dari 1 jam untuk gerakan rendah dan kurang dari 16 menit untuk apa pun dengan gerakan tinggi.

Seharusnya tidak ada perbedaan saat menganalisis versi video 4k dan versi Full HD. Demikian pula, karena laju pengambilan sampel adalah 1 FPS, video 60 FPS harus tampil sebaik video 30 FPS. Menggunakan resolusi dan FPS yang lebih tinggi dari yang dibutuhkan tidak menguntungkan karena batas 1 GB dalam ukuran video. Melakukannya akan membatasi panjang video yang sesuai dengan batas ukuran itu, jadi, Anda mungkin ingin melakukan pra-proses video lebih dari 1 GB.

Token video

Panjang video adalah faktor utama yang memengaruhi jumlah token yang dihasilkan. Untuk menghitung perkiraan biaya, kalikan perkiraan jumlah token video dengan harga per token untuk model tertentu yang digunakan.

Tabel berikut memberikan beberapa perkiraan pengambilan sampel bingkai dan pemanfaatan token per panjang video untuk Amazon Nova 2 Lite:

Panjang video	Bingkai untuk sampel	Tingkat sampel fps	Perkiraan token
10 detik	10	1	2,880
30 detik	30	1	8.640
16 menit	960	1	276,480
20 menit	1200	1	345.600
30 menit	1800	1	518.400
45 menit	2700	1	777.600

Contoh pemahaman video

Untuk contoh cara menyematkan data video secara langsung dalam permintaan, lihat input Multimodal menggunakan aset tertanam - Converse API (non-streaming) contoh di file. Pustaka kode

Untuk contoh cara menggunakan referensi URI S3 dalam input video, lihat input Multimodal menggunakan contoh S3 URI - Converse API (non-streaming) dalam contoh. Pustaka kode

Keterbatasan utama

Berikut ini adalah batasan model utama, di mana akurasi dan kinerja model mungkin tidak dijamin:

Tidak ada dukungan audio: Model Amazon Nova saat ini dilatih untuk memproses dan memahami konten video hanya berdasarkan bingkai visual. Trek audio dalam video tidak diproses atau dianalisis.
Pemahaman gambar multibahasa: Model Amazon Nova memiliki pemahaman terbatas tentang gambar multibahasa dan bingkai video. Mereka mungkin berjuang atau berhalusinasi pada tugas-tugas sederhana.
Identifikasi orang: Model Amazon Nova tidak mendukung kemampuan untuk mengidentifikasi atau memberi nama individu dalam gambar, dokumen, atau video. Model tidak akan memberikan nama atau identitas orang dalam konten visual.
Teks kecil dalam video: Jika teks dalam gambar atau video terlalu kecil, pertimbangkan untuk meningkatkan ukuran relatif teks dalam video.
Penalaran spasial: Model Amazon Nova 2 memiliki kemampuan penalaran spasial yang terbatas. Mereka mungkin berjuang dengan tugas-tugas yang membutuhkan pemahaman yang tepat tentang posisi objek, jarak, atau hubungan spasial dalam video.
Konten yang tidak pantas: Model Amazon Nova tidak akan memproses gambar yang tidak pantas atau eksplisit yang melanggar Kebijakan Penggunaan yang Dapat Diterima.
Aplikasi perawatan kesehatan: Karena sifat sensitif dari artefak ini, meskipun model Amazon Nova dapat memberikan analisis umum pada beberapa gambar atau video perawatan kesehatan, kami tidak merekomendasikan penggunaannya untuk menafsirkan gambar medis sensitif seperti pemindaian diagnostik yang kompleks. Tanggapan model Amazon Nova tidak boleh dianggap sebagai pengganti nasihat medis profesional.

Pemahaman dokumen

Kemampuan pemahaman dokumen Amazon Nova memungkinkan Anda memasukkan seluruh dokumen (PDFs, file Word, spreadsheet, dan sebagainya) sebagai bagian dari prompt Anda. Hal ini memungkinkan model untuk menganalisis, meringkas, mengekstrak informasi dari, atau menjawab pertanyaan tentang konten dokumen.

Amazon Nova 2 Lite dapat menafsirkan teks dan elemen visual (seperti bagan atau tabel) dalam dokumen-dokumen ini. Ini memungkinkan kasus penggunaan seperti menjawab pertanyaan, meringkas, dan analisis laporan panjang atau dokumen yang dipindai.

Fitur pemahaman dokumen utama termasuk jendela konteks yang sangat besar (token 1M) untuk dokumen panjang dan kemampuan untuk menangani beberapa dokumen dalam satu kueri.

Modalitas dan format dokumen yang didukung

Amazon Nova membedakan antara dua jenis input dokumen:

Dokumen berbasis teks, seperti file TXT, CSV, HTML, Markdown, atau DOC, diproses terutama untuk konten tekstualnya. Amazon Nova memahami dan mengekstrak informasi dari teks dalam dokumen-dokumen ini.
Dokumen berbasis media, seperti file PDF atau DOCX, mungkin berisi tata letak kompleks, gambar, bagan, atau grafik tertanam. Untuk dokumen berbasis media, Amazon Nova menggunakan pemahaman berbasis visi untuk menafsirkan konten visual—seperti bagan, tabel, diagram, atau tangkapan layar—di samping teks dokumen.

Format file yang didukung mencakup jenis dokumen umum seperti:

Teks biasa dan file teks terstruktur: CSV, TXT
Spreadsheet: XLS, XLSX, HTML, Penurunan Harga
Format gambar standar (untuk gambar dalam dokumen): PNG, JPG, GIF, WebP
Format dokumen: DOC, DOCX, PDF
PDFs yang berisi pengkodean gambar, seperti CMYK atau SVG tidak didukung.

Batas ukuran dokumen dan pedoman penggunaan

Kendala	Kuota
Jumlah dokumen maksimum	Hingga 5 dokumen per permintaan (berlaku untuk upload langsung dan Amazon S3)
Ukuran dokumen berbasis teks	Setiap dokumen teks harus sama dengan atau kurang dari 4,5 MB
Ukuran dokumen berbasis media	Untuk file PDF dan DOCX, tidak ada batasan ukuran file individual. Saat menggunakan upload langsung, ukuran gabungan semua dokumen media harus kurang atau sama dengan 25 MB. Saat menggunakan Amazon S3, ukuran gabungan semua dokumen media harus kurang atau sama dengan 2 GB.
Konten PDF yang tidak didukung	PDFs yang berisi profil warna CMYK atau gambar SVG tidak didukung.

Harga

Amazon Nova menggunakan harga berbasis token: Anda membayar token input (semua yang Anda kirim, termasuk dokumen terlampir) dan token keluaran (respons model).

Memperkirakan token untuk PDFs: Untuk perencanaan, asumsikan halaman PDF standar 8,5x11 inci ≈ 2.560 token input (perkiraan ini mencakup elemen teks dan visual pada halaman biasa).

Contoh: Menggunakan pemahaman dokumen Nova melalui API dan S3

Untuk contoh cara menggunakannya melalui API, lihat input Multimodal menggunakan aset tertanam - Converse API (non-streaming) contoh di. Pustaka kode

Untuk contoh cara menggunakannya melalui S3, lihat input Multimodal menggunakan contoh S3 URI - Converse API (non-streaming) di. Pustaka kode

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Penalaran

Pidato ke Ucapan