Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pemahaman multimodal
Amazon Nova 2 Lite dapat memahami beberapa modalitas input. Model ini dilengkapi dengan kemampuan penglihatan yang memungkinkannya untuk memahami dan menganalisis gambar, dokumen, video, dan ucapan untuk menyimpulkan dan menjawab pertanyaan berdasarkan konten yang disediakan.
Bagian ini menguraikan pedoman untuk bekerja dengan gambar, dokumen, dan video di Amazon Nova termasuk strategi pra-pemrosesan yang digunakan, contoh kode, dan batasan yang relevan untuk dipertimbangkan.
Jenis konten yang didukung berdasarkan modalitas
Informasi berikut merinci format file yang didukung oleh setiap jenis file media dan metode input yang diterima.
| Jenis file media | Format file yang didukung | Metode masukan | Keterbatasan ukuran | Jumlah objek |
|---|---|---|---|---|
| Citra | PNG, JPEG, GIF, WEBP Catatan: Jika Anda menggunakan file GIF atau WebP animasi, hanya bingkai pertama yang akan digunakan. |
Menyematkan data dalam permintaan Jika Anda menggunakan Converse API, encode data sebagai byte. Jika Anda menggunakan API Invoke, encode data sebagai string Base64. |
25 MB | 5 |
| Amazon S3 URI | Total 2 GB | 1000 | ||
| Video | MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP | Menyematkan data dalam permintaan Jika Anda menggunakan Converse API, encode data sebagai byte. Jika Anda menggunakan API Invoke, encode data sebagai string Base64. |
25 MB | 1 |
| Amazon S3 URI | 1 GB | 1 |
Pemahaman gambar
Pemahaman gambar mengacu pada kemampuan Amazon Nova untuk memproses gambar dan melakukan berbagai tugas visi komputer seperti:
-
Melakukan deteksi objek
-
Menjawab pertanyaan tentang gambar melalui Visual Question Answering (VQA)
-
Mengklasifikasikan dan meringkas gambar
-
Melakukan deteksi kotak pembatas
-
Pengenalan Karakter Optik (OCR)
-
Penghitungan objek
Gambar dapat disertakan sebagai prompt yang diteruskan ke API sebagai array byte atau melalui URI S3.
Informasi teknis utama
Berikut ini adalah informasi teknis utama yang perlu diperhatikan ketika Anda bekerja dengan kemampuan ini.
Ukuran gambar dan penskalaan ulang
Amazon Nova secara otomatis mengubah skala gambar untuk mengoptimalkan kualitas dan kinerja:
-
Menentukan rasio aspek terdekat (seperti 1:1, 1:2, 2:3 dan seterusnya)
-
Rescales sehingga satu sisi ≥ 896 px atau cocok dengan sisi yang lebih pendek dari gambar asli—mana yang lebih besar
-
Mempertahankan rasio aspek
-
Mendukung resolusi hingga 8.000 × 8.000 px
Koordinat kotak pembatas:
-
Berguna untuk tugas-tugas seperti mengidentifikasi elemen dalam tangkapan layar atau pentanahan gambar
-
Koordinat dapat diubah skala agar sesuai dengan dimensi asli gambar dalam pasca-pemrosesan
-
Mengembalikan kotak pembatas pada skala [0, 1000].
Estimasi token gambar
Amazon Nova mengubah setiap gambar menjadi token untuk diproses. Jumlah token tergantung pada resolusi dan rasio aspek gambar.
Berikut ini adalah contoh perkiraan jumlah token berdasarkan resolusi gambar:
| Resolusi gambar | Estimasi token |
|---|---|
| 900 x 450 | 515 |
| 900 x 900 | ~1.035 |
| 1400 x 900 | ~ 1.600 |
| 1800 x 900 | ~ 2.060 |
| 1300 x 1300 | ~ 2.155 |
Contoh pemahaman gambar
Untuk contoh cara menyematkan data gambar secara langsung dalam permintaan, lihat input Multimodal menggunakan aset tertanam - Converse API (non-streaming) contoh di. Pustaka kode
Untuk mengunggah file gambar besar atau beberapa file gambar, di mana muatan keseluruhan lebih besar dari 25 MB, gunakan Amazon S3. Untuk contoh lengkap tentang cara menggunakan referensi Amazon S3 URI untuk input gambar, lihat contoh input Multimodal menggunakan S3 URI - Converse API (non-streaming) di contoh. Pustaka kode
catatan
Saat menggunakan S3, pastikan layanan Amazon Bedrock memiliki izin untuk mengakses bucket dan objek.
Keterbatasan utama
Daftar berikut menguraikan batasan model pemahaman gambar saat ini:
-
Pemahaman gambar multibahasa: Model memiliki pemahaman terbatas tentang gambar multibahasa dan bingkai video dan dapat berjuang atau berhalusinasi pada tugas-tugas sederhana.
-
Identifikasi orang: Model Amazon Nova 2 tidak mendukung kemampuan untuk mengidentifikasi atau memberi nama individu dalam gambar, dokumen, atau video.
-
Penalaran spasial: Model Amazon Nova 2 memiliki kemampuan penalaran spasial yang terbatas. Mereka mungkin berjuang dengan tugas-tugas yang membutuhkan lokalisasi atau analisis tata letak yang tepat.
-
Teks kecil dalam gambar dan video: Jika teks dalam gambar atau video terlalu kecil, pertimbangkan untuk meningkatkan ukuran relatif teks dalam gambar dengan memotong ke bagian yang relevan sambil mempertahankan konteks yang diperlukan.
Pemahaman video
Pemahaman video mengacu pada kemampuan Amazon Nova untuk memproses input video dan melakukan berbagai tugas pemahaman video seperti:
-
Menganalisis bingkai kunci dan meringkas konten video
-
Menjawab pertanyaan tentang segmen video (Video Question Answering, atau Video QA)
-
Mendeteksi dan melacak objek di seluruh bingkai
-
Mengidentifikasi tindakan, adegan, dan peristiwa
-
Melakukan segmentasi temporal untuk menemukan momen tertentu
-
Menghasilkan keterangan deskriptif atau ringkasan urutan video
Informasi teknis utama
Berikut ini adalah informasi teknis utama yang perlu diperhatikan ketika Anda bekerja dengan kemampuan ini.
Informasi ukuran video
Kemampuan pemahaman video Amazon Nova mendukung rasio multi-aspek. Semua video diubah ukurannya dengan distorsi (naik atau turun, berdasarkan rasio aspek asli) hingga 672 × 672 dimensi persegi sebelum dimasukkan ke model.
Model ini menggunakan strategi pengambilan sampel dinamis berdasarkan panjang video. Untuk video berdurasi 16 menit atau kurang, Amazon Nova 2 Lite mengambil sampel 1 frame per detik (FPS). Untuk video yang berdurasi lebih dari 16 menit, laju pengambilan sampel menurun untuk mempertahankan sampel 960 frame yang konsisten, dengan laju pengambilan sampel bingkai bervariasi. Pendekatan ini dirancang untuk memberikan pemahaman video tingkat adegan yang lebih akurat untuk video yang lebih pendek dibandingkan dengan konten video yang lebih panjang.
Kami menyarankan Anda menjaga panjang video kurang dari 1 jam untuk gerakan rendah dan kurang dari 16 menit untuk apa pun dengan gerakan tinggi.
Seharusnya tidak ada perbedaan saat menganalisis versi video 4k dan versi Full HD. Demikian pula, karena laju pengambilan sampel adalah 1 FPS, video 60 FPS harus tampil sebaik video 30 FPS. Menggunakan resolusi dan FPS yang lebih tinggi dari yang dibutuhkan tidak menguntungkan karena batas 1 GB dalam ukuran video. Melakukannya akan membatasi panjang video yang sesuai dengan batas ukuran itu, jadi, Anda mungkin ingin melakukan pra-proses video lebih dari 1 GB.
Token video
Panjang video adalah faktor utama yang memengaruhi jumlah token yang dihasilkan. Untuk menghitung perkiraan biaya, kalikan perkiraan jumlah token video dengan harga per token untuk model tertentu yang digunakan.
Tabel berikut memberikan beberapa perkiraan pengambilan sampel bingkai dan pemanfaatan token per panjang video untuk Amazon Nova 2 Lite:
| Panjang video | Bingkai untuk sampel | Tingkat sampel fps | Perkiraan token |
|---|---|---|---|
| 10 detik | 10 | 1 | 2,880 |
| 30 detik | 30 | 1 | 8.640 |
| 16 menit | 960 | 1 | 276,480 |
| 20 menit | 1200 | 1 | 345.600 |
| 30 menit | 1800 | 1 | 518.400 |
| 45 menit | 2700 | 1 | 777.600 |
Contoh pemahaman video
Untuk contoh cara menyematkan data video secara langsung dalam permintaan, lihat input Multimodal menggunakan aset tertanam - Converse API (non-streaming) contoh di file. Pustaka kode
Untuk contoh cara menggunakan referensi URI S3 dalam input video, lihat input Multimodal menggunakan contoh S3 URI - Converse API (non-streaming) dalam contoh. Pustaka kode
Keterbatasan utama
Berikut ini adalah batasan model utama, di mana akurasi dan kinerja model mungkin tidak dijamin:
-
Tidak ada dukungan audio: Model Amazon Nova saat ini dilatih untuk memproses dan memahami konten video hanya berdasarkan bingkai visual. Trek audio dalam video tidak diproses atau dianalisis.
-
Pemahaman gambar multibahasa: Model Amazon Nova memiliki pemahaman terbatas tentang gambar multibahasa dan bingkai video. Mereka mungkin berjuang atau berhalusinasi pada tugas-tugas sederhana.
-
Identifikasi orang: Model Amazon Nova tidak mendukung kemampuan untuk mengidentifikasi atau memberi nama individu dalam gambar, dokumen, atau video. Model tidak akan memberikan nama atau identitas orang dalam konten visual.
-
Teks kecil dalam video: Jika teks dalam gambar atau video terlalu kecil, pertimbangkan untuk meningkatkan ukuran relatif teks dalam video.
-
Penalaran spasial: Model Amazon Nova 2 memiliki kemampuan penalaran spasial yang terbatas. Mereka mungkin berjuang dengan tugas-tugas yang membutuhkan pemahaman yang tepat tentang posisi objek, jarak, atau hubungan spasial dalam video.
-
Konten yang tidak pantas: Model Amazon Nova tidak akan memproses gambar yang tidak pantas atau eksplisit yang melanggar Kebijakan Penggunaan yang Dapat Diterima.
-
Aplikasi perawatan kesehatan: Karena sifat sensitif dari artefak ini, meskipun model Amazon Nova dapat memberikan analisis umum pada beberapa gambar atau video perawatan kesehatan, kami tidak merekomendasikan penggunaannya untuk menafsirkan gambar medis sensitif seperti pemindaian diagnostik yang kompleks. Tanggapan model Amazon Nova tidak boleh dianggap sebagai pengganti nasihat medis profesional.
Pemahaman dokumen
Kemampuan pemahaman dokumen Amazon Nova memungkinkan Anda memasukkan seluruh dokumen (PDFs, file Word, spreadsheet, dan sebagainya) sebagai bagian dari prompt Anda. Hal ini memungkinkan model untuk menganalisis, meringkas, mengekstrak informasi dari, atau menjawab pertanyaan tentang konten dokumen.
Amazon Nova 2 Lite dapat menafsirkan teks dan elemen visual (seperti bagan atau tabel) dalam dokumen-dokumen ini. Ini memungkinkan kasus penggunaan seperti menjawab pertanyaan, meringkas, dan analisis laporan panjang atau dokumen yang dipindai.
Fitur pemahaman dokumen utama termasuk jendela konteks yang sangat besar (token 1M) untuk dokumen panjang dan kemampuan untuk menangani beberapa dokumen dalam satu kueri.
Modalitas dan format dokumen yang didukung
Amazon Nova membedakan antara dua jenis input dokumen:
-
Dokumen berbasis teks, seperti file TXT, CSV, HTML, Markdown, atau DOC, diproses terutama untuk konten tekstualnya. Amazon Nova memahami dan mengekstrak informasi dari teks dalam dokumen-dokumen ini.
-
Dokumen berbasis media, seperti file PDF atau DOCX, mungkin berisi tata letak kompleks, gambar, bagan, atau grafik tertanam. Untuk dokumen berbasis media, Amazon Nova menggunakan pemahaman berbasis visi untuk menafsirkan konten visual—seperti bagan, tabel, diagram, atau tangkapan layar—di samping teks dokumen.
Format file yang didukung mencakup jenis dokumen umum seperti:
-
Teks biasa dan file teks terstruktur: CSV, TXT
-
Spreadsheet: XLS, XLSX, HTML, Penurunan Harga
-
Format gambar standar (untuk gambar dalam dokumen): PNG, JPG, GIF, WebP
-
Format dokumen: DOC, DOCX, PDF
-
PDFs yang berisi pengkodean gambar, seperti CMYK atau SVG tidak didukung.
Batas ukuran dokumen dan pedoman penggunaan
Kendala |
Kuota |
|---|---|
Jumlah dokumen maksimum |
Hingga 5 dokumen per permintaan (berlaku untuk upload langsung dan Amazon S3) |
Ukuran dokumen berbasis teks |
Setiap dokumen teks harus sama dengan atau kurang dari 4,5 MB |
Ukuran dokumen berbasis media |
Untuk file PDF dan DOCX, tidak ada batasan ukuran file individual. Saat menggunakan upload langsung, ukuran gabungan semua dokumen media harus kurang atau sama dengan 25 MB. Saat menggunakan Amazon S3, ukuran gabungan semua dokumen media harus kurang atau sama dengan 2 GB. |
Konten PDF yang tidak didukung |
PDFs yang berisi profil warna CMYK atau gambar SVG tidak didukung. |
Harga
Amazon Nova menggunakan harga berbasis token: Anda membayar token input (semua yang Anda kirim, termasuk dokumen terlampir) dan token keluaran (respons model).
Memperkirakan token untuk PDFs: Untuk perencanaan, asumsikan halaman PDF standar 8,5x11 inci ≈ 2.560 token input (perkiraan ini mencakup elemen teks dan visual pada halaman biasa).
Contoh: Menggunakan pemahaman dokumen Nova melalui API dan S3
Untuk contoh cara menggunakannya melalui API, lihat input Multimodal menggunakan aset tertanam - Converse API (non-streaming) contoh di. Pustaka kode
Untuk contoh cara menggunakannya melalui S3, lihat input Multimodal menggunakan contoh S3 URI - Converse API (non-streaming) di. Pustaka kode