Comprensión multimodal
Amazon Nova 2 Lite puede comprender varias modalidades de entrada. Este modelo está equipado con capacidades de visión que le permiten comprender y analizar imágenes, documentos, videos y voz para inferir y responder preguntas en función del contenido proporcionado.
En esta sección, se describen las directrices para trabajar con imágenes, documentos y videos en Amazon Nova, lo que incluye las estrategias de preprocesamiento empleadas, los ejemplos de código y las limitaciones relevantes que se deben tener en cuenta.
Tipo de contenido compatible por modalidad
A continuación, se detallan los formatos de archivo compatibles con cada tipo de archivo multimedia y el método de entrada aceptado.
| Tipo de archivo multimedia | Formatos de archivo compatibles | Método de entrada | Límites de tamaño | Número de objetos |
|---|---|---|---|---|
| Image | PNG, JPEG, GIF, WebP Nota: Si utiliza un archivo WebP o GIF animado, solo se utilizará el primer fotograma. |
Incrustación de datos en la solicitud Si usa la API de Converse, codifique los datos como bytes. Si usa la API de Invoke, codifique los datos como una cadena Base64. |
25 MB | 5 |
| URI de Amazon S3 | 2 GB en total | 1 000 | ||
| Video | MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP | Incrustación de datos en la solicitud Si usa la API de Converse, codifique los datos como bytes. Si usa la API de Invoke, codifique los datos como una cadena Base64. |
25 MB | 1 |
| URI de Amazon S3 | 1 GB | 1 |
Comprensión de imágenes
La comprensión de imágenes se refiere a la capacidad de Amazon Nova para procesar una imagen y llevar a cabo diversas tareas de visión artificial, tales como:
-
Detección de objetos
-
Respuesta a preguntas sobre imágenes mediante la respuesta a preguntas visuales (VQA)
-
Clasificación y resumen de imágenes
-
Detección de cuadro delimitadores
-
Reconocimiento óptico de caracteres (OCR)
-
Recuento de objetos
Las imágenes se pueden incluir como petición que se pasa a la API como matrices de bytes o mediante el URI de S3.
Información técnica clave
A continuación se muestra información técnica clave que se debe tener en cuenta al trabajar con esta capacidad.
Cambio de tamaño y reescalado de imágenes
Amazon Nova cambia automáticamente el tamaño de las imágenes para optimizar la calidad y el rendimiento:
-
Determina la relación de aspecto más cercana (por ejemplo, 1:1, 1:2, 2:3, etc.).
-
Cambia la escala para que un lado sea ≥ 896 px o coincida con el lado más corto de la imagen original, el que sea más grande.
-
Mantiene la relación de aspecto.
-
Admite una resolución de hasta 8000 × 8000 px.
Coordenadas del cuadro delimitador:
-
Es útil para tareas como la identificación de elementos en capturas de pantalla o la localización de imágenes.
-
Se puede cambiar la escala de las coordenadas para que coincidan con las dimensiones originales de la imagen durante el posprocesamiento.
-
Devuelve los cuadros delimitadores en una escala de [0, 1000].
Estimación por token de imagen
Amazon Nova convierte cada imagen en tokens para su procesamiento. El número de tokens depende de la resolución y la relación de aspecto de la imagen.
A continuación se muestran ejemplos de recuentos aproximados de token en función de la resolución de la imagen:
| Resolución de la imagen | Tokens estimados |
|---|---|
| 900 x 450 | 515 |
| 900 x 900 | ~1035 |
| 1400 x 900 | ~1600 |
| 1800 x 900 | ~2060 |
| 1300 x 1300 | ~2155 |
Ejemplos de comprensión de imágenes
Para ver un ejemplo de cómo incrustar datos de imagen directamente en la solicitud, consulte el ejemplo de entrada multimodal mediante un activo integrado: API de Converse (sin transmisión) en Biblioteca de códigos.
Para cargar archivos de imagen de gran tamaño o varios archivos de imagen, en los que la carga útil total sea superior a 25 MB, utilice Amazon S3. Para ver un ejemplo completo de cómo utilizar las referencias de URI de Amazon S3 para la entrada de imágenes, consulte el ejemplo de entrada multimodal con URI de S3: API de Converse (sin transmisión) en Biblioteca de códigos.
nota
Cuando utilice S3, asegúrese de que el servicio de Amazon Bedrock tenga permiso para acceder al bucket y al objeto.
Limitaciones clave
En la siguiente lista, se describen las limitaciones actuales de los modelos de comprensión de imágenes:
-
Comprensión de imágenes multilingües: los modelos tienen una comprensión limitada de las imágenes y los fotogramas de video multilingües y pueden tener dificultades o alucinar en tareas sencillas.
-
Identificación de personas: los modelos de Amazon Nova 2 no admiten la capacidad de identificar o nombrar a personas en imágenes, documentos o videos.
-
Razonamiento espacial: los modelos de Amazon Nova 2 tienen capacidades de razonamiento espacial limitadas. Es posible que tengan dificultades con las tareas que requieren una localización precisa o un análisis de disposición.
-
Texto pequeño en imágenes y videos: si el texto de la imagen o el video es demasiado pequeño, considere la posibilidad de recortar la imagen hasta la sección pertinente y conservar el contexto necesario para aumentar el tamaño relativo del texto en la imagen.
Comprensión de videos
La comprensión de video se refiere a la capacidad de Amazon Nova para procesar entradas de video y llevar a cabo diversas tareas de comprensión de video, tales como:
-
Análisis de fotogramas clave y resumen del contenido de videos
-
Respuesta a preguntas sobre segmentos de video (respuesta a preguntas de videos o control de calidad de videos)
-
Detección y seguimiento de objetos a través de fotogramas
-
Identificación de acciones, escenas y eventos
-
Segmentación temporal para localizar momentos específicos
-
Generación de subtítulos descriptivos o resúmenes de secuencias de video
Información técnica clave
A continuación se muestra información técnica clave que se debe tener en cuenta al trabajar con esta capacidad.
Información sobre el tamaño del video
Las capacidades de comprensión de videos de Amazon Nova admiten múltiples relaciones de aspecto. Todos los videos se redimensionan con distorsión (hacia arriba o hacia abajo, según la relación de aspecto original) hasta alcanzar dimensiones cuadradas de 672 x 672 antes de su entrada en el modelo.
El modelo utiliza una estrategia de muestreo dinámico en función de la duración del video. Para videos de 16 minutos o menos, Amazon Nova 2 Lite muestreará 1 fotograma por segundo (FPS). Para los videos de más de 16 minutos, la frecuencia de muestreo disminuye para mantener un muestreo constante de 960 fotogramas, con una variación de la frecuencia de muestreo de fotogramas en consecuencia. Este enfoque está diseñado para proporcionar una comprensión más precisa del video a nivel de escena en los videos más cortos en comparación con los de mayor duración.
Le recomendamos que mantenga la duración del video en menos de 1 hora en cámara lenta y en menos de 16 minutos para cualquier contenido con mayor movimiento.
No debería haber ninguna diferencia al analizar una versión 4K de un video y una versión Full HD. Del mismo modo, dado que la frecuencia de muestreo es de 1 FPS, un video de 60 FPS debería funcionar tan bien como un video de 30 FPS. Utilizar una resolución y un FPS superiores a los necesarios no es beneficioso debido al límite de 1 GB en el tamaño del video. Al hacerlo, se limitará la duración del video que se ajusta a ese límite de tamaño, por lo que es posible que desee preprocesar videos de 1 GB.
Tokens de video
La duración del video es el factor principal que afecta al número de tokens generados. Para calcular el costo aproximado, multiplique el número estimado de tokens de video por el precio por token del modelo específico que utilice.
En la siguiente tabla, se proporcionan algunas aproximaciones del muestreo de fotogramas y el uso de tokens según la duración del video para Amazon Nova 2 Lite:
| Duración del video | Fotogramas para muestrear | FPS de la velocidad de muestreo | Tokens aproximados |
|---|---|---|---|
| 10 segundos | 10 | 1 | 2880 |
| 30 segundos | 30 | 1 | 8640 |
| 16 minutos | 960 | 1 | 276 480 |
| 20 minutos | 1200 | 1 | 345 600 |
| 30 minutos | 1800 | 1 | 518 400 |
| 45 minutos | 2700 | 1 | 777 600 |
Ejemplos de comprensión de videos
Para ver un ejemplo de cómo incrustar datos de video directamente en la solicitud, consulte el ejemplo de entrada multimodal mediante un activo integrado: API de Converse (sin transmisión) en Biblioteca de códigos.
Para obtener un ejemplo de cómo utilizar las referencias de URI de S3 en una entrada de video, consulte el ejemplo de entrada multimodal con URI de S3: API de Converse (sin transmisión) en Biblioteca de códigos.
Limitaciones clave
A continuación se muestran las principales limitaciones del modelo, en las que es posible que no se garanticen su precisión y rendimiento.
-
Sin soporte de audio: actualmente, los modelos de Amazon Nova están entrenados para procesar y comprender el contenido de video solo en función de los fotogramas visuales. Las pistas de audio de los videos no se procesan ni analizan.
-
Comprensión de imágenes multilingües: los modelos de Amazon Nova tienen una comprensión limitada de imágenes y fotogramas de video multilingües. Podrían tener dificultades o alucinar en tareas sencillas.
-
Identificación de personas: los modelos de Amazon Nova no admiten la capacidad de identificar o nombrar a personas en imágenes, documentos o videos. Los modelos no proporcionarán nombres ni identidades de personas en el contenido visual.
-
Texto pequeño en videos: si el texto de la imagen o el video es demasiado pequeño, considere la posibilidad de aumentar el tamaño relativo del texto en el video.
-
Razonamiento espacial: los modelos de Amazon Nova 2 tienen capacidades de razonamiento espacial limitadas. Es posible que tengan dificultades con las tareas que requieren una comprensión precisa de las posiciones, las distancias o las relaciones espaciales de los objetos en los videos.
-
Contenido inapropiado: los modelos de Amazon Nova no procesarán imágenes inapropiadas o explícitas que infrinjan la Política de uso aceptable.
-
Aplicaciones en la atención de salud: debido a la naturaleza sensible de estos elementos, aunque los modelos de Amazon Nova pueden ofrecer análisis generales de algunas imágenes o videos relacionados con la atención sanitaria, no recomendamos su uso para interpretar imágenes médicas sensibles, como imágenes de diagnóstico complejas. La respuesta de los modelos de Amazon Nova nunca debe considerarse un sustituto del asesoramiento médico profesional.
Comprensión de documentos
La capacidad de comprensión de documentos de Amazon Nova le permite incluir documentos completos (PDF, archivos de Word, hojas de cálculo, etc.) como parte de la petición. Esto permite al modelo analizar, resumir, extraer información o responder a preguntas sobre el contenido del documento.
Amazon Nova 2 Lite puede interpretar tanto el texto como los elementos visuales (como gráficos o tablas) de estos documentos. Esto permite casos de uso como contestar preguntas, resumir y analizar informes largos o documentos escaneados.
Las características de compresión de documentos clave incluyen una cantidad de contexto muy grande (1 millón de tokens) para documentos largos y la capacidad de gestionar varios documentos en una sola consulta.
Modalidades y formatos de documentos admitidos
Amazon Nova distingue entre dos tipos de entradas de documentos:
-
Documentos basados en texto, como los archivos TXT, CSV, Markdown, HTML o DOC, que se procesan principalmente por su contenido textual. Amazon Nova comprende y extrae información del texto de estos documentos.
-
Documentos basados en contenido multimedia, como archivos PDF o DOCX, que pueden contener diseños, imágenes, gráficos o contenido gráfico incrustado complejos. Para los documentos basados en contenido multimedia, Amazon Nova emplea un análisis basado en la visión para interpretar el contenido visual, como gráficos, tablas, diagramas o capturas de pantalla, junto con el texto del documento.
Los formatos de archivo admitidos incluyen tipos de documentos comunes, como:
-
Archivos de texto sin formato y de texto estructurado: CSV, TXT
-
Hojas de cálculo: XLS, XLSX, HTML, Markdown
-
Formatos de imagen estándar (para imágenes dentro de documentos): PNG, JPG, GIF, WebP
-
Formatos de documento: DOC, DOCX, PDF
-
No se admiten los archivos PDF que contienen codificaciones de imagen, como CMYK o SVG.
Límites de tamaño de los documentos y directrices de uso
Restricción |
Límite |
|---|---|
Número máximo de documentos |
Hasta 5 documentos por solicitud (se aplica tanto a la carga directa como a Amazon S3) |
Tamaño del documento basado en texto |
Cada documento de texto debe tener un tamaño de 4,5 MB o menos |
Tamaño del documento basado en contenido multimedia |
En el caso de los archivos PDF y DOCX, no existe un límite de tamaño de archivo individual. Al utilizar la carga directa, el tamaño combinado de todos los documentos multimedia debe ser igual o inferior a 25 MB Al utilizar Amazon S3, el tamaño combinado de todos los documentos multimedia debe ser igual o inferior a 2 GB. |
Contenido en PDF no compatible |
No se admiten archivos PDF que contengan perfiles de color CMYK o imágenes SVG. |
Precios
Amazon Nova utiliza precios basados en tokens: pagará por los tokens de entrada (todo lo que envía, incluidos los documentos adjuntos) y de salida (la respuesta del modelo).
Estimación de tokens para archivos PDF: a modo de planificación, supongamos que una página PDF estándar de 8,5 x 11 pulgadas equivale a 2560 tokens de entrada (esta estimación abarca tanto el texto como los elementos visuales de una página normal).
Ejemplo: uso de la comprensión de documentos de Nova a través de la API y S3
Para ver un ejemplo de cómo usarlo a través de una API, consulte el ejemplo de entrada multimodal con un activo integrado: API de Converse (sin transmisión) en Biblioteca de códigos.
Para ver un ejemplo de cómo usarla a través de S3, consulte el ejemplo de entrada multimodal con URI de S3: API de Converse (sin transmisión) en Biblioteca de códigos.