Limitaciones de la comprensión de video

Las siguientes son las principales limitaciones del modelo, en las que es posible que no se garanticen su precisión y rendimiento.

Un video por solicitud: Actualmente, el modelo solo admite 1 video por solicitud. Algunos marcos y bibliotecas utilizan la memoria para realizar un seguimiento de las interacciones anteriores. Es posible que haya un video que se haya añadido en un contexto anterior.
Sin soporte de audio: Actualmente, los modelos están entrenados para procesar y comprender el contenido de video basándose únicamente en la información visual. No tienen la capacidad de analizar ni comprender ningún componente de audio del video.
Causalidad temporal: El modelo tiene una comprensión limitada de la causalidad de los eventos a lo largo de la progresión del video. Aunque responde bien a las preguntas sobre un punto en el tiempo, no funciona tan bien en las respuestas que dependen de la comprensión de una secuencia de eventos.
Comprensión de imágenes multilingües: Los modelos tienen una comprensión limitada de imágenes y fotogramas de video multilingües. Podrían tener dificultades o alucinar al realizar tareas similares.
Identificación de personas: Los modelos de Amazon Nova no admiten la capacidad de identificar o nombrar a personas en imágenes, documentos o videos. Los modelos se negarán a realizar dichas tareas.
Razonamiento espacial: Los modelos de Amazon Nova tienen capacidades de razonamiento espacial limitadas. Es posible que tengan dificultades con las tareas que requieren una localización precisa o un análisis de disposición.
Texto pequeño en imágenes o videos: Si el texto de la imagen o el video es demasiado pequeño, considere la posibilidad de aumentar el tamaño relativo del texto en la imagen recortándola hasta la sección relevante y conservando el contexto necesario.
Recuento: Los modelos de Amazon Nova pueden proporcionar recuentos aproximados de objetos en una imagen, pero pueden no ser siempre precisos, especialmente cuando se trata de un gran número de objetos pequeños.
Contenido inapropiado: Los modelos de Amazon Nova no procesarán imágenes inapropiadas o explícitas que infrinjan la Política de uso aceptable.
Aplicaciones en la atención de salud: Debido a la naturaleza sensible de estos elementos, aunque los modelos de Amazon Nova pueden ofrecer análisis generales de imágenes o videos relacionados con la atención sanitaria, no recomendamos que interprete imágenes de diagnóstico complejas. La respuesta de Amazon Nova nunca debe considerarse un sustituto del asesoramiento médico profesional.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Comprensión de videos

Ejemplos de comprensión de videos