Detección de segmentos de vídeo en vídeo almacenado - Amazon Rekognition

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Detección de segmentos de vídeo en vídeo almacenado

Amazon Rekognition Video proporciona una API que identifica segmentos de vídeo útiles, como fotogramas negros y créditos finales.

Los espectadores están viendo más contenidos que nunca. En concreto, las plataformas de transmisión libre (OTT) y vídeo bajo demanda (VOD) ofrecen una amplia selección de opciones de contenido en cualquier momento, lugar y pantalla. Con la proliferación de volúmenes de contenido, las empresas de medios se enfrentan a desafíos en la preparación y administración de su contenido. Esto es fundamental para proporcionar una experiencia de visualización de alta calidad y una mejor monetización del contenido. Hoy en día, las empresas utilizan grandes equipos de mano de obra humana capacitada para realizar tareas como las siguientes.

  • Buscar dónde comienzan los créditos iniciales y finales en un fragmento de contenido

  • Elegir los lugares correctos para insertar anuncios, por ejemplo, en secuencias silenciosas de cuadros negros

  • Descomponer los vídeos en clips más pequeños para mejorar la indexación

Estos procesos manuales son costosos, lentos y no se pueden escalar para mantenerse al día con el volumen de contenido producido, con licencia y recuperado diariamente de los archivos.

Puede utilizar Amazon Rekognition Video para automatizar las tareas operativas de análisis multimedia mediante API de detección de segmentos de vídeo totalmente administradas y diseñadas específicamente con tecnología de machine learning (ML). Mediante el uso de las API de segmento de Amazon Rekognition Video, puede analizar fácilmente grandes volúmenes de vídeos y detectar marcadores como fotogramas negros o cambios de tomas. Obtendrá códigos de tiempo, marcas temporales y números de fotogramas de SMPTE (Society of Motion Picture and Television Engineers) para cada detección. No se requiere experiencia en machine learning.

Amazon Rekognition Video analiza vídeos almacenados en un bucket de Amazon Simple Storage Service (Amazon S3). Los códigos de tiempo de SMPTE que se devuelven son precisos a nivel de fotograma: Amazon Rekognition Video proporciona el número exacto de fotogramas de un segmento de vídeo detectado y gestiona varios formatos de velocidad de fotogramas de vídeo de forma automática. Puede utilizar los metadatos con precisión hasta el fotograma de Amazon Rekognition Video, para automatizar ciertas tareas por completo o reducir significativamente la carga de trabajo de revisión de operadores humanos capacitados, de modo que puedan centrarse en un trabajo más creativo. Puede realizar tareas como preparar contenido, insertar anuncios y agregar "marcadores" al contenido a gran escala en la nube.

Para obtener información sobre los precios, consulte Precios de Amazon Rekognition.

La detección de segmentos de Amazon Rekognition Video admite dos tipos de tareas de segmentación: detección de Tomas técnicas y Detección de tomas.

Tomas técnicas

Una indicación técnica identifica los fotogramas negros, las barras de color, los créditos iniciales, los créditos finales, los logotipos de los estudios y el contenido principal del programa en un vídeo.

Fotogramas negros

Los vídeos suelen contener fotogramas negros, vacíos y sin audio que se utilizan como indicaciones para insertar anuncios o a fin de delimitar el final de un segmento de programa, como una escena o los créditos de apertura. Con Amazon Rekognition Video, se pueden detectar tales secuencias de fotogramas negros para automatizar la inserción de anuncios, empaquetar el contenido para vídeo bajo demanda y delimitar varios segmentos o escenas de programas. Los fotogramas negros con audio (como los fundidos o las voces en off) se consideran como contenido y no se devuelven.

Créditos

Amazon Rekognition Video puede ayudarle a identificar de forma automática los fotogramas exactos en los que comienzan y terminan los créditos iniciales y finales de una película o un programa de televisión. Con esta información, puede generar «marcadores de maratones» o mensajes interactivos para el espectador, como «Próximo episodio» u «Omitir introducción», en aplicaciones de vídeo en diferido (VOD). También puede detectar el primer y el último fotograma del contenido del programa en un vídeo. Amazon Rekognition Video está capacitado para gestionar una amplia variedad de estilos de créditos iniciales y finales, que van desde simples créditos continuos hasta créditos más desafiantes junto con el contenido.

Barras de color

Amazon Rekognition Video permite detectar secciones de vídeo que muestran barras de color según la SMPTE, que son un conjunto de colores mostrados en patrones específicos para garantizar que el color está calibrado correctamente en los monitores de transmisión, programas y en las cámaras. Para obtener más información acerca de las barras de color SMPTE, consulte Barra de color SMPTE. Estos metadatos sirven para preparar el contenido para las aplicaciones de vídeo bajo demanda mediante la eliminación de segmentos de barras de color del contenido o para detectar problemas como la pérdida de señales de emisión en una grabación, cuando las barras de color se muestran continuamente como una señal predeterminada en lugar de contenido.

Caretas

Las caretas son secciones del vídeo, normalmente cerca del principio, que contienen metadatos de texto sobre el episodio, el estudio, el formato de vídeo, los canales de audio y mucho más. Amazon Rekognition Video puede identificar el inicio y el final de las caretas, lo que facilita el uso de los metadatos de texto o la eliminación de la careta al preparar el contenido para su visualización final.

Logotipos de estudio

Los logotipos de estudio son secuencias que muestran los logotipos o emblemas del estudio de producción que participó en la realización del espectáculo. Amazon Rekognition Video puede detectar estas secuencias para que los usuarios puedan revisarlas e identificar los estudios.

Contenidos

El contenido son las partes del programa de televisión o película que contienen el programa o elementos relacionados. Los fotogramas negros, los créditos, las barras de colores, las caretas y los logotipos de los estudios no se consideran contenido. Amazon Rekognition Video puede detectar el inicio y el final de cada segmento de contenido del vídeo, por lo que puede encontrar el tiempo de ejecución del programa o segmentos específicos.

El contenido incluye, entre otros, lo siguiente:

  • Escenas del programa entre dos pausas publicitarias

  • Un resumen rápido del episodio anterior al principio del vídeo

  • Contenido adicional posterior a los créditos

  • Contenido «sin texto», como un conjunto de todas las escenas del programa que originalmente contenían texto superpuesto, pero en el que se ha eliminado el texto para poder traducirlo a otros idiomas.

Una vez que Amazon Rekognition Video termine de detectar todos los segmentos de contenido, puede aplicar los conocimientos del dominio o enviarlos para que los revisen un humano a fin de categorizar cada segmento con más detalle. Por ejemplo, si utiliza vídeos que siempre comienzan con un resumen, puede clasificar el primer segmento de contenido como un resumen.

En el siguiente diagrama se muestran los segmentos técnicos de referencia en la escala de tiempo de una serie o película. Tenga en cuenta las barras de colores y los créditos iniciales, los segmentos de contenido, como el resumen y el programa principal, los fotogramas negros que aparecen en todo el vídeo y los créditos finales.

Barras de colores, segmento de resumen, dos segmentos de contenido del programa y marcos negros que representan la cronología de un programa o película.

Detección de tomas

Una toma es una serie de imágenes consecutivas interrelacionadas que se capturan contiguamente por una sola cámara y que representan una acción continua en el tiempo y el espacio. Con Amazon Rekognition Video, se puede detectar el inicio, el final y la duración de cada toma, así como contabilizar todas las tomas de un contenido. Puede utilizar metadatos de toma para tareas como las siguientes.

  • Creación de vídeos promocionales utilizando tomas seleccionadas.

  • Inserción de anuncios en lugares que no interrumpan la experiencia del espectador, como en medio de una toma cuando alguien habla.

  • Generar un conjunto de miniaturas de vista previa que impidan el contenido de transición entre tomas.

Una detección de toma se marca en el fotograma exacto donde hay un cambio brusco a otra cámara. Si hay una transición suave de una cámara a otra, Amazon Rekognition Video omite la transición. Esto garantiza que los tiempos de inicio y finalización de toma no incluyan secciones sin contenido real.

En el siguiente diagrama se ilustran los segmentos de detección de tomas en una tira de película. Tenga en cuenta que cada toma se identifica mediante un corte desde un ángulo o ubicación de cámara al siguiente.

Siete fotografías numeradas que muestran las calles de la ciudad, el salpicadero de un automóvil, un sendero en el bosque, un niño, una cría, un lago al atardecer con la silueta de un fotógrafo.

Acerca de la API de detección de segmentos de Amazon Rekognition Video

Para segmentar un vídeo almacenado, se utilizan las operaciones asíncronas StartSegmentDetectiony de GetSegmentDetectionAPI para iniciar un trabajo de segmentación y obtener los resultados. La detección de segmentos acepta vídeos almacenados en un bucket de Amazon S3 y devuelve una salida JSON. Puede elegir detectar solo indicaciones técnicas, solo cambios de toma o ambas opciones si configura la solicitud de la API StartSegmentdetection. También puede filtrar los segmentos detectados si establece umbrales para una confianza de predicción mínima. Para obtener más información, consulte Uso de la API de segmentos de Amazon Rekognition . Para ver el código de ejemplo, consulte Ejemplo: Detección de segmentos en un vídeo almacenado.