Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Videos
BDA ofrece un conjunto de salidas estándar para procesar y generar información para los vídeos. A continuación, se ofrece un análisis detallado de cada tipo de operación:
Resumen completo del vídeo
El resumen completo del vídeo genera un resumen general de todo el vídeo. Representa los temas, eventos e información clave presentados a lo largo del vídeo en un resumen conciso. El resumen completo en vídeo está optimizado para el contenido con diálogos descriptivos, como descripciones generales de los productos, cursos de formación, noticieros, programas de entrevistas y documentales. En los resúmenes completos de vídeo y en los resúmenes de las escenas, BDA intentará dar un nombre único a cada orador basándose en las señales de audio (por ejemplo, el orador se presenta) o en las señales visuales (por ejemplo, una diapositiva de presentación muestra el nombre del orador). Cuando el nombre de un orador único no esté resuelto, se representará con un número único (por ejemplo, speaker_0).
Resúmenes de capítulos
El resumen de los capítulos de vídeo proporciona resúmenes descriptivos de las escenas individuales de un vídeo. Un capítulo de vídeo es una secuencia de tomas que forman una unidad coherente de acción o narrativa dentro del vídeo. Esta función divide el vídeo en segmentos significativos en función de señales visuales y audibles, proporciona marcas de tiempo para esos segmentos y resume cada uno de ellos.
Taxonomía del IAB
La clasificación de la Interactive Advertising Bureau (IAB) aplica una taxonomía publicitaria estándar para clasificar las escenas de vídeo en función de los elementos visuales y sonoros. En el caso de la versión preliminar, BDA admitirá 24 categorías de nivel superior (L1) y 85 categorías de segundo nivel (L2). Para descargar la lista de categorías de IAB compatibles con la BDA, haga clic aquí.
Transcripción completa del audio
La función de transcripción de audio completa proporciona una representación textual completa de todo el discurso del archivo de audio. Utiliza tecnología avanzada de reconocimiento de voz para transcribir con precisión el diálogo, la narración y otros elementos de audio. La transcripción incluye la identificación del hablante, lo que facilita la navegación y la búsqueda en el contenido de audio en función del hablante.
Texto en vídeo
Esta función detecta y extrae el texto que aparece visualmente en el vídeo. Puede identificar tanto el texto estático (como los títulos o los subtítulos) como el texto dinámico (como el texto en movimiento de los gráficos). Al igual que la detección de texto en imágenes, proporciona información sobre los cuadros delimitadores para cada elemento de texto detectado, lo que permite una localización precisa dentro de los fotogramas de vídeo.
Detección de logotipos
Esta función identifica los logotipos de un vídeo y proporciona información sobre el recuadro delimitador, que indica las coordenadas de cada logotipo detectado en el fotograma del vídeo y las puntuaciones de confianza. Esta función no está habilitada de forma predeterminada.
Moderación de contenido
La moderación de contenido detecta contenido inapropiado, no deseado u ofensivo en un vídeo. BDA admite 7 categorías de moderación: desnudez explícita y no explícita en partes íntimas y besos, trajes de baño o ropa interior, violencia, drogas y tabaco, alcohol y símbolos de odio. El texto explícito de los vídeos no está marcado.
Los cuadros delimitadores y las puntuaciones de confianza asociadas se pueden activar o desactivar para funciones relevantes, como la detección de texto, a fin de proporcionar coordenadas de ubicación y marcas de tiempo en el archivo de vídeo. De forma predeterminada, el resumen de vídeo completo, el resumen de escenas y la detección de texto de vídeo están habilitadas.
nota
Solo se admite una pista de audio por vídeo. No se admiten los formatos de archivo de subtítulos (p. ej., SRT, VTT, etc.).
Salida estándar de vídeo
El siguiente es un ejemplo de una salida estándar para un vídeo procesado mediante BDA:
{ "metadata": { "asset_id": "0", "semantic_modality": "VIDEO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Video/MakingTheCut.mp4", "format": "QuickTime / MOV", "frame_rate": 30, "codec": "h264", "duration_millis": 378233, "frame_width": 852, "frame_height": 480 },
En esta sección inicial se analiza la información de metadatos relativa al vídeo. Esto incluye la ubicación del depósito, el formato, la velocidad de fotogramas y otros datos clave.
"shots": [ ... { "shot_index": 3, "start_timecode_smpte": "00:00:08:19", "end_timecode_smpte": "00:00:09:25", "start_timestamp_millis": 8633, "end_timestamp_millis": 9833, "start_frame_index": 259, "end_frame_index": 295, "duration_smpte": "00:00:01:06", "duration_millis": 1200, "duration_frames": 36, "confidence": 0.9956437242589935, "chapter_indices": [ 1 ] },
Este es un ejemplo de un elemento de disparo en una respuesta. Las tomas representan pequeñas partes de un vídeo y, por lo general, se asocian a una edición o un corte del vídeo. Las tomas contienen elementos iniciales y finales, así como un elemento chapter_indicies. Este elemento indica de qué sección más grande del vídeo, denominada capítulo, forma parte la toma.
"chapters": [ { "start_timecode_smpte": "00:00:00:00", "end_timecode_smpte": "00:00:08:18", "start_timestamp_millis": 0, "end_timestamp_millis": 8600, "start_frame_index": 0, "end_frame_index": 258, "duration_millis": 8600, "shot_indices": [ 0, 1, 2 ], "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",
Los capítulos son partes más grandes de un vídeo. A continuación, contienen información de inicio y final, como las tomas, y un elemento shot_indicies. Las shot_indicies indican qué tomas están dentro de un capítulo. Por último, el elemento de resumen proporciona un resumen generado del contenido del capítulo.
"frames": [... { "timecode_smpte": "00:00:03:15", "timestamp_millis": 3500, "frame_index": 105, "content_moderation": [], "text_words": [ { "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc", "type": "TEXT_WORD", "confidence": 0.99844897, "text": "ANDREA", "locations": [ { "bounding_box": { "left": 0.1056338, "top": 0.7363281, "width": 0.19806337, "height": 0.068359375 }, "polygon": [ { "x": 0.1056338, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.8046875 }, { "x": 0.1056338, "y": 0.8046875 } ] } ], "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2" },
La granularidad más pequeña de un vídeo es un fotograma, que representa una sola imagen dentro de un vídeo. Los fotogramas tienen dos elementos de respuesta principales: content_moderation y text_words. El primero, content_moderation, proporciona información basada en las categorías de moderación de contenido sobre el contenido del marco, en caso de que se detecte alguna. La segunda, text_words, proporciona una ubicación e información sobre cualquier texto que aparezca en un vídeo, como los subtítulos opcionales.
"statistics": { "shot_count": 148, "chapter_count": 11, "speaker_count": 11 } }
Por último, las estadísticas proporcionan un desglose de la información sobre la detección, como el número de tomas, altavoces y capítulos que hay en un vídeo determinado.