Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Vidéos
BDA propose un ensemble de sorties standard pour traiter et générer des informations pour les vidéos. Voici un aperçu détaillé de chaque type d'opération :
Résumé complet de la vidéo
Le résumé complet de la vidéo génère un résumé global de l'ensemble de la vidéo. Il résume les principaux thèmes, événements et informations présentés tout au long de la vidéo dans un résumé concis. Le résumé vidéo complet est optimisé pour les contenus comportant un dialogue descriptif, tels que les présentations de produits, les formations, les émissions de nouvelles, les talk-shows et les documentaires. BDA essaiera de donner un nom à chaque haut-parleur unique en fonction des signaux audio (par exemple, le locuteur se présente) ou des signaux visuels (par exemple, une diapositive de présentation montre le nom d'un orateur) dans les résumés vidéo complets et les résumés des scènes. Lorsque le nom d'un locuteur unique n'est pas résolu, il sera représenté par un numéro unique (par exemple, speaker_0).
Résumés des chapitres
Le résumé des chapitres vidéo fournit des résumés descriptifs des scènes individuelles d'une vidéo. Un chapitre vidéo est une séquence de plans qui forme une unité cohérente d'action ou de narration au sein de la vidéo. Cette fonctionnalité décompose la vidéo en segments significatifs en fonction de repères visuels et audibles, fournit des horodatages pour ces segments et les résume.
Taxonomie IAB
La classification de l'Interactive Advertising Bureau (IAB) applique une taxonomie publicitaire standard pour classer les scènes vidéo en fonction d'éléments visuels et audio. Pour la version préliminaire, BDA prendra en charge 24 catégories de premier niveau (L1) et 85 catégories de deuxième niveau (L2). Pour télécharger la liste des catégories IAB prises en charge par BDA, cliquez ici.
Transcription audio complète
La fonction de transcription audio complète fournit une représentation textuelle complète de tous les discours contenus dans le fichier audio. Il utilise une technologie avancée de reconnaissance vocale pour transcrire avec précision le dialogue, la narration et d'autres éléments audio. La transcription inclut l'identification du locuteur, ce qui facilite la navigation et la recherche dans le contenu audio en fonction du locuteur.
Texte en vidéo
Cette fonction détecte et extrait le texte qui apparaît visuellement dans la vidéo. Il peut identifier à la fois le texte statique (comme les titres ou les légendes) et le texte dynamique (comme le texte en mouvement dans les graphiques). Semblable à la détection de texte d'image, elle fournit des informations de cadre pour chaque élément de texte détecté, ce qui permet une localisation précise dans les images vidéo.
Détection de logo
Cette fonctionnalité identifie les logos dans une vidéo et fournit des informations de cadre, indiquant les coordonnées de chaque logo détecté dans l'image vidéo, ainsi que les scores de confiance. Cette fonctionnalité n'est pas activée par défaut.
Modération du contenu
La modération du contenu détecte le contenu inapproprié, indésirable ou offensant d'une vidéo. La BDA propose 7 catégories de modération : nudité explicite et non explicite dans les parties intimes et baisers, maillots de bain ou sous-vêtements, violence, drogues et tabac, alcool, symboles haineux. Le texte explicite des vidéos n'est pas signalé.
Les cadres de délimitation et les scores de confiance associés peuvent être activés ou désactivés pour des fonctionnalités pertinentes telles que la détection de texte, afin de fournir des coordonnées de localisation et des horodatages dans le fichier vidéo. Par défaut, le résumé vidéo complet, le résumé des scènes et la détection du texte vidéo sont activés.
Note
Une seule piste audio par vidéo est prise en charge. Les formats de fichiers de sous-titres (par exemple, SRT, VTT, etc.) ne sont pas pris en charge.
Sortie vidéo standard
Voici un exemple de sortie standard pour une vidéo traitée via BDA :
{ "metadata": { "asset_id": "0", "semantic_modality": "VIDEO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Video/MakingTheCut.mp4", "format": "QuickTime / MOV", "frame_rate": 30, "codec": "h264", "duration_millis": 378233, "frame_width": 852, "frame_height": 480 },
Cette section initiale traite des informations relatives aux métadonnées relatives à la vidéo. Cela inclut l'emplacement du compartiment, le format, la fréquence d'images et d'autres informations clés.
"shots": [ ... { "shot_index": 3, "start_timecode_smpte": "00:00:08:19", "end_timecode_smpte": "00:00:09:25", "start_timestamp_millis": 8633, "end_timestamp_millis": 9833, "start_frame_index": 259, "end_frame_index": 295, "duration_smpte": "00:00:01:06", "duration_millis": 1200, "duration_frames": 36, "confidence": 0.9956437242589935, "chapter_indices": [ 1 ] },
Il s'agit d'un exemple d'élément de plan dans une réponse. Les plans représentent de petites parties d'une vidéo, généralement associées à un montage ou à un découpage de la vidéo. Les plans contiennent des éléments de début et de fin, ainsi qu'un élément chapter_indicies. Cet élément indique de quelle section plus grande de la vidéo, appelée chapitre, le plan fait partie.
"chapters": [ { "start_timecode_smpte": "00:00:00:00", "end_timecode_smpte": "00:00:08:18", "start_timestamp_millis": 0, "end_timestamp_millis": 8600, "start_frame_index": 0, "end_frame_index": 258, "duration_millis": 8600, "shot_indices": [ 0, 1, 2 ], "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",
Les chapitres sont des parties plus grandes d'une vidéo. Contiennent ensuite des informations de début et de fin, telles que des plans, et un élément shot_indicies. shot_indicies vous indique quels plans se trouvent dans un chapitre. Enfin, l'élément de résumé fournit un résumé généré du contenu du chapitre.
"frames": [... { "timecode_smpte": "00:00:03:15", "timestamp_millis": 3500, "frame_index": 105, "content_moderation": [], "text_words": [ { "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc", "type": "TEXT_WORD", "confidence": 0.99844897, "text": "ANDREA", "locations": [ { "bounding_box": { "left": 0.1056338, "top": 0.7363281, "width": 0.19806337, "height": 0.068359375 }, "polygon": [ { "x": 0.1056338, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.8046875 }, { "x": 0.1056338, "y": 0.8046875 } ] } ], "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2" },
La plus petite granularité d'une vidéo est une image représentant une seule image au sein d'une vidéo. Les cadres comportent notamment deux éléments de réponse, content_moderation et text_words. Le premier, content_moderation, vous fournit des informations basées sur les catégories de modération du contenu concernant le contenu du cadre, le cas échéant. Le second, text_words, vous fournit un emplacement et des informations sur tout texte apparaissant dans une vidéo, tel que le sous-titrage codé.
"statistics": { "shot_count": 148, "chapter_count": 11, "speaker_count": 11 } }
Enfin, les statistiques fournissent une ventilation des informations relatives à la détection, telles que le nombre de plans, de haut-parleurs et de chapitres contenus dans une vidéo donnée.