Détection de segments vidéo dans une vidéo stockée - Amazon Rekognition

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Détection de segments vidéo dans une vidéo stockée

Vidéo Amazon Rekognition fournit une API qui identifie les segments utiles de la vidéo, tels que les images noires et le générique de fin.

Les utilisateurs n’ont jamais regardé autant de contenus. En particulier, les plateformes Over-The-Top (OTT) et de vidéo à la demande (VOD) offrent une sélection étendue de contenus disponibles à tout moment, n’importe où et sur n’importe quel écran. Avec la prolifération des volumes de contenus, les entreprises de multimédia sont confrontées à des défis dans la préparation et la gestion de leurs contenus. Ceci est crucial pour offrir une expérience de visualisation de haute qualité et une meilleure monétisation du contenu. Aujourd’hui, les entreprises font appel à de grandes équipes de main-d’œuvre qualifiée, par exemple pour accomplir les tâches suivantes.

  • Trouver où sont les génériques de début et de fin dans un élément de contenu

  • Choisir les bons endroits pour insérer des publicités, par exemple dans des séquences d’images noires silencieuses

  • Décomposer les vidéos en petits clips pour une meilleure indexation

Ces processus manuels sont coûteux, lents et incapables de s’adapter au volume de contenus produits, accrédités et récupérés quotidiennement dans les archives.

Vous pouvez utiliser Vidéo Amazon Rekognition pour automatiser les tâches opérationnelles d’analyse multimédia à l’aide d’API de détection de segments vidéo entièrement gérées et spécialement conçues, basées sur le machine learning (ML). En utilisant les API de segmentation Vidéo Amazon Rekognition, vous pouvez facilement analyser de grands volumes de vidéos et détecter des marqueurs tels que des images noires ou des changements de plans. Pour chaque détection, vous obtenez des codes temporels, des horodatages et des numéros de trames SMPTE (Society of Motion Picture and Television Engineers). Aucune expérience de machine learning n’est requise.

Vidéo Amazon Rekognition analyse les vidéos stockées dans un compartiment Amazon Simple Storage Service (Amazon S3). Les codes temporels SMPTE renvoyés sont précis à l’image près. Vidéo Amazon Rekognition fournit le numéro de trame exact d’un segment vidéo détecté et gère divers formats de fréquence d’images vidéo. Vous pouvez utiliser les métadonnées précises de Vidéo Amazon Rekognition pour automatiser complètement certaines tâches ou réduire considérablement la charge de travail de révision des opérateurs humains formés, afin qu’ils puissent se concentrer sur les tâches plus créatives. Ceci vous permet d’effectuer des tâches telles que la préparation des contenus, l’insertion de publicités et l’ajout de « marqueurs en rafale » dans les contenus à grande échelle dans le cloud.

Pour en savoir plus sur la tarification, veuillez consulter Tarification Amazon Rekognition.

La détection de segments Vidéo Amazon Rekognition prend en charge deux types de tâches de segmentation : la détection Repères techniques et Détection des plans.

Repères techniques

Un repère technique permet d’identifier les images noires, les barres de couleur, les génériques de début et de fin, les logos des studios et le contenu principal du programme d’une vidéo.

Images noires

Les vidéos contiennent souvent des images noires vides, sans aucun son, pour délimiter les emplacements d’insertion des publicités ou la fin d’un segment de programme comme une scène ou le générique de début. Avec Vidéo Amazon Rekognition, vous pouvez détecter les séquences d’images noires pour automatiser l’insertion de publicités, conditionner le contenu pour la vidéo à la demande et délimiter divers segments ou scènes de programme. Les images noires avec audio (tels que les fondus ou les voix off) sont considérées comme du contenu et ne sont pas restituées.

Génériques

Vidéo Amazon Rekognition vous permet d’identifier automatiquement les images exactes où commence et se termine le générique de clôture pour un film ou une série TV. Grâce à ces informations, vous pouvez générer des « marqueurs en rafale » ou des instructions interactives, telles que « Épisode suivant » ou « Sauter l’intro », dans les applications de vidéo à la demande (VOD). Vous pouvez également détecter la première et la dernière image du contenu d’un programme dans une vidéo. Vidéo Amazon Rekognition est formé pour gérer une grande variété de styles de génériques de début et de fin, allant de simples génériques progressifs à des génériques plus complexes associés au contenu.

Barres de couleur

Vidéo Amazon Rekognition vous permet de détecter les sections de vidéo qui affichent des barres de couleurs SMPTE, à savoir un ensemble de couleurs affichées selon des motifs spécifiques pour s’assurer que la couleur est correctement calibrée sur les moniteurs de diffusion, les programmes et les caméras. Pour de plus amples informations sur les barres de couleur SMPTE, veuillez consulter Barre de couleurs SMPTE. Ces métadonnées sont utiles pour préparer les contenus pour les applications de vidéo à la demande en supprimant les segments de barres de couleur du contenu, ou pour détecter des problèmes tels que la perte de signaux de diffusion dans un enregistrement, lorsque les barres de couleur sont affichées en continu comme signal par défaut au lieu du contenu.

Ardoises

Les ardoises sont des sections de la vidéo, généralement situées au début, qui contiennent des métadonnées textuelles sur l’épisode, le studio, le format vidéo, les chaînes audio, etc. Vidéo Amazon Rekognition peut identifier le début et la fin des listes, ce qui facilite l’utilisation des métadonnées du texte ou la suppression de l’ardoise lors de la préparation du contenu pour le visionnage final.

Logos de studio

Les logos de studio sont des séquences qui montrent les logos ou les emblèmes du studio de production impliqué dans la création de l’émission. Vidéo Amazon Rekognition peut détecter ces séquences afin que les utilisateurs puissent les consulter afin d’identifier les studios.

Contenu

Le contenu correspond aux parties de l’émission de télévision ou du film qui contiennent le programme ou des éléments connexes. Les images noires, les génériques, les barres de couleur, les ardoises et les logos de studio ne sont pas considérés comme du contenu. Vidéo Amazon Rekognition peut détecter le début et la fin de chaque segment de contenu de la vidéo, afin que vous puissiez connaître la durée d’exécution du programme ou des segments spécifiques.

Ces segments de contenu comprennent les attributs suivants, sans s’y limiter :

  • Scènes de programmation entre deux pauses publicitaires

  • Un bref résumé de l’épisode précédent au début de la vidéo

  • Contenu bonus post-générique

  • Contenu « sans texte », tel qu’un ensemble de scènes de programme contenant à l’origine du texte superposé, mais dont le texte a été supprimé pour permettre la traduction dans d’autres langues.

Une fois que Vidéo Amazon Rekognition a fini de détecter tous les segments de contenu, vous pouvez appliquer les connaissances du domaine ou les envoyer pour examen par un humain afin de mieux classer chaque segment. Par exemple, si vous utilisez des vidéos qui commencent toujours par un récapitulatif, vous pouvez classer le premier segment de contenu dans la catégorie récapitulatif.

Le diagramme suivant montre les segments de repères techniques sur la chronologie d’une émission ou d’un film. Notez les barres de couleur et le générique d’ouverture, les segments de contenu tels que le récapitulatif et le programme principal, les images noires de la vidéo et le générique de fin.

Barres de couleur, segment récapitulatif, deux segments de contenu de programme et cadres noirs représentant la chronologie d'une émission ou d'un film.

Détection des plans

Un plan est une série d’images consécutives et interdépendantes, prises de façon contiguë par une seule caméra et représentant une action continue dans le temps et l’espace. Avec Vidéo Amazon Rekognition, vous pouvez détecter le début, la fin et la durée de chaque plan, ainsi que le nombre total de plans d’un contenu. Vous pouvez utiliser les métadonnées des plans par exemple pour les tâches suivantes.

  • Création de vidéos promotionnelles à l’aide de plans sélectionnés.

  • Insertion de publicités à des endroits qui ne perturbent pas l’expérience du spectateur, par exemple au milieu d’un plan lorsque quelqu’un parle.

  • Génération d’un ensemble de miniatures d’aperçu qui évitent le contenu de transition entre les plans.

Une détection de plans est marquée à l’image exacte où il y a un passage à une autre caméra. S’il y a une transition douce d’une caméra à l’autre, Vidéo Amazon Rekognition omet la transition. Ceci garantit que les débuts et fins de plan n’incluent pas de sections sans contenu réel.

Le diagramme suivant illustre les segments de détection de plans sur une piste de film. Notez que chaque plan est identifié par une coupure d’un angle de caméra ou d’un emplacement vers un autre.

Sept plans numérotés montrant les rues de la ville, le tableau de bord d'une voiture, un sentier forestier, un enfant, une petite fille, un lac au coucher du soleil avec la silhouette d'un photographe.

À propos de l’API de détection des segments Vidéo Amazon Rekognition

Pour segmenter une vidéo stockée, vous utilisez les opérations asynchrones StartSegmentDetectionet d'GetSegmentDetectionAPI pour démarrer une tâche de segmentation et récupérer les résultats. La détection de segments accepte les vidéos stockées dans un compartiment Amazon S3 et renvoie une sortie JSON. Vous pouvez choisir de détecter uniquement les repères techniques, uniquement les changements de plans, ou les deux ensemble en configurant la demande d’API StartSegmentdetection. Vous pouvez également filtrer les segments détectés en définissant des seuils pour une confiance de prédiction minimale. Pour plus d’informations, consultez Utilisation de l’API de segmentation Amazon Rekognition . Pour obtenir un exemple de code, consultez Exemple : Détection de segments dans une vidéo stockée.