Entrées et sorties de données - Amazon Transcribe

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Entrées et sorties de données

Amazon Transcribeprend des données audio, sous forme de fichier multimédia dans unAmazon S3 compartiment ou un flux multimédia, et les convertit en données texte.

Si vous transcrivez des fichiers multimédia stockés dans unAmazon S3 compartiment, vous effectuez des transcriptions par lots. Si vous transcrivez des flux multimédia, vous effectuez des transcriptions en continu. Ces deux processus ont des règles et des exigences différentes.

Avec les transcriptions par lots, vous pouvez l'utiliserMise en file d'attente des offres d'emploi si vous n'avez pas besoin de traiter toutes vos tâches de transcription simultanément. Cela permetAmazon Transcribe de suivre vos tâches de transcription et de les traiter lorsque des créneaux sont disponibles.

Note

Amazon Transcribepeut stocker temporairement votre contenu afin d'améliorer continuellement la qualité de ses modèles d'analyse. Veuillez consulter le FAQ Amazon Transcribe pour en savoir plus. Pour demander la suppression du contenu susceptible d'avoir été stocké parAmazon Transcribe, ouvrez un dossier avec AWS Support.

Formats multimédias

Les types de supports pris en charge diffèrent entre les transcriptions par lots et les transcriptions en streaming, bien que des formats sans perte soient recommandés pour les deux. Pour plus de détails, veuillez consulter le tableau suivant :

Par lots

Streaming

Formats pris en charge

  • AMR

  • FLAC

  • M4A

  • MP3

  • MP4

  • Ogg

  • WebM

  • WAV

  • FLAC

  • Ogg Opus

  • Encodage PCM

Formats recommandés

  • FLAC

  • WAV avec encodage PCM 16 bits

  • FLAC

  • Audio Little-Endian 16 bits signé PCM (notez que cela n'inclut pas le format WAV)

Pour de meilleurs résultats, utilisez un format sans perte, tel que FLAC ou WAV avec un codage PCM 16 bits.

Note

Les transcriptions en streaming ne sont pas prises en charge dans toutes les langues. Reportez-vous à la colonne « Entrée de données » dans le tableau des langues prises en charge pour plus de détails.

Canaux audio

Amazon Transcribeprend en charge les médias à canal unique et double canal. Les médias comportant plus de deux chaînes ne sont actuellement pas pris en charge.

Si votre audio contient plusieurs haut-parleurs sur un canal et que vous souhaitez partitionner et étiqueter chaque haut-parleur dans votre sortie de transcription, vous pouvez utiliser le partitionnement des haut-parleurs (diarisation).

Si votre audio contient des voix sur deux canaux distincts, vous pouvez utiliser l'identification des canaux pour transcrire chaque canal séparément dans votre transcription.

Ces deux options produisent un seul fichier de transcription.

Note

Si vous n'activez pas le partitionnement des haut-parleurs ou l'identification des chaînes, le texte de votre transcription est fourni sous la forme d'une section continue.

Taux d'échantillonnage

Pour les tâches de transcription par lots, vous pouvez choisir de fournir une fréquence d'échantillonnage, bien que ce paramètre soit facultatif. Si vous l'incluez dans votre demande, assurez-vous que la valeur que vous fournissez correspond à la fréquence d'échantillonnage réelle de votre audio. Si vous fournissez une fréquence d'échantillonnage qui ne correspond pas à votre son, votre tâche risque d'échouer.

Pour les transcriptions en streaming, vous devez inclure une fréquence d'échantillonnage dans votre demande. Comme pour les tâches de transcription par lots, assurez-vous que la valeur que vous fournissez correspond à la fréquence d'échantillonnage réelle de votre audio.

Les fréquences d'échantillonnage pour les sons de faible fidélité, tels que les enregistrements téléphoniques, utilisent généralement 8 000 Hz. Pour un son de haute fidélité,Amazon Transcribe prend en charge des valeurs comprises entre 16 000 Hz et 48 000 Hz.

Sortie

La sortie de transcription est au format JSON. La première partie de votre transcription contient la transcription elle-même sous forme de paragraphe, suivie de données supplémentaires pour chaque mot et signe de ponctuation. Les données fournies dépendent des fonctionnalités que vous incluez dans votre demande. Votre transcription contient au minimum l'heure de début, l'heure de fin et le score de confiance pour chaque mot. La section suivante présente un exemple de sortie d'une demande de transcription de base qui n'incluait aucune option ou fonctionnalité supplémentaire.

Toutes les transcriptions par lots sont stockées dansAmazon S3 des compartiments. Vous pouvez choisir d'enregistrer votre transcription dans votre propreAmazon S3 compartiment ou d'Amazon Transcribeutiliser un compartiment sécurisé par défaut. Pour en savoir plus sur la création et l'utilisation deAmazon S3 compartiments, consultez la section Utilisation des compartiments.

Si vous souhaitez que votre transcription soit stockée dans unAmazon S3 compartiment qui vous appartient, spécifiez l'URI du compartiment dans votre demande de transcription. Assurez-vous d'accorder des autorisationsAmazon Transcribe d'écriture pour ce compartiment avant de commencer votre travail de transcription par lots. Si vous spécifiez votre propre compartiment, votre transcription reste dans ce compartiment jusqu'à ce que vous le supprimiez.

Si vous ne spécifiez aucunAmazon S3 compartiment, vousAmazon Transcribe utilisez un compartiment sécurisé géré par les services et vous fournit un URI temporaire que vous pouvez utiliser pour télécharger votre transcription. Notez que les URI temporaires sont valides pendant 15 minutes. Si vous obtenez uneAccessDenied erreur lors de l'utilisation de l'URI fourni, faites uneGetTranscriptionJob demande pour obtenir un nouvel URI temporaire pour votre transcription.

Si vous optez pour un compartiment par défaut, votre transcription est supprimée à l'expiration de votre travail (90 jours). Si vous souhaitez conserver votre relevé de notes après cette date d'expiration, vous devez le télécharger.

Les transcriptions de streaming sont renvoyées par la même méthode que celle que vous utilisez pour votre diffusion.

Astuce

Si vous souhaitez convertir votre sortie JSON en turn-by-turn transcription au format Word, consultez cet GitHub exemple (pour Python3). Ce script fonctionne avec les transcriptions analytiques post-appel et les transcriptions par lots standard lorsque la diarisation est activée.

Exemple de sortie

Les transcriptions fournissent une transcription complète sous forme de paragraphe, suivie d'une word-for-word ventilation, qui fournit des données pour chaque mot et chaque signe de ponctuation. Cela inclut l'heure de début, l'heure de fin, un score de confiance et un type (pronunciationoupunctuation).

L'exemple suivant provient d'une simple tâche de transcription par lots qui n'incluait aucune fonctionnalité supplémentaire. À chaque fonctionnalité supplémentaire que vous appliquez à votre demande de transcription, vous obtenez des données supplémentaires dans votre fichier de sortie de transcription.

Les transcriptions par lots de base contiennent deux sections principales :

  1. transcripts: contient la transcription complète dans un seul bloc de texte.

  2. items: contient des informations sur chaque mot et signe de ponctuation de latranscripts section.

Chaque fonctionnalité supplémentaire que vous incluez dans votre demande de transcription produit des informations supplémentaires dans votre transcription.

{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }, "status": "COMPLETED" }