Audio

La fonctionnalité Amazon Bedrock Data Automation (BDA) propose un ensemble de sorties standard pour traiter et générer des informations pour les fichiers audio. Voici un aperçu détaillé de chaque type d'opération :

Résumé audio complet

Le résumé audio complet génère un résumé global de l'ensemble du fichier audio. Il résume les principaux thèmes, événements et informations présentés tout au long de l'audio dans un résumé concis.

Transcription audio complète

La fonction de transcription audio complète fournit une représentation textuelle complète de tout le contenu vocal de l'audio. Il utilise une technologie avancée de reconnaissance vocale pour transcrire avec précision le dialogue, la narration et d'autres éléments audio. La transcription inclut l'horodatage, ce qui facilite la navigation et la recherche dans le contenu audio en fonction des mots prononcés.

Résumé du sujet

Le résumé des rubriques audio sépare le fichier audio en sections appelées rubriques et les résume pour fournir des informations clés. Ces sujets sont horodatés pour faciliter leur intégration dans le fichier audio dans son ensemble. Cette fonctionnalité n'est pas activée par défaut.

Modération du contenu

La modération du contenu utilise des signaux audio et textuels pour identifier et classer les contenus toxiques vocaux en sept catégories différentes :

Blasphème : discours contenant des mots, des expressions ou des acronymes impolis, vulgaires ou offensants.
Discours haineux : discours qui critique, insulte, dénonce ou déshumanise une personne ou un groupe de personnes sur la base d’une identité (telle que la race, l’origine ethnique, le sexe, la religion, l’orientation sexuelle, les capacités et l’origine nationale).
Sexualité : discours qui indique un intérêt, une activité ou une excitation sexuelle en utilisant des références directes ou indirectes à des parties du corps, à des traits physiques ou au sexe.
Insultes : discours qui inclut un langage dégradant, humiliant, moqueur, insultant ou dénigrant. Ce type de langage est également qualifié d'intimidation
Violence ou menace : discours qui inclut des menaces visant à infliger de la douleur, des blessures ou de l’hostilité à une personne ou à un groupe de personnes.
Graphique : discours qui utilise des images visuellement descriptives et d’une expression désagréable. Ce type de langage est souvent intentionnellement verbeux pour amplifier l’inconfort du destinataire.
Harcèlement ou abus : discours visant à affecter le bien-être psychologique du destinataire et comprenant notamment des termes dégradants et objectivants. Ce type de langage est également qualifié de harcèlement.

Sortie audio standard

Cette section se concentre sur les différents objets de réponse que vous recevez lors de l'exécution de l'opération d'API InvokeDataAutomation sur un fichier audio. Ci-dessous, nous allons décomposer chaque section de l'objet de réponse, puis voir une réponse complète et remplie pour un exemple de document. La première section que nous recevrons estmetadata.


{
 "metadata": {
    "asset_id": "0",
    "semantic_modality": "AUDIO",
    "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1",
    "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav",
    "sample_rate": 8000,
    "bitrate": 256000,
    "number_of_channels": 2,
    "codec": "pcm_s16le",
    "duration_millis": 237560,
    "format": "wav"
  },

Cette section détaille les informations relatives au fichier, telles que son emplacement s3, son débit, ses canaux audio et son format. Ensuite, nous examinonsaudio_items.



                    
"audio_items": [
    {
      "item_index": 0,
      "audio_segment_index": 0,
      "content": "Auto",
      "start_timestamp_millis": 9,
      "end_timestamp_millis": 119
    },

La section des éléments inclut une ventilation du fichier audio son par son. Chaque élément concerne généralement la longueur du mot. Le item_index indique la place de l'élément dans les indices audio_items, et l'audio_segment_index indique où il se trouve dans les indices des segments dont nous parlerons ensuite.



"audio_segments": [
    {
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 1970,
      "segment_index": 0,
      "type": "TRANSCRIPT",
      "text": "Auto sales, Cherry speaking. How can I help you?",
      "audio_item_indices": [
        0,
        1,
        2,
        3,
        4,
        5,
        6,
        7,
        8,
        9,
        10,
        11
      ]
    },

Nous obtenons ici une ventilation du fichier en fonction de périodes plus longues, chaque segment équivalant à peu près à une phrase. Il nous indique quels éléments audio sont inclus dans le segment et le texte du segment lui-même. Passons maintenant à la modération du contenu.



"content_moderation": [
      {
        "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0",
        "type": "AUDIO_MODERATION",
        "confidence": 0.0476,
        "start_timestamp_millis": 0,
        "end_timestamp_millis": 1970,
        "moderation_categories": [
          {
            "category": "profanity",
            "confidence": 0.1582
          },

La section de modération du contenu passe en revue chaque segment individuel et l'analyse pour l'une des sept catégories de modération, fournissant des scores de confiance pour chaque section. Notre section suivante porte sur les sujets.



"topics": [
    {
      "topic_index": 0,
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 36790,
      "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.",
      "transcript": {
        "representation": {
          "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens."
        }
      },
      "audio_segment_indices": [
        0,
        1,
        2,
        3,
        4,
        5,
        6,
        7,
        8,
        9,
        10
      ]
    },

Les sections thématiques constituent le niveau de granularité suivant par rapport aux segments. Ce sont des groupes de segments qui sont décomposés grossièrement par concepts. Chaque sujet est accompagné d'un résumé généré du sujet et du test exact du sujet. La dernière partie de notre réponse concerne les statistiques.



 "statistics": {
    "word_count": 749,
    "topic_count": 4
  }

Cette section récapitule les informations relatives au fichier audio. Cela inclut le nombre de mots et le nombre total de sujets.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Vidéos

Résultats et plans personnalisés