音频 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

音频

Amazon Bedrock 数据自动化 (BDA) 功能提供了一组标准输出,用于处理和生成音频文件的见解。以下是每种操作类型的详细介绍:

完整音频摘要

完整音频摘要生成整个音频文件的总体摘要。它将整个音频中呈现的关键主题、事件和信息提炼成简洁的摘要。

完整音频脚本

完整的音频转录功能提供了音频中所有语音内容的完整文本表示。它使用先进的语音识别技术来准确转录对话、旁白和其他音频元素。转录包括时间戳,便于根据口语浏览和搜索音频内容。

主题摘要

音频主题摘要将音频文件分成名为主题的部分,并对其进行汇总以提供关键信息。为这些主题提供了时间戳,以帮助将它们作为一个整体放置在音频文件中。默认情况下,此功能未启用。

内容审核

内容审核使用基于音频和文本的提示来识别基于语音的有毒内容并将其分为七个不同的类别:

  • 亵渎:包含不礼貌、粗俗或令人反感的单词、短语或首字母缩略词的言论。

  • 仇恨言论:基于身份(例如种族、民族、性别、宗教、性取向、能力和国籍)批评、侮辱、谴责或非人性化的言论。

  • :通过直接或间接提及身体部位、身体特征或性别来表示性兴趣、活动或性唤起的言论。

  • 侮辱:包括贬低、羞辱、嘲笑、侮辱或贬低语言的言论。这种语言也被标记为欺凌

  • 暴力或威胁:包括企图对个人或群体造成痛苦、伤害或敌意的威胁的言论。

  • 图形性言论:使用视觉描述和令人不快的生动形象来表达的言论。这种语言通常故意过于详细,以加剧接受者的不适感。

  • 骚扰或虐待:旨在影响接受者心理健康的言论,包括贬低和物化用语。这种语言也被标记为骚扰。

音频标准输出

本节重点介绍您在音频文件 InvokeDataAutomation 上运行 API 操作时收到的不同响应对象。下面我们将分解响应对象的每个部分,然后查看示例文档的完整填充响应。我们将收到的第一部分是metadata

{ "metadata": { "asset_id": "0", "semantic_modality": "AUDIO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav", "sample_rate": 8000, "bitrate": 256000, "number_of_channels": 2, "codec": "pcm_s16le", "duration_millis": 237560, "format": "wav" },

本节分解了有关文件的信息,例如其 s3 位置、比特率、音频通道和格式。接下来我们来看看audio_items

"audio_items": [ { "item_index": 0, "audio_segment_index": 0, "content": "Auto", "start_timestamp_millis": 9, "end_timestamp_millis": 119 },

项目部分包括按声音对音频文件进行细分。每个项目通常与字长差不多。item_index 表示该项目在 audio_items 索引中的位置,audio_segment_index 表示它在我们接下来要讨论的分段索引中的位置。

"audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "segment_index": 0, "type": "TRANSCRIPT", "text": "Auto sales, Cherry speaking. How can I help you?", "audio_item_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ] },

在这里,我们根据较长的时间跨度对文件进行了细分,每个片段大约等于一句话。它告诉我们片段中包含哪些音频项目以及片段本身的文本。接下来让我们来看看内容审核。

"content_moderation": [ { "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0", "type": "AUDIO_MODERATION", "confidence": 0.0476, "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "moderation_categories": [ { "category": "profanity", "confidence": 0.1582 },

内容审核部分仔细分析每个区段,并针对七个审核类别中的任何一个进行分析,为每个部分提供置信度分数。我们的下一节是主题。

"topics": [ { "topic_index": 0, "start_timestamp_millis": 0, "end_timestamp_millis": 36790, "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.", "transcript": { "representation": { "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens." } }, "audio_segment_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ] },

主题部分是细分领域中下一个精细度级别。这些是按概念大致细分的分组。每个主题都附有生成的主题摘要以及该主题的确切测试。我们回应的最后一部分是统计数据。

"statistics": { "word_count": 749, "topic_count": 4 }

本节总结了有关音频文件的信息。这包括字数和主题总数。