本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
音訊
Amazon Bedrock Data Automation (BDA) 功能提供一組標準輸出,用於處理和產生音訊檔案的洞見。以下是每個操作類型的詳細說明:
完整音訊摘要
完整音訊摘要會產生整個音訊檔案的整體摘要。它會將在整個音訊中呈現的關鍵主題、事件和資訊分割為簡潔摘要。
完整音訊文字記錄
完整的音訊文字記錄功能提供音訊中所有口語內容的完整文字表示。它使用進階語音辨識技術來準確轉錄對話、敘述和其他音訊元素。轉錄包含時間戳記,可讓您根據口語單字輕鬆導覽和搜尋音訊內容。
主題摘要
音訊主題摘要會將音訊檔案分成稱為主題的區段,並加以摘要以提供金鑰資訊。這些主題會獲得時間戳記,以協助將其整體放在音訊檔案中。預設不會啟用此功能。
內容管制
內容管制使用音訊和文字提示來識別以語音為基礎的有毒內容並將其分類為七種不同的類別:
-
褻瀆:包含不禮貌、粗俗或冒犯性的單字、片語或縮寫的語言。
-
仇恨言論:因身份 (例如種族、民族、性別、宗教、性取向、能力和國籍) 而批評、侮辱、譴責或做出非人性化的言論。
-
性暗示:使用直接或間接引用身體部位、身體特徵或性別,表現出性興趣、活動或激起性欲的語言。
-
侮辱:包括貶低、羞辱、嘲笑、侮辱或貶低的言語。這種類型的語言也會標示為霸凌
-
暴力或威脅:包括試圖對個人或團體造成痛苦、傷害或敵意的威脅性言論。
-
圖形:使用視覺描述和令人不愉快的生動圖像式的語言。這種類型的語言通常故意拖長,以延長收件人的不適感。
-
騷擾或辱罵:目的式影響收件人心理健康的言論,包括貶低和客觀性的術語。這種語言也被標記為騷擾。
音訊標準輸出
本節著重於您在音訊檔案上執行 API 操作 InvokeDataAutomation 時收到的不同回應物件。以下我們將細分回應物件的每個區段,然後查看範例文件的完整填入回應。我們會收到的第一個區段是 metadata
。
{ "metadata": { "asset_id": "0", "semantic_modality": "AUDIO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav", "sample_rate": 8000, "bitrate": 256000, "number_of_channels": 2, "codec": "pcm_s16le", "duration_millis": 237560, "format": "wav" },
本節會細分檔案的相關資訊,例如其 s3 位置、位元速率、音訊通道和格式。接下來,我們來看 audio_items
。
"audio_items": [ { "item_index": 0, "audio_segment_index": 0, "content": "Auto", "start_timestamp_millis": 9, "end_timestamp_millis": 119 },
項目區段包含以音效為基礎的音訊檔案明細。每個項目通常與單字長度有關。item_index 指出項目在 audio_items 索引中的位置,而 audio_segment_index 指出它在片段索引中的位置,接下來我們將討論。
"audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "segment_index": 0, "type": "TRANSCRIPT", "text": "Auto sales, Cherry speaking. How can I help you?", "audio_item_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ] },
在這裡,我們會根據較長的時間取得檔案的明細,每個區段大約等於一個句子。它告訴我們區段中包含哪些音訊項目,以及區段本身的文字。接下來,我們來看看內容管制。
"content_moderation": [ { "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0", "type": "AUDIO_MODERATION", "confidence": 0.0476, "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "moderation_categories": [ { "category": "profanity", "confidence": 0.1582 },
內容管制區段會逐一查看每個個別區段,並分析七個管制類別中的任何一個,為每個區段提供可信度分數。下一節是主題。
"topics": [ { "topic_index": 0, "start_timestamp_millis": 0, "end_timestamp_millis": 36790, "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.", "transcript": { "representation": { "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens." } }, "audio_segment_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ] },
主題區段是片段的下一個精細程度。這些是依概念大致細分的片段群組。每個主題都隨附主題的產生摘要,以及主題的確切測試。我們回應的最後一部分是統計資料。
"statistics": { "word_count": 749, "topic_count": 4 }
本節摘要說明音訊檔案的相關資訊。這包括單字計數和總主題。