Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Audio
Die Funktion Amazon Bedrock Data Automation (BDA) bietet eine Reihe von Standardausgaben zur Verarbeitung und Generierung von Erkenntnissen für Audiodateien. Im Folgenden finden Sie einen detaillierten Überblick über die einzelnen Operationstypen:
Vollständige Audio-Zusammenfassung
Die vollständige Audiozusammenfassung generiert eine allgemeine Zusammenfassung der gesamten Audiodatei. Es fasst die wichtigsten Themen, Ereignisse und Informationen, die im gesamten Audio präsentiert werden, in einer kurzen Zusammenfassung zusammen.
Vollständiges Audio-Transkript
Die vollständige Audiotranskriptfunktion bietet eine vollständige Textdarstellung aller gesprochenen Inhalte im Audio. Es verwendet fortschrittliche Spracherkennungstechnologie, um Dialoge, Erzählungen und andere Audioelemente präzise zu transkribieren. Die Transkription beinhaltet Zeitstempel, sodass Audioinhalte, die auf gesprochenen Wörtern basieren, leicht navigiert und durchsucht werden können.
Zusammenfassung des Themas
Die Zusammenfassung der Audiothemen unterteilt die Audiodatei in Abschnitte, die als Themen bezeichnet werden, und fasst diese zusammen, um wichtige Informationen bereitzustellen. Diese Themen werden mit Zeitstempeln versehen, damit sie in der gesamten Audiodatei besser platziert werden können. Diese Funktion ist standardmäßig nicht aktiviert.
Moderation von Inhalten
Bei der Moderation von Inhalten werden akustische und textbasierte Hinweise verwendet, um sprachbasierte toxische Inhalte zu identifizieren und in sieben verschiedene Kategorien einzuteilen:
-
Obszönität: Sprache, die unhöfliche, vulgäre oder beleidigende Wörter, Formulierungen oder Abkürzungen enthält.
-
Hassrede: Äußerungen, die eine Person oder Gruppe aufgrund ihrer Identität (z. B. Rasse, ethnische Zugehörigkeit, Geschlecht, Religion, sexuelle Orientierung, Fähigkeiten und nationale Herkunft) kritisieren, beleidigen, anprangern oder entmenschlichen.
-
Sexuell: Sprache, die sexuelles Interesse, Aktivität oder Erregung durch direkte oder indirekte Anspielungen auf Körperteile, körperliche Merkmale oder Geschlecht anzeigt.
-
Beleidigungen: Äußerungen, die eine erniedrigende, demütigende, spöttische, beleidigende oder herabsetzende Sprache enthalten. Diese Art von Sprache wird auch als Mobbing bezeichnet
-
Gewalt oder Bedrohung: Äußerungen, die Drohungen enthalten, die darauf abzielen, einer Person oder Gruppe Schmerzen, Verletzungen oder Feindseligkeit zuzufügen.
-
Grafisch: Sprache, die visuell beschreibende und unangenehm anschauliche Bilder verwendet. Diese Art von Sprache ist oft absichtlich bildreich, um das Unbehagen des Empfängers zu verstärken.
-
Belästigung oder Beleidigung: Äußerungen, die darauf abzielen, das psychische Wohlbefinden des Empfängers zu beeinträchtigen, einschließlich erniedrigender und objektivierender Begriffe. Diese Art von Sprache wird auch als Belästigung bezeichnet.
Audio-Standardausgabe
Dieser Abschnitt konzentriert sich auf die verschiedenen Antwortobjekte, die Sie erhalten, wenn Sie den API-Vorgang InvokeDataAutomation für eine Audiodatei ausführen. Im Folgenden werden wir jeden Abschnitt des Antwortobjekts aufschlüsseln und dann eine vollständige, ausgefüllte Antwort für ein Beispieldokument sehen. Der erste Abschnitt, den wir erhalten werden, istmetadata
.
{ "metadata": { "asset_id": "0", "semantic_modality": "AUDIO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav", "sample_rate": 8000, "bitrate": 256000, "number_of_channels": 2, "codec": "pcm_s16le", "duration_millis": 237560, "format": "wav" },
In diesem Abschnitt werden Informationen über die Datei wie den S3-Speicherort, die Bitrate, die Audiokanäle und das Format aufgeführt. Als Nächstes schauen wir uns an. audio_items
"audio_items": [ { "item_index": 0, "audio_segment_index": 0, "content": "Auto", "start_timestamp_millis": 9, "end_timestamp_millis": 119 },
Der Abschnitt mit den Elementen enthält eine Aufschlüsselung der Audiodatei nach Sound. Bei jedem Artikel geht es normalerweise um die Wortlänge. Der item_index gibt den Platz des Elements in den audio_items-Indizes an, und der audio_segment_index gibt an, wo es sich in den Segmentindizes befindet, auf die wir als Nächstes eingehen werden.
"audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "segment_index": 0, "type": "TRANSCRIPT", "text": "Auto sales, Cherry speaking. How can I help you?", "audio_item_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ] },
Hier erhalten wir eine Aufschlüsselung der Datei auf der Grundlage längerer Zeiträume, wobei jedes Segment ungefähr einem Satz entspricht. Es sagt uns, welche Audioelemente im Segment enthalten sind und welchen Text das Segment selbst hat. Schauen wir uns als Nächstes die Moderation von Inhalten an.
"content_moderation": [ { "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0", "type": "AUDIO_MODERATION", "confidence": 0.0476, "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "moderation_categories": [ { "category": "profanity", "confidence": 0.1582 },
Im Abschnitt zur Inhaltsmoderation wird jedes einzelne Segment durchgesehen und für jede der sieben Moderationskategorien analysiert, sodass für jeden Abschnitt Vertrauenswerte ermittelt werden. Unser nächster Abschnitt befasst sich mit Themen.
"topics": [ { "topic_index": 0, "start_timestamp_millis": 0, "end_timestamp_millis": 36790, "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.", "transcript": { "representation": { "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens." } }, "audio_segment_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ] },
Themenbereiche stellen die nächste Stufe der Granularität von Segmenten dar. Dabei handelt es sich um Gruppierungen von Segmenten, die grob nach Konzepten gegliedert sind. Jedes Thema enthält eine generierte Zusammenfassung des Themas und den genauen Text des Themas. Unser letzter Teil einer Antwort besteht aus Statistiken.
"statistics": { "word_count": 749, "topic_count": 4 }
In diesem Abschnitt werden die Informationen zur Audiodatei zusammengefasst. Dazu gehören die Anzahl der Wörter und die Gesamtzahl der Themen.