Sprecherpartitionierung (Diarisierung) - Amazon Transcribe

Aufteilung der Sprecher in einer Batch-Transkription Partitionierung der Sprecher in einer Streaming-Transkription

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Sprecherpartitionierung (Diarisierung)

Mit der Lautsprecher-Diarisierung können Sie in Ihrer Transkriptionsausgabe zwischen verschiedenen Sprechern unterscheiden. Amazon Transcribe kann zwischen maximal 30 einzelnen Sprechern unterscheiden und kennzeichnet den Text jedes einzelnen Sprechers mit einem eindeutigen Wert (spk_0durchspk_9).

Zusätzlich zu den Standard-Transkriptabschnitten (transcripts und items) enthalten Anfragen mit aktivierter Sprecherpartitionierung einen Abschnitt speaker_labels. Dieser Abschnitt ist nach Sprechern gruppiert und enthält Informationen zu jeder Äußerung, einschließlich Sprecherbezeichnung und Zeitstempel.


"speaker_labels": {
    "channel_label": "ch_0",
    "speakers": 2,
    "segments": [
         {
            "start_time": "4.87",
            "speaker_label": "spk_0",
            "end_time": "6.88",
            "items": [                                                 
                {
                    "start_time": "4.87",
                    "speaker_label": "spk_0",
                    "end_time": "5.02"
                },
        ...
        {
            "start_time": "8.49",
            "speaker_label": "spk_1",
            "end_time": "9.24",
            "items": [
                {
                    "start_time": "8.49",
                    "speaker_label": "spk_1",
                    "end_time": "8.88"
                },

Ein vollständiges Beispieltranskript mit Sprecherpartitionierung (für zwei Sprecher) finden Sie unter Beispiel für die Diarisierungsausgabe (Batch).

Aufteilung der Sprecher in einer Batch-Transkription

Zur Sprecherpartitionierung in einer Batch-Transkription siehe die folgenden Beispiele:

Melden Sie sich an der AWS Management Console an.
Wählen Sie im Navigationsbereich Transkriptionsaufträge und dann Auftrag erstellen (oben rechts). Dies öffnet die Seite Auftragsdetails angeben.
Füllen Sie alle Felder aus, die Sie auf der Seite Auftragsdetails angeben möchten, und wählen Sie dann Weiter. Dadurch gelangen Sie zur Seite Auftrag konfigurieren – optional.

Wählen Sie in den Audioeinstellungen die Option Sprecherpartitionierung (unter der Überschrift „Audioidentifikationstyp“). Sie können optional die Anzahl der Sprecher angeben, die Sie partitionieren möchten, bis zu einem Maximum von 10.
Wählen Sie Auftrag erstellen, um Ihren Transkriptionsauftrag auszuführen.

AWS Management Console

Melden Sie sich an der AWS Management Console an.
Wählen Sie im Navigationsbereich Transkriptionsaufträge und dann Auftrag erstellen (oben rechts). Dies öffnet die Seite Auftragsdetails angeben.
Füllen Sie alle Felder aus, die Sie auf der Seite Auftragsdetails angeben möchten, und wählen Sie dann Weiter. Dadurch gelangen Sie zur Seite Auftrag konfigurieren – optional.

Wählen Sie in den Audioeinstellungen die Option Sprecherpartitionierung (unter der Überschrift „Audioidentifikationstyp“). Sie können optional die Anzahl der Sprecher angeben, die Sie partitionieren möchten, bis zu einem Maximum von 10.
Wählen Sie Auftrag erstellen, um Ihren Transkriptionsauftrag auszuführen.

In diesem Beispiel verwenden wir den start-transcription-job. Weitere Informationen finden Sie unter StartTranscriptionJob.


aws transcribe start-transcription-job \
--region us-west-2 \
--transcription-job-name my-first-transcription-job \
--media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \
--output-bucket-name DOC-EXAMPLE-BUCKET \
--output-key my-output-files/ \
--language-code en-US \
--show-speaker-labels TRUE \    
--max-speaker-labels 3

Hier ist ein weiteres Beispiel mit dem start-transcription-jobBefehl und einem Anforderungstext, der die Lautsprecherpartitionierung bei diesem Job ermöglicht.


aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://my-first-transcription-job.json

Die Datei my-first-transcription-job.json enthält den folgenden Anfragetext.


{
  "TranscriptionJobName": "my-first-transcription-job",
  "Media": {
        "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac"
  },
  "OutputBucketName": "DOC-EXAMPLE-BUCKET",
  "OutputKey": "my-output-files/", 
  "LanguageCode": "en-US",
  "ShowSpeakerLabels": 'TRUE',    
  "MaxSpeakerLabels": 3
 }

AWS CLI

In diesem Beispiel verwenden wir den start-transcription-job. Weitere Informationen finden Sie unter StartTranscriptionJob.


aws transcribe start-transcription-job \
--region us-west-2 \
--transcription-job-name my-first-transcription-job \
--media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \
--output-bucket-name DOC-EXAMPLE-BUCKET \
--output-key my-output-files/ \
--language-code en-US \
--show-speaker-labels TRUE \    
--max-speaker-labels 3

Hier ist ein weiteres Beispiel mit dem start-transcription-jobBefehl und einem Anforderungstext, der die Lautsprecherpartitionierung bei diesem Job ermöglicht.


aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://my-first-transcription-job.json

Die Datei my-first-transcription-job.json enthält den folgenden Anfragetext.


{
  "TranscriptionJobName": "my-first-transcription-job",
  "Media": {
        "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac"
  },
  "OutputBucketName": "DOC-EXAMPLE-BUCKET",
  "OutputKey": "my-output-files/", 
  "LanguageCode": "en-US",
  "ShowSpeakerLabels": 'TRUE',    
  "MaxSpeakerLabels": 3
 }

In diesem Beispiel werden Kanäle mithilfe der AWS SDK for Python (Boto3) Methode start_transcription_job identifiziert. Weitere Informationen finden Sie unter. StartTranscriptionJob


from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac"
transcribe.start_transcription_job(
    TranscriptionJobName = job_name,
    Media = {
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'DOC-EXAMPLE-BUCKET',
    OutputKey = 'my-output-files/', 
    LanguageCode = 'en-US', 
    Settings = {
        'ShowSpeakerLabels': True,
        'MaxSpeakerLabels': 3
    }    
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName = job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

AWS SDK for Python (Boto3)

In diesem Beispiel werden Kanäle mithilfe der AWS SDK for Python (Boto3) Methode start_transcription_job identifiziert. Weitere Informationen finden Sie unter. StartTranscriptionJob


from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac"
transcribe.start_transcription_job(
    TranscriptionJobName = job_name,
    Media = {
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'DOC-EXAMPLE-BUCKET',
    OutputKey = 'my-output-files/', 
    LanguageCode = 'en-US', 
    Settings = {
        'ShowSpeakerLabels': True,
        'MaxSpeakerLabels': 3
    }    
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName = job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

Partitionierung der Sprecher in einer Streaming-Transkription

Um die Sprecher in einer Streaming-Transkription zu trennen, sehen Sie sich die folgenden Beispiele an:

Melden Sie sich an der AWS Management Console an.
Wählen Sie im Navigationsbereich Echtzeit-Streaming aus. Blättern Sie nach unten zu den Audioeinstellungen und erweitern Sie dieses Feld, falls es minimiert ist.
Aktivieren Sie die Sprecherpartitionierung.
Jetzt können Sie Ihren Stream transkribieren. Wählen Sie Streaming starten und beginnen Sie zu sprechen. Um Ihr Diktat zu beenden, wählen Sie Streaming beenden.

Streaming-Transkriptionen

Melden Sie sich an der AWS Management Console an.
Wählen Sie im Navigationsbereich Echtzeit-Streaming aus. Blättern Sie nach unten zu den Audioeinstellungen und erweitern Sie dieses Feld, falls es minimiert ist.
Aktivieren Sie die Sprecherpartitionierung.
Jetzt können Sie Ihren Stream transkribieren. Wählen Sie Streaming starten und beginnen Sie zu sprechen. Um Ihr Diktat zu beenden, wählen Sie Streaming beenden.

In diesem Beispiel wird eine HTTP/2-Anfrage erstellt, die Sprecher in Ihrer Transkriptionsausgabe trennt. Weitere Informationen zur Verwendung von HTTP/2-Streaming mit finden Sie unter. Amazon TranscribeEinen HTTP /2-Stream einrichten Weitere Informationen zu spezifischen Parametern und Headern finden Sie Amazon Transcribe unter. StartStreamTranscription


POST /stream-transcription HTTP/2
host: transcribestreaming.us-west-2.amazonaws.com
X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription
Content-Type: application/vnd.amazon.eventstream
X-Amz-Content-Sha256: string
X-Amz-Date: 20220208T235959Z
Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string
x-amzn-transcribe-language-code: en-US
x-amzn-transcribe-media-encoding: flac
x-amzn-transcribe-sample-rate: 16000             
x-amzn-transcribe-show-speaker-label: true
transfer-encoding: chunked

Parameterdefinitionen finden Sie in der API-Referenz. Parameter, die allen AWS API-Vorgängen gemeinsam sind, sind im Abschnitt Allgemeine Parameter aufgeführt.

HTTP/2-Stream


POST /stream-transcription HTTP/2
host: transcribestreaming.us-west-2.amazonaws.com
X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription
Content-Type: application/vnd.amazon.eventstream
X-Amz-Content-Sha256: string
X-Amz-Date: 20220208T235959Z
Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string
x-amzn-transcribe-language-code: en-US
x-amzn-transcribe-media-encoding: flac
x-amzn-transcribe-sample-rate: 16000             
x-amzn-transcribe-show-speaker-label: true
transfer-encoding: chunked

Parameterdefinitionen finden Sie in der API-Referenz. Parameter, die allen AWS API-Vorgängen gemeinsam sind, sind im Abschnitt Allgemeine Parameter aufgeführt.

In diesem Beispiel wird eine vorsignierte URL erstellt, die die Sprecher in Ihrer Transkriptionsausgabe trennt. Für eine bessere Lesbarkeit werden Zeilenumbrüche hinzugefügt. Weitere Hinweise zur Verwendung von WebSocket Streams mit Amazon Transcribe finden Sie unterEinen Stream einrichten WebSocket . Weitere Einzelheiten zu den Parametern finden Sie unter StartStreamTranscription.


GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket?
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=string
&X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date
&language-code=en-US
&specialty=PRIMARYCARE
&type=DICTATION
&media-encoding=flac
&sample-rate=16000        
&show-speaker-label=true

Parameterdefinitionen finden Sie in der API-Referenz. Parameter, die allen AWS API-Vorgängen gemeinsam sind, sind im Abschnitt Allgemeine Parameter aufgeführt.

WebSocket streamen


GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket?
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=string
&X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date
&language-code=en-US
&specialty=PRIMARYCARE
&type=DICTATION
&media-encoding=flac
&sample-rate=16000        
&show-speaker-label=true

Parameterdefinitionen finden Sie in der API-Referenz. Parameter, die allen AWS API-Vorgängen gemeinsam sind, sind im Abschnitt Allgemeine Parameter aufgeführt.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Taggen von -Ressourcen

Beispielausgabe

Wählen Sie Ihre Cookie-Einstellungen aus

Cookie-Einstellungen anpassen

Essenziell

Leistung

Funktional

Werbung

Cookie-Einstellungen konnten nicht gespeichert werden

Sprecherpartitionierung (Diarisierung)

Aufteilung der Sprecher in einer Batch-Transkription

AWS Management Console

AWS CLI

AWS SDK for Python (Boto3)

Partitionierung der Sprecher in einer Streaming-Transkription

Streaming-Transkriptionen

HTTP/2-Stream

WebSocket streamen

Hat Ihnen diese Seite geholfen?

Nächstes Thema:

Vorheriges Thema:

Brauchen Sie Hilfe?

Amazon Transcribe Konsolenseite „Auftragsdetails angeben“. Im Bereich „Auftragseinstellungen“ können Sie einen Namen für Ihren Transkriptionsauftrag angeben, einen Modelltyp auswählen und Ihre Spracheinstellungen festlegen.

Amazon Transcribe Konsolenseite „Job konfigurieren“. Im Bereich „Audioeinstellungen“ können Sie „Sprecherpartitionierung“ aktivieren.

Amazon Transcribe Konsolen-Screenshot: Die Registerkarte „Audioeinstellungen“ auf der Seite „Echtzeit-Transkription“.

Amazon Transcribe Konsolen-Screenshot: Der erweiterte Tab „Audioeinstellungen“ mit aktivierter Lautsprecherpartitionierung.