Transkription von Mehrkanal-Audio - Amazon Transcribe

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Transkription von Mehrkanal-Audio

Wenn Sie eine Audiodatei oder einen Stream mit mehreren Kanälen haben, können Sie die Kanalidentifikation verwenden, um die Sprache von jedem dieser Kanäle zu transkribieren. Amazon Transcribe Medical transkribiert die Sprache von jedem Kanal separat. Es kombiniert die einzelnen Transkriptionen jedes Kanals zu einem einzigen Transkriptionsausgang.

Verwenden Sie die Kanalidentifikation, um die einzelnen Kanäle in Ihrem Audio zu identifizieren und die Sprache von jedem dieser Kanäle zu transkribieren. Aktivieren Sie dies in Situationen wie einem Anrufer- und Agentenszenario. Verwenden Sie diese Option, um in Aufzeichnungen oder Streams von Kontaktzentren, die die Arzneimittelsicherheit überwachen, einen Anrufer von einem Agenten zu unterscheiden.

Sie können die Kanalidentifikation sowohl für die Batchverarbeitung als auch für das Echtzeit-Streaming aktivieren. In der folgenden Liste wird beschrieben, wie Sie es für jede Methode aktivieren.

Transkribieren von Mehrkanal-Audiodateien

Wenn Sie eine Audiodatei transkribieren, gibtAmazon Transcribe Medical eine Liste mit Elementen für jeden Kanal zurück. Ein Element ist ein transkribiertes Wort oder ein Satzzeichen. Jedes Wort hat eine Start- und eine Endzeit. Wenn eine Person auf einem Kanal über eine Person auf einem separaten Kanal spricht, überschneiden sich die Start- und Endzeiten der Elemente für jeden Kanal, während die Personen übereinander sprechen.

Standardmäßig können Sie Audiodateien mit zwei Kanälen transkribieren. Sie können eine Kontingenterhöhung beantragen, wenn Sie Dateien mit mehr als zwei Kanälen transkribieren müssen. Informationen zur Beantragung einer Kontingenterhöhung finden Sie unter AWS-ServiceKontingente.

Verwenden Sie die APIAWS Management Console oder die StartMedicalTranscriptionJobAPI, um Mehrkanal-Audio in einem Batch-Transkriptionsjob zu transkribieren.

AWS Management ConsoleUm die Kanalidentifikation in Ihrem Batch-Transkriptionsauftrag zu aktivieren, aktivieren Sie die Audioidentifikation und anschließend die Kanalidentifikation. Die Kanalidentifikation ist eine Untergruppe der Audioidentifikation in derAWS Management Console.

  1. Melden Sie sich an der AWS Management Console an.

  2. Wählen Sie im Navigationsbereich unterAmazon Transcribe Medical die Option Transcription Jobs.

  3. Wählen Sie Create job (Auftrag erstellen) aus.

  4. Geben Sie auf der Seite „Stellendetails angeben“ Informationen zu Ihrem Transkriptionsjob ein.

  5. Wählen Sie Next (Weiter).

  6. Aktivieren Sie die Audioidentifikation.

  7. Wählen Sie als Audioidentifizierungstyp die Option Kanalidentifikation aus.

  8. Wählen Sie Create (Erstellen) aus.

Um eine Mehrkanal-Audiodatei (API) zu transkribieren
  • Geben Sie für die StartMedicalTranscriptionJobAPI Folgendes an.

    1. Geben Sie fürTranscriptionJobName einen eindeutigen Namen für Ihren anAWS-Konto.

    2. Geben Sie fürLanguageCode den Sprachcode an, der der in der Audiodatei gesprochenen Sprache entspricht. Der gültige Wert lautet en-US.

    3. Geben Sie für denMediaFileUri Parameter desMedia Objekts den Namen der Mediendatei an, die Sie transkribieren möchten.

    4. Stellen Sie für dasSettings ObjektChannelIdentification auf eintrue.

Im Folgenden finden Sie ein Beispiel für eine Anfrage mit demAWS SDK for Python (Boto3).

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_name = "my-first-med-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_medical_transcription_job( MedicalTranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'output-files/', LanguageCode = 'en-US', Specialty = 'PRIMARYCARE', Type = 'CONVERSATION', Settings = { 'ChannelIdentification': True } ) while True: status = transcribe.get_transcription_job(MedicalTranscriptionJobName = job_name) if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Um eine Mehrkanal-Audiodatei mit einem Batch-Transkriptionsjob zu transkribieren (AWS CLI)
  • Führen Sie folgenden Code aus.

    aws transcribe start-medical-transcription-job \ --region us-west-2 \ --cli-input-json file://example-start-command.json

    Das Folgende ist der Code vonexample-start-command.json.

    { "MedicalTranscriptionJobName": "my-first-med-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-audio-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "Specialty": "PRIMARYCARE", "Type": "CONVERSATION", "Settings":{ "ChannelIdentification": true } }

Der folgende Code zeigt die Transkriptionsausgabe für eine Audiodatei, die eine Konversation auf zwei Kanälen enthält.

{ "jobName": "job id", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "When you try ... It seems to ..." } ], "channel_labels": { "channels": [ { "channel_label": "ch_0", "items": [ { "start_time": "12.282", "end_time": "12.592", "alternatives": [ { "confidence": "1.0000", "content": "When" } ], "type": "pronunciation" }, { "start_time": "12.592", "end_time": "12.692", "alternatives": [ { "confidence": "0.8787", "content": "you" } ], "type": "pronunciation" }, { "start_time": "12.702", "end_time": "13.252", "alternatives": [ { "confidence": "0.8318", "content": "try" } ], "type": "pronunciation" }, ... ] }, { "channel_label": "ch_1", "items": [ { "start_time": "12.379", "end_time": "12.589", "alternatives": [ { "confidence": "0.5645", "content": "It" } ], "type": "pronunciation" }, { "start_time": "12.599", "end_time": "12.659", "alternatives": [ { "confidence": "0.2907", "content": "seems" } ], "type": "pronunciation" }, { "start_time": "12.669", "end_time": "13.029", "alternatives": [ { "confidence": "0.2497", "content": "to" } ], "type": "pronunciation" }, ... ] } }

Transkribieren von Mehrkanal-Audiostreams

Mit der StartMedicalStreamTranscriptionAPI können Sie Audio von separaten Kanälen entweder in HTTP/2 oder in WebSocket Streams transkribieren.

Standardmäßig können Sie Streams mit zwei Kanälen transkribieren. Sie können eine Kontingenterhöhung beantragen, wenn Sie Streams mit mehr als zwei Kanälen transkribieren müssen. Informationen zur Beantragung einer Kontingenterhöhung finden Sie unter AWSServicekontingente.

Transkription von Mehrkanal-Audio in einem HTTP/2-Stream

Um Mehrkanal-Audio in einem HTTP/2-Stream zu transkribieren, verwenden Sie die StartMedicalStreamTranscriptionAPI und geben Sie Folgendes an:

  • LanguageCode— Der Sprachcode des Audios. Der gültige Wert lautet en-US.

  • MediaEncoding— Die Kodierung des Audios. Gültige Werte sind ogg-opus, flac und pcm.

  • EnableChannelIdentificationtrue

  • NumberOfChannels— die Anzahl der Kanäle in Ihrem Streaming-Audio.

Weitere Informationen zum Einrichten eines HTTP/2-Streams zur Transkription eines medizinischen Gesprächs finden Sie unterEinrichten eines HTTP/2-Streams.

Transkribieren von Mehrkanal-Audio in einem WebSocket Stream

Verwenden Sie das folgende Format, um Lautsprecher in WebSocket Streams zu partitionieren, um eine vorsignierte URI zu erstellen und eine WebSocket Anfrage zu starten. Geben Sieenable-channel-identification alstrue und die Anzahl der Kanäle in Ihrem Stream annumber-of-channels. Eine vorsignierte URI enthält die Informationen, die für die Einrichtung der bidirektionalen Kommunikation zwischen Ihrer Anwendung undAmazon Transcribe Medical erforderlich sind.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=languageCode &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=Signature Version 4 signature &X-Amz-SignedHeaders=host &media-encoding=flac &sample-rate=16000 &session-id=sessionId &enable-channel-identification=true &number-of-channels=2

Parameterdefinitionen finden Sie in der API-Referenz. Parameter, die allenAWS API-Vorgängen gemeinsam sind, sind im Abschnitt Allgemeine Parameter aufgeführt.

Weitere Informationen zu WebSocket Anfragen finden Sie unterEinen WebSocket Stream einrichten.

Mehrkanal-Streaming-Ausgang

Die Ausgabe einer Streaming-Transkription ist für HTTP/2 und WebSocket Anfragen dieselbe. Im Folgenden finden Sie eine Beispielausgabe.

{ "resultId": "XXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXX", "startTime": 0.11, "endTime": 0.66, "isPartial": false, "alternatives": [ { "transcript": "Left.", "items": [ { "startTime": 0.11, "endTime": 0.45, "type": "pronunciation", "content": "Left", "vocabularyFilterMatch": false }, { "startTime": 0.45, "endTime": 0.45, "type": "punctuation", "content": ".", "vocabularyFilterMatch": false } ] } ], "channelId": "ch_0" }

Für jedes Sprachsegment gibt es einechannelId Flagge, die angibt, zu welchem Kanal die Sprache gehört.