Transkribieren von Mehrkanal-Audiodateien Transkribieren von Mehrkanal-Audiostreams

Transkribieren von Mehrkanal-Audio

Wenn Sie eine Audiodatei oder einen Stream mit mehreren Kanälen haben, können Sie die Kanalidentifikation verwenden, um die Sprache von jedem dieser Kanäle zu transkribieren. Amazon Transcribe Medical transkribiert die Sprache von jedem Kanal separat. Es kombiniert die separaten Transkriptionen der einzelnen Kanäle zu einer einzigen Transkriptionsausgabe.

Verwenden Sie die Kanalidentifikation, um die einzelnen Kanäle in Ihrem Audiomaterial zu identifizieren und die Sprache von jedem dieser Kanäle zu transkribieren. Aktivieren Sie dies in Situationen wie einem Anrufer- und Kundendienstmitarbeiterszenario. Verwenden Sie dies, um einen Anrufer von einem Kundendienstmitarbeiter in Aufzeichnungen oder Streams von Contact Centern zu unterscheiden, die eine Überwachung der Arzneimittelsicherheit durchführen.

Sie können die Kanalidentifizierung sowohl für die Stapelverarbeitung als auch für das Echtzeit-Streaming aktivieren. In der folgenden Liste wird beschrieben, wie man sie für jede Methode aktiviert.

Batch-Transkription — AWS Management Console und API StartMedicalTranscriptionJob
Streaming-Transkription — WebSocket Streaming und API StartMedicalStreamTranscription

Transkribieren von Mehrkanal-Audiodateien

Wenn Sie eine Audiodatei transkribieren, gibt Amazon Transcribe Medical eine Liste mit Elementen für jeden Kanal zurück. Ein Element ist ein transkribiertes Wort oder Interpunktionszeichen. Jedes Wort hat eine Startzeit und eine Endzeit. Wenn eine Person auf einem Kanal mit einer Person auf einem anderen Kanal spricht, überschneiden sich die Start- und Endzeiten der Elemente für jeden Kanal, während die Personen übereinander sprechen.

Standardmäßig können Sie Audiodateien mit zwei Kanälen transkribieren. Sie können eine Erhöhung des Quotas beantragen, wenn Sie Dateien mit mehr als zwei Kanälen transkribieren müssen. Informationen zur Beantragung einer Quotaerhöhung finden Sie unter AWS-Service -Quotas.

Um Mehrkanal-Audio in einem Batch-Transkriptionsauftrag zu transkribieren, verwenden Sie die oder die API. AWS Management Console StartMedicalTranscriptionJob

AWS Management Console Um die Kanalidentifikation in Ihrem Batch-Transkriptionsauftrag zu aktivieren, aktivieren Sie die Audioidentifikation und anschließend die Kanalidentifikation. Die Kanalidentifikation ist eine Untergruppe der Audioidentifikation in der. AWS Management Console

Melden Sie sich an der AWS Management Console an.
Wählen Sie im Navigationsbereich unter Amazon Transcribe Medizinisch die Option Transkriptionsjobs aus.
Wählen Sie Job erstellen aus.
Geben Sie auf der Seite Auftragsdetails angeben Informationen zu Ihrem Transkriptionsauftrag an.
Wählen Sie Weiter.
Aktivieren Sie die Audio-Identifikation.
Wählen Sie als Art der Audioidentifikation Kanalidentifikation.
Wählen Sie Create (Erstellen) aus.

So transkribieren Sie eine Mehrkanal-Audiodatei (API)

Für die StartMedicalTranscriptionJob-API geben Sie Folgendes an.
1. Geben Sie für TranscriptionJobNameeinen eindeutigen Namen für AWS-Konto an.
2. Geben Sie unter LanguageCode den Sprachcode an, der der Sprache entspricht, die in der Audiodatei gesprochen wird. Der gültige Wert lautet en-US.
3. Geben Sie unter MediaFileUri-Parameter des Media-Objekts den Namen der Mediendatei an, die Sie transkribieren möchten.
4. Für das Settings-Objekt setzen Sie ChannelIdentification auf true.

Nachfolgend ein Beispiel für eine Anfrage unter Verwendung von AWS SDK für Python (Boto3).



from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_name = "my-first-med-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_medical_transcription_job(
      MedicalTranscriptionJobName = job_name,
      Media = {
        'MediaFileUri': job_uri
      },
      OutputBucketName = 'amzn-s3-demo-bucket',
      OutputKey = 'output-files/',
      LanguageCode = 'en-US',
      Specialty = 'PRIMARYCARE',
      Type = 'CONVERSATION',
      Settings = {
        'ChannelIdentification': True
      }
)
while True:
    status = transcribe.get_transcription_job(MedicalTranscriptionJobName = job_name)
    if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

So transkribieren Sie eine Mehrkanal-Audiodatei mit einem Batch-Transkriptionsauftrag (AWS CLI)

Führen Sie folgenden Code aus.



                    
aws transcribe start-medical-transcription-job \
--region us-west-2 \
--cli-input-json file://example-start-command.json

Im Folgenden finden Sie den Code von example-start-command.json.


{
      "MedicalTranscriptionJobName": "my-first-med-transcription-job",        
      "Media": {
          "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-audio-file.flac"
      },
      "OutputBucketName": "amzn-s3-demo-bucket",
      "OutputKey": "my-output-files/", 
      "LanguageCode": "en-US",
      "Specialty": "PRIMARYCARE",
      "Type": "CONVERSATION",

        "Settings":{
          "ChannelIdentification": true
        }
}

Der folgende Code zeigt die Transkriptionsausgabe für eine Audiodatei, die ein Gespräch auf zwei Kanälen enthält.



{
  "jobName": "job id",
  "accountId": "111122223333",
  "results": {
    "transcripts": [
      {
        "transcript": "When you try ... It seems to ..."
      }
    ],
    "channel_labels": {
      "channels": [
        {
          "channel_label": "ch_0",
          "items": [
            {
              "start_time": "12.282",
              "end_time": "12.592",
              "alternatives": [
                {
                  "confidence": "1.0000",
                  "content": "When"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.592",
              "end_time": "12.692",
              "alternatives": [
                {
                  "confidence": "0.8787",
                  "content": "you"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.702",
              "end_time": "13.252",
              "alternatives": [
                {
                  "confidence": "0.8318",
                  "content": "try"
                }
              ],
              "type": "pronunciation"
            },
            ...
         ]
      },
      {
          "channel_label": "ch_1",
          "items": [
            {
              "start_time": "12.379",
              "end_time": "12.589",
              "alternatives": [
                {
                  "confidence": "0.5645",
                  "content": "It"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.599",
              "end_time": "12.659",
              "alternatives": [
                {
                  "confidence": "0.2907",
                  "content": "seems"
                }
              ],
              "type": "pronunciation"
            },
            {
              "start_time": "12.669",
              "end_time": "13.029",
              "alternatives": [
                {
                  "confidence": "0.2497",
                  "content": "to"
                }
              ],
              "type": "pronunciation"
            },
            ...
        ]
    }
}

Transkribieren von Mehrkanal-Audiostreams

Mithilfe der API können Sie Audio von separaten Kanälen entweder in HTTP/2 oder in WebSocket Streams transkribieren. StartMedicalStreamTranscription

Standardmäßig können Sie Streams mit zwei Kanälen transkribieren. Sie können eine Erhöhung des Quotas beantragen, wenn Sie Streams mit mehr als zwei Kanälen transkribieren müssen. Informationen zur Beantragung einer Quotaerhöhung finden Sie unter AWS -Service Quotas.

Transkription von Mehrkanal-Audio in einem HTTP/2-Stream

Um Mehrkanal-Audio in einem HTTP/2-Stream zu transkribieren, verwenden Sie die API und geben Sie Folgendes an: StartMedicalStreamTranscription

LanguageCode – Der Sprachcode des Audios. Der gültige Wert lautet en-US.
MediaEncoding – Die Kodierung des Audios. Gültige Werte sind ogg-opus, flac und pcm.
EnableChannelIdentification – true
NumberOfChannels – Die Anzahl der Kanäle in Ihrem Audiostreaming.

Weitere Informationen zum Einrichten eines HTTP/2-Streams zur Transkription eines medizinischen Gesprächs finden Sie unter Einrichten eines HTTP/2-Streams.

Transkribieren von Mehrkanal-Audio in einem Stream WebSocket

Um Lautsprecher in WebSocket Streams zu partitionieren, verwenden Sie das folgende Format, um eine vorsignierte URI zu erstellen und eine Anfrage zu starten. WebSocket Geben Sie enable-channel-identification als true und die Anzahl der Kanäle in Ihrem Stream in number-of-channels an. Eine vorsignierte URI enthält die Informationen, die für die Einrichtung einer bidirektionalen Kommunikation zwischen Ihrer Anwendung und Medical erforderlich sind. Amazon Transcribe



GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket
?language-code=languageCode
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=Signature Version 4 signature
&X-Amz-SignedHeaders=host
&media-encoding=flac
&sample-rate=16000
&session-id=sessionId
&enable-channel-identification=true
&number-of-channels=2

Parameterdefinitionen finden Sie in der API-Referenz. Parameter, die allen AWS API-Operationen gemeinsam sind, sind im Abschnitt Allgemeine Parameter aufgeführt.

Weitere Informationen zu WebSocket Anfragen finden Sie unterEinen WebSocket Stream einrichten.

Mehrkanaliger Streaming-Ausgang

Die Ausgabe einer Streaming-Transkription ist für HTTP/2 und WebSocket Anfragen identisch. Im Folgenden finden Sie eine Beispielausgabe.


{
    "resultId": "XXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXX",
    "startTime": 0.11,
    "endTime": 0.66,
    "isPartial": false,
    "alternatives": [
        {
            "transcript": "Left.",
            "items": [
                {
                    "startTime": 0.11,
                    "endTime": 0.45,
                    "type": "pronunciation",
                    "content": "Left",
                    "vocabularyFilterMatch": false
                },
                {
                    "startTime": 0.45,
                    "endTime": 0.45,
                    "type": "punctuation",
                    "content": ".",
                    "vocabularyFilterMatch": false
                }
            ]
        }
    ],
    "channelId": "ch_0"
}

Für jedes Sprachsegment gibt es ein channelId-Kennzeichen, das anzeigt, zu welchem Kanal die Sprache gehört.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Partitionierung von Sprechern in Echtzeit-Streams

Transkribieren eines medizinischen Diktats