Transkription eines Echtzeit-Streams mit einem medizinischen benutzerdefinierten Vokabular - Amazon Transcribe

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Transkription eines Echtzeit-Streams mit einem medizinischen benutzerdefinierten Vokabular

Um die Transkriptionsgenauigkeit in einem Echtzeit-Stream zu verbessern, können Sie ein benutzerdefiniertes Vokabular verwenden, das entweder HTTP/2 oder WebSocket Streams verwendet. Verwenden Sie die StartMedicalStreamTranscriptionAPI, um eine HTTP/2-Anfrage zu starten. Sie können ein benutzerdefiniertes Vokabular in Echtzeit verwendenAWS Management Console, indem Sie entweder die StartMedicalStreamTranscriptionAPI oder das WebSocket Protokoll verwenden.

AWS Management ConsoleUm das Streaming-Audio eines medizinischen Diktats zu transkribieren, wählen Sie die Option zum Transkribieren eines medizinischen Diktats, starten Sie den Stream und beginnen Sie, in das Mikrofon zu sprechen.

Um Streaming-Audio eines medizinischen Diktats zu transkribieren (AWS Management Console)
  1. Melden Sie sich an der AWS Management Console an.

  2. Wählen Sie im Navigationsbereich unterAmazon Transcribe Medical die Option Echtzeit-Transkription.

  3. Wählen Sie als medizinisches Fachgebiet das medizinische Fachgebiet des Klinikers aus, der im Stream spricht.

  4. Wählen Sie als Audioeingabetyp entweder Konversation oder Diktat.

  5. Für Zusätzliche Einstellungen wählen Sie Benutzerdefiniertes Vokabular.

    1. Wählen Sie für die Wortschatzauswahl das benutzerdefinierte Vokabular aus.

  6. Wählen Sie dann Start Streaming (Streamen starten).

  7. Sprich in das Mikrofon.

Im Folgenden finden Sie die Syntax für die Parameter einer HTTP/2-Anfrage.

POST /medical-stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com authorization: Generated value x-amz-target: com.amazonaws.transcribe.Transcribe.StartMedicalStreamTranscription x-amz-content-sha256: STREAMING-MED-AWS4-HMAC-SHA256-EVENTS x-amz-date: 20220208T235959Z x-amzn-transcribe-session-id: my-first-http2-med-stream x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-vocabulary-name: my-first-med-vocab x-amzn-transcribe-specialty: PRIMARYCARE x-amzn-transcribe-type: CONVERSATION x-amzn-transcribe-show-speaker-label: true Content-type: application/vnd.amazon.eventstream transfer-encoding: chunked

Parameterbeschreibungen:

  • host: Aktualisiere denAWS-Region ('us-west-2' im vorherigen Beispiel) mit dem, denAWS-Region du anrufst. Eine Liste der gültigenAWS-Regionen Punkte finden Sie unter AWS-Regionenund Endpoints.

  • Autorisierung: Dies ist ein generiertes Feld. Weitere Informationen zum Erstellen einer Signatur finden Sie unter Signieren vonAWS Anfragen mit Signature Version 4.

  • x-amz-target: Verändern Sie dieses Feld nicht, sondern verwenden Sie den im vorherigen Beispiel gezeigten Inhalt.

  • x-amz-content-sha256: Dies ist ein generiertes Feld. Weitere Informationen zur Berechnung einer Signatur finden Sie unter Signieren vonAWS Anfragen mit Signature Version 4.

  • x-amz-date: Das Datum und die Uhrzeit, die die Sigete Das Format ist YYYYMMDDTHHMMSSZ, wobei YYYY=Jahr, MM=Monat, DD=Tag, HH=Stunde, MM=Minute, SS=Sekunden und 'T' und 'Z' feste Zeichen sind. Weitere Informationen finden Sie unter Umgang mit Datern.

  • x-amzn-transcribe-session-id: Der Name für deine Streaming-Sitzung.

  • x-amzn-transcribe-language-code: Die Kodierung, die für Ihr Eingangs-Audio verwendet wird. Eine Liste der gültigen Werte finden Sie unter StartMedicalStreamTranscriptionoderUnterstützte Sprachen und sprachspezifische Funktionen.

  • x-amzn-transcribe-media-encoding: Die Kodierung, die für Ihr Eingangs-Audio verwendet wird. Gültige Werte sind pcm, ogg-opus und flac.

  • x-amzn-transcribe-sample-rate: Die Samplerate des Eingangs-Audios (in Hertz). Amazon Transcribeunterstützt einen Bereich von 8.000 Hz bis 48.000 Hz. Audio von geringer Qualität, z. B. Telefonaudio, liegt in der Regel bei etwa 8.000 Hz. Die Audioqualität liegt in der Regel zwischen 16.000 Hz und 48.000 Hz. Beachten Sie, dass die von Ihnen angegebene Samplerate mit der Ihres Audios übereinstimmen muss.

  • x-amzn-transcribe-vocabulary-name: Der Name des Vokabulars, das Sie für Ihre Transkription verwenden möchten.

  • x-amzn-transcribe-specialty: Das medizinische Fachgebiet, das transkribiert wird.

  • x-amzn-transcribe-type: Wählen Sie aus, ob es sich um ein Diktat oder eine Konversation handelt.

  • x-amzn-transcribe-show-speaker-label: Um die Diarisierung zu aktivieren, muss dieser Wert seintrue.

  • Inhaltstyp: Verändern Sie dieses Feld nicht, sondern verwenden Sie den im vorherigen Beispiel gezeigten Inhalt.

Um Lautsprecher in WebSocket Streams mit der API zu partitionieren, verwenden Sie das folgende Format, um eine vorsignierte URI zum Starten einer WebSocket Anfragevocabulary-name zu erstellen und auf den Namen des benutzerdefinierten Vokabulars zu setzen.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=en-US &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=Signature Version 4 signature &X-Amz-SignedHeaders=host &media-encoding=flac &sample-rate=16000 &session-id=sessionId &specialty=medicalSpecialty &type=CONVERSATION &vocabulary-name=vocabularyName &show-speaker-label=boolean