Aktivieren der Lautsprecherpartitionierung in Echtzeit-Streams - Amazon Transcribe

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Aktivieren der Lautsprecherpartitionierung in Echtzeit-Streams

Verwenden Sie dieAWS Management Console oder eine Streaming-Anfrage, um Lautsprecher zu partitionieren und ihre Sprache in einem Echtzeit-Stream zu kennzeichnen. Die Lautsprecherpartitionierung funktioniert am besten für zwei bis fünf Lautsprecher in einem Stream. Amazon TranscribeMedical kann zwar mehr als fünf Lautsprecher in einem Stream partitionieren, aber die Genauigkeit der Partitionen nimmt ab, wenn Sie diese Anzahl überschreiten.

Verwenden Sie die StartMedicalStreamTranscriptionAPI, um eine HTTP/2-Anfrage zu starten. Verwenden Sie eine vorsignierte URI, um eine WebSocket Anfrage zu starten. Die URI enthält die erforderlichen Informationen, um die bidirektionale Kommunikation zwischen Ihrer Anwendung undAmazon Transcribe Medical herzustellen.

Sie können den verwendenAWS Management Console, um einen Echtzeit-Stream eines Gesprächs zwischen Arzt und Patient oder ein Diktat zu starten, das in Echtzeit in Ihr Mikrofon gesprochen wird.

  1. Melden Sie sich an der AWS Management Console an.

  2. Wählen Sie im Navigationsbereich fürAmazon Transcribe Medical die Option Echtzeit-Transkription aus.

  3. Wählen Sie unter Audioeingabetyp die Art der medizinischen Sprache aus, die Sie transkribieren möchten.

  4. Wählen Sie für Zusätzliche Einstellungen die Option Lautsprecherpartitionierung.

  5. Wählen Sie Streaming starten, um mit der Transkription Ihres Echtzeit-Audios zu beginnen.

  6. Sprich in das Mikrofon.

Verwenden Sie die StartMedicalStreamTranscriptionAPI und geben Sie Folgendes an, um die Partitionierung von Lautsprechern in einem HTTP/2-Stream einer medizinischen Konversation zu aktivieren:

  • Geben Sie fürLanguageCode den Sprachcode an, der der Sprache im Stream entspricht. Der gültige Wert lautet en-US.

  • Geben Sie fürMediaSampleHertz die Samplerate des Audios an.

  • Geben Sie fürSpecialty das medizinische Fachgebiet des Anbieters an.

  • ShowSpeakerLabeltrue

Weitere Informationen zum Einrichten eines HTTP/2-Streams zur Transkription eines medizinischen Gesprächs finden Sie unterEinrichten eines HTTP/2-Streams.

Um Lautsprecher in WebSocket Streams mit der API zu partitionieren, verwenden Sie das folgende Format, um eine vorsignierte URI zum Starten einer WebSocket Anfrageshow-speaker-label zu erstellen und auf festzulegentrue.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=languageCode &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=Signature Version 4 signature &X-Amz-SignedHeaders=host &media-encoding=flac &sample-rate=16000 &session-id=sessionId &specialty=medicalSpecialty &type=CONVERSATION &vocabulary-name=vocabularyName &show-speaker-label=boolean

Der folgende Code zeigt die verkürzte Beispielantwort einer Streaming-Anfrage.

{ "Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Confidence": 0.97, "Content": "From", "EndTime": 18.98, "Speaker": "0", "StartTime": 18.74, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "the", "EndTime": 19.31, "Speaker": "0", "StartTime": 19, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "last", "EndTime": 19.86, "Speaker": "0", "StartTime": 19.32, "Type": "pronunciation", "VocabularyFilterMatch": false }, ... { "Confidence": 1, "Content": "chronic", "EndTime": 22.55, "Speaker": "0", "StartTime": 21.97, "Type": "pronunciation", "VocabularyFilterMatch": false }, ... "Confidence": 1, "Content": "fatigue", "EndTime": 24.42, "Speaker": "0", "StartTime": 23.95, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "EndTime": 25.22, "StartTime": 25.22, "Type": "speaker-change", "VocabularyFilterMatch": false }, { "Confidence": 0.99, "Content": "True", "EndTime": 25.63, "Speaker": "1", "StartTime": 25.22, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": ".", "EndTime": 25.63, "StartTime": 25.63, "Type": "punctuation", "VocabularyFilterMatch": false } ], "Transcript": "From the last note she still has mild sleep deprivation and chronic fatigue True." } ], "EndTime": 25.63, "IsPartial": false, "ResultId": "XXXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXX", "StartTime": 18.74 } ] } }

Amazon TranscribeMedical unterbricht Ihren eingehenden Audiostream auf der Grundlage natürlicher Sprachsegmente, z. B. eines Sprecherwechsels oder einer Audiopause. Die Transkription wird progressiv an Ihre Anwendung zurückgegeben, wobei jede Antwort mehr transkribierte Sprachausgabe enthält, bis das gesamte Segment transkribiert ist. Der vorherige Code ist ein verkürztes Beispiel für ein vollständig transkribiertes Sprachsegment. Lautsprecherbeschriftungen werden nur für vollständig transkribierte Segmente angezeigt.

Die folgende Liste zeigt die Organisation der Objekte und Parameter in einer Streaming-Transkriptionsausgabe.

Transcript

Jedes Sprachsegment hat sein eigenesTranscript Objekt.

Results

JedesTranscript Objekt hat sein eigenesResults Objekt. Dieses Objekt enthält dasisPartial Feld. Wenn der Wert 0 istfalse, beziehen sich die zurückgegebenen Ergebnisse auf ein ganzes Sprachsegment.

Alternatives

JedesResults Objekt hat einAlternatives Objekt.

Items

JedesAlternatives Objekt hat sein eigenesItems Objekt, das Informationen zu jedem Wort und jedem Satzzeichen in der Transkriptionsausgabe enthält. Wenn Sie die Lautsprecherpartitionierung aktivieren, hat jedes Wort eineSpeaker Bezeichnung für vollständig transkribierte Sprachsegmente. Amazon Transcribe Medical verwendet dieses Label, um jedem Sprecher im Stream eine eindeutige Ganzzahl zuzuweisen. DerType Parameter mit dem Wert vonspeaker-change gibt an, dass eine Person aufgehört hat zu sprechen und dass eine andere Person im Begriff ist, zu sprechen.

Transcript

Jedes Items-Objekt enthält ein transkribiertes Sprachsegment als Wert desTranscript Felds.

Weitere Informationen zu WebSocket Anfragen finden Sie unterEinen WebSocket Stream einrichten.