Ermöglichung der Sprecherpartitionierung in Echtzeit-Streams - Amazon Transcribe

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ermöglichung der Sprecherpartitionierung in Echtzeit-Streams

Verwenden Sie die AWS Management Console oder eine Streaming-Anfrage, um Sprecher zu partitionieren und ihre Sprache in einem Echtzeit-Stream zu kennzeichnen. Die Sprecherpartitionierung funktioniert am besten bei zwei bis fünf Sprechern in einem Stream. Amazon Transcribe Medical kann zwar mehr als fünf Sprecher in einem Stream partitionieren, aber die Genauigkeit der Partitionen nimmt ab, wenn Sie diese Anzahl überschreiten.

Um eine HTTP/2-Anfrage zu starten, verwenden Sie die StartMedicalStreamTranscription-API. Verwenden Sie eine vorsignierte URI, um eine WebSocket Anfrage zu starten. Der URI enthält die Informationen, die für die Einrichtung der bidirektionalen Kommunikation zwischen Ihrer Anwendung und Amazon Transcribe -Medical erforderlich sind.

Sie können den verwenden AWS Management Console , um einen Echtzeit-Stream eines Gesprächs zwischen Arzt und Patient oder ein Diktat zu starten, das in Echtzeit in Ihr Mikrofon gesprochen wird.

  1. Melden Sie sich an der AWS Management Console an.

  2. Wählen Sie im Navigationsbereich für Amazon Transcribe Medizin die Option Echtzeit-Transkription aus.

  3. Wählen Sie unter Typ der Audioeingabe die Art der medizinischen Sprache, die Sie transkribieren möchten.

  4. Wählen Sie unter Zusätzliche Einstellungen die Option Sprecherpartitionierung.

  5. Wählen Sie Streaming starten , um mit der Transkription Ihres Echtzeit-Audios zu beginnen.

  6. Sprechen Sie in das Mikrofon.

Um die Sprecherpartitionierung in einem HTTP/2-Stream eines medizinischen Gesprächs zu aktivieren, verwenden Sie die StartMedicalStreamTranscription-API und geben Sie Folgendes an:

  • Geben Sie unter LanguageCode den Sprachencode an, der der Sprache im Stream entspricht. Der gültige Wert lautet en-US.

  • Unter MediaSampleHertz geben Sie die Samplerate des Tons an.

  • Unter Specialtyist das medizinische Fachgebiet des Arztes anzugeben.

  • ShowSpeakerLabeltrue

Weitere Informationen zum Einrichten eines HTTP/2-Streams zur Transkription eines medizinischen Gesprächs finden Sie unter Einrichten eines HTTP/2-Streams.

Um Lautsprecher mit der API in WebSocket Streams zu partitionieren, verwenden Sie das folgende Format, um eine vorsignierte URI zu erstellen, um eine WebSocket Anfrage zu starten, und setzen Sie show-speaker-label auf. true

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=languageCode &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=Signature Version 4 signature &X-Amz-SignedHeaders=host &media-encoding=flac &sample-rate=16000 &session-id=sessionId &specialty=medicalSpecialty &type=CONVERSATION &vocabulary-name=vocabularyName &show-speaker-label=boolean

Der folgende Code zeigt die verkürzte Beispielantwort auf eine Streaming-Anfrage.

{ "Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Confidence": 0.97, "Content": "From", "EndTime": 18.98, "Speaker": "0", "StartTime": 18.74, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "the", "EndTime": 19.31, "Speaker": "0", "StartTime": 19, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "last", "EndTime": 19.86, "Speaker": "0", "StartTime": 19.32, "Type": "pronunciation", "VocabularyFilterMatch": false }, ... { "Confidence": 1, "Content": "chronic", "EndTime": 22.55, "Speaker": "0", "StartTime": 21.97, "Type": "pronunciation", "VocabularyFilterMatch": false }, ... "Confidence": 1, "Content": "fatigue", "EndTime": 24.42, "Speaker": "0", "StartTime": 23.95, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "EndTime": 25.22, "StartTime": 25.22, "Type": "speaker-change", "VocabularyFilterMatch": false }, { "Confidence": 0.99, "Content": "True", "EndTime": 25.63, "Speaker": "1", "StartTime": 25.22, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": ".", "EndTime": 25.63, "StartTime": 25.63, "Type": "punctuation", "VocabularyFilterMatch": false } ], "Transcript": "From the last note she still has mild sleep deprivation and chronic fatigue True." } ], "EndTime": 25.63, "IsPartial": false, "ResultId": "XXXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXX", "StartTime": 18.74 } ] } }

Amazon Transcribe Medical unterbricht Ihren eingehenden Audiostream auf der Grundlage natürlicher Sprachsegmente, z. B. eines Sprecherwechsels oder einer Audiopause. Die Transkription wird progressiv an Ihre Anwendung zurückgegeben, wobei jede Antwort mehr transkribierte Sprachausgabe enthält, bis das gesamte Segment transkribiert ist. Der vorstehende Code ist ein verkürztes Beispiel für ein vollständig transkribiertes Sprachsegment. Sprecherbeschriftungen erscheinen nur für vollständig transkribierte Segmente.

Die folgende Liste zeigt die Organisation der Objekte und Parameter in einer Streaming-Transkriptionsausgabe.

Transcript

Jedes Sprachsegment hat sein eigenes Transcript-Objekt.

Results

Jedes Transcript-Objekt hat sein eigenes Results-Objekt. Dieses Objekt enthält das Feld isPartial. Wenn der Wert false ist, werden die Ergebnisse für ein ganzes Sprachsegment zurückgegeben.

Alternatives

Zu jedem Results-Objekt gehört ein Alternatives-Objekt.

Items

Jedes Alternatives-Objekt hat sein eigenes Items-Objekt, das Informationen über jedes Wort und Satzzeichen in der Transkriptionsausgabe enthält. Wenn Sie die Sprecherpartitionierung aktivieren, hat jedes Wort eine Speaker Bezeichnung für vollständig transkribierte Sprachsegmente. Amazon Transcribe Medical verwendet diese Bezeichnung, um jedem Sprecher im Stream eine eindeutige Ganzzahl zuzuweisen. Der Parameter Type mit dem Wert speaker-change zeigt an, dass eine Person aufgehört hat zu sprechen und dass eine andere Person beginnen wird.

Transcript

Jedes Item-Objekt enthält ein transkribiertes Sprachsegment als Wert des Feldes Transcript .

Weitere Informationen zu WebSocket Anfragen finden Sie unterEinen WebSocket Stream einrichten.