Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Ermöglichung der Sprecherpartitionierung in Echtzeit-Streams
Verwenden Sie die AWS Management Console oder eine Streaming-Anfrage, um Sprecher zu partitionieren und ihre Sprache in einem Echtzeit-Stream zu kennzeichnen. Die Sprecherpartitionierung funktioniert am besten bei zwei bis fünf Sprechern in einem Stream. Amazon Transcribe Medical kann zwar mehr als fünf Sprecher in einem Stream partitionieren, aber die Genauigkeit der Partitionen nimmt ab, wenn Sie diese Anzahl überschreiten.
Um eine HTTP/2-Anfrage zu starten, verwenden Sie die StartMedicalStreamTranscription
-API. Verwenden Sie eine vorsignierte URI, um eine WebSocket Anfrage zu starten. Der URI enthält die Informationen, die für die Einrichtung der bidirektionalen Kommunikation zwischen Ihrer Anwendung und Amazon Transcribe -Medical erforderlich sind.
Sie können den verwenden AWS Management Console , um einen Echtzeit-Stream eines Gesprächs zwischen Arzt und Patient oder ein Diktat zu starten, das in Echtzeit in Ihr Mikrofon gesprochen wird.
-
Melden Sie sich an der AWS Management Console
an. -
Wählen Sie im Navigationsbereich für Amazon Transcribe Medizin die Option Echtzeit-Transkription aus.
-
Wählen Sie unter Typ der Audioeingabe die Art der medizinischen Sprache, die Sie transkribieren möchten.
-
Wählen Sie unter Zusätzliche Einstellungen die Option Sprecherpartitionierung.
-
Wählen Sie Streaming starten , um mit der Transkription Ihres Echtzeit-Audios zu beginnen.
-
Sprechen Sie in das Mikrofon.
Um die Sprecherpartitionierung in einem HTTP/2-Stream eines medizinischen Gesprächs zu aktivieren, verwenden Sie die StartMedicalStreamTranscription
-API und geben Sie Folgendes an:
-
Geben Sie unter
LanguageCode
den Sprachencode an, der der Sprache im Stream entspricht. Der gültige Wert lauteten-US
. -
Unter
MediaSampleHertz
geben Sie die Samplerate des Tons an. -
Unter
Specialty
ist das medizinische Fachgebiet des Arztes anzugeben. -
ShowSpeakerLabel
–true
Weitere Informationen zum Einrichten eines HTTP/2-Streams zur Transkription eines medizinischen Gesprächs finden Sie unter Einrichten eines HTTP/2-Streams.
Um Lautsprecher mit der API in WebSocket Streams zu partitionieren, verwenden Sie das folgende Format, um eine vorsignierte URI zu erstellen, um eine WebSocket Anfrage zu starten, und setzen Sie show-speaker-label
auf. true
GET wss://transcribestreaming.
us-west-2
.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=languageCode
&X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE
%2F20220208
%2Fus-west-2
%2Ftranscribe
%2Faws4_request &X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=Signature Version 4 signature
&X-Amz-SignedHeaders=host &media-encoding=flac
&sample-rate=16000
&session-id=sessionId
&specialty=medicalSpecialty
&type=CONVERSATION
&vocabulary-name=vocabularyName
&show-speaker-label=boolean
Der folgende Code zeigt die verkürzte Beispielantwort auf eine Streaming-Anfrage.
{ "Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Confidence": 0.97, "Content": "From", "EndTime": 18.98, "Speaker": "0", "StartTime": 18.74, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "the", "EndTime": 19.31, "Speaker": "0", "StartTime": 19, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "last", "EndTime": 19.86, "Speaker": "0", "StartTime": 19.32, "Type": "pronunciation", "VocabularyFilterMatch": false },
...
{ "Confidence": 1, "Content": "chronic", "EndTime": 22.55, "Speaker": "0", "StartTime": 21.97, "Type": "pronunciation", "VocabularyFilterMatch": false },...
"Confidence": 1, "Content": "fatigue", "EndTime": 24.42, "Speaker": "0", "StartTime": 23.95, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "EndTime": 25.22, "StartTime": 25.22, "Type": "speaker-change", "VocabularyFilterMatch": false }, { "Confidence": 0.99, "Content": "True", "EndTime": 25.63, "Speaker": "1", "StartTime": 25.22, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": ".", "EndTime": 25.63, "StartTime": 25.63, "Type": "punctuation", "VocabularyFilterMatch": false } ], "Transcript": "From the last note she still has mild sleep deprivation and chronic fatigue True." } ], "EndTime": 25.63, "IsPartial": false, "ResultId": "XXXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXX", "StartTime": 18.74 } ] } }
Amazon Transcribe Medical unterbricht Ihren eingehenden Audiostream auf der Grundlage natürlicher Sprachsegmente, z. B. eines Sprecherwechsels oder einer Audiopause. Die Transkription wird progressiv an Ihre Anwendung zurückgegeben, wobei jede Antwort mehr transkribierte Sprachausgabe enthält, bis das gesamte Segment transkribiert ist. Der vorstehende Code ist ein verkürztes Beispiel für ein vollständig transkribiertes Sprachsegment. Sprecherbeschriftungen erscheinen nur für vollständig transkribierte Segmente.
Die folgende Liste zeigt die Organisation der Objekte und Parameter in einer Streaming-Transkriptionsausgabe.
Transcript
-
Jedes Sprachsegment hat sein eigenes
Transcript
-Objekt. Results
-
Jedes
Transcript
-Objekt hat sein eigenesResults
-Objekt. Dieses Objekt enthält das FeldisPartial
. Wenn der Wertfalse
ist, werden die Ergebnisse für ein ganzes Sprachsegment zurückgegeben. Alternatives
-
Zu jedem
Results
-Objekt gehört einAlternatives
-Objekt. Items
-
Jedes
Alternatives
-Objekt hat sein eigenesItems
-Objekt, das Informationen über jedes Wort und Satzzeichen in der Transkriptionsausgabe enthält. Wenn Sie die Sprecherpartitionierung aktivieren, hat jedes Wort eineSpeaker
Bezeichnung für vollständig transkribierte Sprachsegmente. Amazon Transcribe Medical verwendet diese Bezeichnung, um jedem Sprecher im Stream eine eindeutige Ganzzahl zuzuweisen. Der ParameterType
mit dem Wertspeaker-change
zeigt an, dass eine Person aufgehört hat zu sprechen und dass eine andere Person beginnen wird. Transcript
-
Jedes Item-Objekt enthält ein transkribiertes Sprachsegment als Wert des Feldes
Transcript
.
Weitere Informationen zu WebSocket Anfragen finden Sie unterEinen WebSocket Stream einrichten.