Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Aktivieren der Lautsprecherpartitionierung in Echtzeit-Streams
Verwenden Sie dieAWS Management Console oder eine Streaming-Anfrage, um Lautsprecher zu partitionieren und ihre Sprache in einem Echtzeit-Stream zu kennzeichnen. Die Lautsprecherpartitionierung funktioniert am besten für zwei bis fünf Lautsprecher in einem Stream. Amazon TranscribeMedical kann zwar mehr als fünf Lautsprecher in einem Stream partitionieren, aber die Genauigkeit der Partitionen nimmt ab, wenn Sie diese Anzahl überschreiten.
Verwenden Sie die StartMedicalStreamTranscription
API, um eine HTTP/2-Anfrage zu starten. Verwenden Sie eine vorsignierte URI, um eine WebSocket Anfrage zu starten. Die URI enthält die erforderlichen Informationen, um die bidirektionale Kommunikation zwischen Ihrer Anwendung undAmazon Transcribe Medical herzustellen.
Sie können den verwendenAWS Management Console, um einen Echtzeit-Stream eines Gesprächs zwischen Arzt und Patient oder ein Diktat zu starten, das in Echtzeit in Ihr Mikrofon gesprochen wird.
-
Melden Sie sich an der AWS Management Console
an. -
Wählen Sie im Navigationsbereich fürAmazon Transcribe Medical die Option Echtzeit-Transkription aus.
-
Wählen Sie unter Audioeingabetyp die Art der medizinischen Sprache aus, die Sie transkribieren möchten.
-
Wählen Sie für Zusätzliche Einstellungen die Option Lautsprecherpartitionierung.
-
Wählen Sie Streaming starten, um mit der Transkription Ihres Echtzeit-Audios zu beginnen.
-
Sprich in das Mikrofon.
Verwenden Sie die StartMedicalStreamTranscription
API und geben Sie Folgendes an, um die Partitionierung von Lautsprechern in einem HTTP/2-Stream einer medizinischen Konversation zu aktivieren:
-
Geben Sie für
LanguageCode
den Sprachcode an, der der Sprache im Stream entspricht. Der gültige Wert lauteten-US
. -
Geben Sie für
MediaSampleHertz
die Samplerate des Audios an. -
Geben Sie für
Specialty
das medizinische Fachgebiet des Anbieters an. -
ShowSpeakerLabel
–true
Weitere Informationen zum Einrichten eines HTTP/2-Streams zur Transkription eines medizinischen Gesprächs finden Sie unterEinrichten eines HTTP/2-Streams.
Um Lautsprecher in WebSocket Streams mit der API zu partitionieren, verwenden Sie das folgende Format, um eine vorsignierte URI zum Starten einer WebSocket Anfrageshow-speaker-label
zu erstellen und auf festzulegentrue
.
GET wss://transcribestreaming.
us-west-2
.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=languageCode
&X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE
%2F20220208
%2Fus-west-2
%2Ftranscribe
%2Faws4_request &X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=Signature Version 4 signature
&X-Amz-SignedHeaders=host &media-encoding=flac
&sample-rate=16000
&session-id=sessionId
&specialty=medicalSpecialty
&type=CONVERSATION
&vocabulary-name=vocabularyName
&show-speaker-label=boolean
Der folgende Code zeigt die verkürzte Beispielantwort einer Streaming-Anfrage.
{ "Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Confidence": 0.97, "Content": "From", "EndTime": 18.98, "Speaker": "0", "StartTime": 18.74, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "the", "EndTime": 19.31, "Speaker": "0", "StartTime": 19, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "last", "EndTime": 19.86, "Speaker": "0", "StartTime": 19.32, "Type": "pronunciation", "VocabularyFilterMatch": false },
...
{ "Confidence": 1, "Content": "chronic", "EndTime": 22.55, "Speaker": "0", "StartTime": 21.97, "Type": "pronunciation", "VocabularyFilterMatch": false },...
"Confidence": 1, "Content": "fatigue", "EndTime": 24.42, "Speaker": "0", "StartTime": 23.95, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "EndTime": 25.22, "StartTime": 25.22, "Type": "speaker-change", "VocabularyFilterMatch": false }, { "Confidence": 0.99, "Content": "True", "EndTime": 25.63, "Speaker": "1", "StartTime": 25.22, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": ".", "EndTime": 25.63, "StartTime": 25.63, "Type": "punctuation", "VocabularyFilterMatch": false } ], "Transcript": "From the last note she still has mild sleep deprivation and chronic fatigue True." } ], "EndTime": 25.63, "IsPartial": false, "ResultId": "XXXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXX", "StartTime": 18.74 } ] } }
Amazon TranscribeMedical unterbricht Ihren eingehenden Audiostream auf der Grundlage natürlicher Sprachsegmente, z. B. eines Sprecherwechsels oder einer Audiopause. Die Transkription wird progressiv an Ihre Anwendung zurückgegeben, wobei jede Antwort mehr transkribierte Sprachausgabe enthält, bis das gesamte Segment transkribiert ist. Der vorherige Code ist ein verkürztes Beispiel für ein vollständig transkribiertes Sprachsegment. Lautsprecherbeschriftungen werden nur für vollständig transkribierte Segmente angezeigt.
Die folgende Liste zeigt die Organisation der Objekte und Parameter in einer Streaming-Transkriptionsausgabe.
Transcript
-
Jedes Sprachsegment hat sein eigenes
Transcript
Objekt. Results
-
Jedes
Transcript
Objekt hat sein eigenesResults
Objekt. Dieses Objekt enthält dasisPartial
Feld. Wenn der Wert 0 istfalse
, beziehen sich die zurückgegebenen Ergebnisse auf ein ganzes Sprachsegment. Alternatives
-
Jedes
Results
Objekt hat einAlternatives
Objekt. Items
-
Jedes
Alternatives
Objekt hat sein eigenesItems
Objekt, das Informationen zu jedem Wort und jedem Satzzeichen in der Transkriptionsausgabe enthält. Wenn Sie die Lautsprecherpartitionierung aktivieren, hat jedes Wort eineSpeaker
Bezeichnung für vollständig transkribierte Sprachsegmente. Amazon Transcribe Medical verwendet dieses Label, um jedem Sprecher im Stream eine eindeutige Ganzzahl zuzuweisen. DerType
Parameter mit dem Wert vonspeaker-change
gibt an, dass eine Person aufgehört hat zu sprechen und dass eine andere Person im Begriff ist, zu sprechen. Transcript
-
Jedes Items-Objekt enthält ein transkribiertes Sprachsegment als Wert des
Transcript
Felds.
Weitere Informationen zu WebSocket Anfragen finden Sie unterEinen WebSocket Stream einrichten.