Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Permettre le partitionnement des haut-parleurs dans les flux en temps réel
Pour partitionner les haut-parleurs et étiqueter leur discours dans un flux en temps réel, utilisez laAWS Management Console ou une requête de streaming. Le partitionnement des haut-parleurs fonctionne mieux pour deux à cinq haut-parleurs dans un flux. Bien queAmazon Transcribe Medical puisse partitionner plus de cinq haut-parleurs dans un flux, la précision des partitions diminue si vous dépassez ce nombre.
Pour démarrer une requête HTTP/2, utilisez l'StartMedicalStreamTranscription
API. Pour lancer une WebSocket demande, utilisez un URI pré-signé. L'URI contient les informations nécessaires pour configurer une communication bidirectionnelle entre votre application etAmazon Transcribe Medical.
Vous pouvez utiliser leAWS Management Console pour démarrer une diffusion en temps réel d'une conversation entre le clinicien et le patient, ou une dictée prononcée dans votre microphone en temps réel.
-
Connectez-vous à AWS Management Console
. -
Dans le volet de navigation, pourAmazon Transcribe Médical, sélectionnez Transcription en temps réel.
-
Dans Type d'entrée audio, choisissez le type de discours médical que vous souhaitez transcrire.
-
Pour des paramètres supplémentaires, choisissez Partitionnement des haut-parleurs.
-
Choisissez Démarrer la diffusion pour commencer à transcrire votre audio en temps réel.
-
Parlez dans le micro.
Pour activer le partitionnement des haut-parleurs dans le flux HTTP/2 d'une conversation médicale, utilisez l'StartMedicalStreamTranscription
API et spécifiez les informations suivantes :
-
Pour
LanguageCode
, spécifiez le code de langue correspondant à la langue du flux. La valeur valide esten-US
. -
Pour
MediaSampleHertz
, spécifiez la fréquence d'échantillonnage de l'audio. -
Pour
Specialty
, précisez la spécialité médicale du prestataire. -
ShowSpeakerLabel
–true
Pour plus d'informations sur la configuration d'un flux HTTP/2 pour transcrire une conversation médicale, consultezConfiguration d’un flux HTTP/2.
Pour partitionner les haut-parleurs en WebSocket flux à l'aide de l'API, utilisez le format suivant pour créer un URI pré-signé afin de démarrer une WebSocket demande et de leshow-speaker-label
définir surtrue
.
GET wss://transcribestreaming.
us-west-2
.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=languageCode
&X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE
%2F20220208
%2Fus-west-2
%2Ftranscribe
%2Faws4_request &X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=Signature Version 4 signature
&X-Amz-SignedHeaders=host &media-encoding=flac
&sample-rate=16000
&session-id=sessionId
&specialty=medicalSpecialty
&type=CONVERSATION
&vocabulary-name=vocabularyName
&show-speaker-label=boolean
Le code suivant montre l'exemple de réponse tronqué d'une demande de streaming.
{ "Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Confidence": 0.97, "Content": "From", "EndTime": 18.98, "Speaker": "0", "StartTime": 18.74, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "the", "EndTime": 19.31, "Speaker": "0", "StartTime": 19, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "last", "EndTime": 19.86, "Speaker": "0", "StartTime": 19.32, "Type": "pronunciation", "VocabularyFilterMatch": false },
...
{ "Confidence": 1, "Content": "chronic", "EndTime": 22.55, "Speaker": "0", "StartTime": 21.97, "Type": "pronunciation", "VocabularyFilterMatch": false },...
"Confidence": 1, "Content": "fatigue", "EndTime": 24.42, "Speaker": "0", "StartTime": 23.95, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "EndTime": 25.22, "StartTime": 25.22, "Type": "speaker-change", "VocabularyFilterMatch": false }, { "Confidence": 0.99, "Content": "True", "EndTime": 25.63, "Speaker": "1", "StartTime": 25.22, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": ".", "EndTime": 25.63, "StartTime": 25.63, "Type": "punctuation", "VocabularyFilterMatch": false } ], "Transcript": "From the last note she still has mild sleep deprivation and chronic fatigue True." } ], "EndTime": 25.63, "IsPartial": false, "ResultId": "XXXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXX", "StartTime": 18.74 } ] } }
Amazon TranscribeMedical interrompt votre flux audio entrant en fonction de segments vocaux naturels, tels qu'un changement de haut-parleur ou une pause dans le son. La transcription est renvoyée progressivement à votre application, chaque réponse contenant plus de paroles transcrites que la précédente, jusqu'à la transcription de la totalité du segment. Le code précédent est un exemple tronqué de segment vocal entièrement transcrit. Les étiquettes des haut-parleurs apparaissent uniquement pour les segments entièrement transcrits.
La liste suivante montre l'organisation des objets et des paramètres dans une sortie de transcription en continu.
Transcript
-
Chaque segment vocal possède son propre
Transcript
objet. Results
-
Chaque
Transcript
objet possède son propreResults
objet. Cet objet contient leisPartial
champ. Lorsque sa valeur est égale àfalse
, les résultats renvoyés concernent un segment vocal complet. Alternatives
-
Chaque
Results
objet possède unAlternatives
objet. Items
-
Chaque
Alternatives
objet possède son propreItems
objet qui contient des informations sur chaque mot et chaque signe de ponctuation dans la sortie de transcription. Lorsque vous activez le partitionnement des haut-parleurs, chaque mot possède uneSpeaker
étiquette pour les segments vocaux entièrement transcrits. Amazon Transcribe Medical utilise cette étiquette pour attribuer un entier unique à chaque haut-parleur du flux. LeType
paramètre ayant une valeur despeaker-change
indique qu'une personne a cessé de parler et qu'une autre personne est sur le point de commencer. Transcript
-
Chaque objet Items contient un segment vocal transcrit comme valeur du
Transcript
champ.
Pour plus d'informations sur WebSocket les demandes, consultezConfiguration d'un WebSocket stream.