Permettre le partitionnement des haut-parleurs dans les flux en temps réel - Amazon Transcribe

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Permettre le partitionnement des haut-parleurs dans les flux en temps réel

Pour partitionner les haut-parleurs et étiqueter leur discours dans un flux en temps réel, utilisez laAWS Management Console ou une requête de streaming. Le partitionnement des haut-parleurs fonctionne mieux pour deux à cinq haut-parleurs dans un flux. Bien queAmazon Transcribe Medical puisse partitionner plus de cinq haut-parleurs dans un flux, la précision des partitions diminue si vous dépassez ce nombre.

Pour démarrer une requête HTTP/2, utilisez l'StartMedicalStreamTranscriptionAPI. Pour lancer une WebSocket demande, utilisez un URI pré-signé. L'URI contient les informations nécessaires pour configurer une communication bidirectionnelle entre votre application etAmazon Transcribe Medical.

Vous pouvez utiliser leAWS Management Console pour démarrer une diffusion en temps réel d'une conversation entre le clinicien et le patient, ou une dictée prononcée dans votre microphone en temps réel.

  1. Connectez-vous à AWS Management Console.

  2. Dans le volet de navigation, pourAmazon Transcribe Médical, sélectionnez Transcription en temps réel.

  3. Dans Type d'entrée audio, choisissez le type de discours médical que vous souhaitez transcrire.

  4. Pour des paramètres supplémentaires, choisissez Partitionnement des haut-parleurs.

  5. Choisissez Démarrer la diffusion pour commencer à transcrire votre audio en temps réel.

  6. Parlez dans le micro.

Pour activer le partitionnement des haut-parleurs dans le flux HTTP/2 d'une conversation médicale, utilisez l'StartMedicalStreamTranscriptionAPI et spécifiez les informations suivantes :

  • PourLanguageCode, spécifiez le code de langue correspondant à la langue du flux. La valeur valide est en-US.

  • PourMediaSampleHertz, spécifiez la fréquence d'échantillonnage de l'audio.

  • PourSpecialty, précisez la spécialité médicale du prestataire.

  • ShowSpeakerLabeltrue

Pour plus d'informations sur la configuration d'un flux HTTP/2 pour transcrire une conversation médicale, consultezConfiguration d’un flux HTTP/2.

Pour partitionner les haut-parleurs en WebSocket flux à l'aide de l'API, utilisez le format suivant pour créer un URI pré-signé afin de démarrer une WebSocket demande et de leshow-speaker-label définir surtrue.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=languageCode &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=Signature Version 4 signature &X-Amz-SignedHeaders=host &media-encoding=flac &sample-rate=16000 &session-id=sessionId &specialty=medicalSpecialty &type=CONVERSATION &vocabulary-name=vocabularyName &show-speaker-label=boolean

Le code suivant montre l'exemple de réponse tronqué d'une demande de streaming.

{ "Transcript": { "Results": [ { "Alternatives": [ { "Items": [ { "Confidence": 0.97, "Content": "From", "EndTime": 18.98, "Speaker": "0", "StartTime": 18.74, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "the", "EndTime": 19.31, "Speaker": "0", "StartTime": 19, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "last", "EndTime": 19.86, "Speaker": "0", "StartTime": 19.32, "Type": "pronunciation", "VocabularyFilterMatch": false }, ... { "Confidence": 1, "Content": "chronic", "EndTime": 22.55, "Speaker": "0", "StartTime": 21.97, "Type": "pronunciation", "VocabularyFilterMatch": false }, ... "Confidence": 1, "Content": "fatigue", "EndTime": 24.42, "Speaker": "0", "StartTime": 23.95, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "EndTime": 25.22, "StartTime": 25.22, "Type": "speaker-change", "VocabularyFilterMatch": false }, { "Confidence": 0.99, "Content": "True", "EndTime": 25.63, "Speaker": "1", "StartTime": 25.22, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Content": ".", "EndTime": 25.63, "StartTime": 25.63, "Type": "punctuation", "VocabularyFilterMatch": false } ], "Transcript": "From the last note she still has mild sleep deprivation and chronic fatigue True." } ], "EndTime": 25.63, "IsPartial": false, "ResultId": "XXXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXX", "StartTime": 18.74 } ] } }

Amazon TranscribeMedical interrompt votre flux audio entrant en fonction de segments vocaux naturels, tels qu'un changement de haut-parleur ou une pause dans le son. La transcription est renvoyée progressivement à votre application, chaque réponse contenant plus de paroles transcrites que la précédente, jusqu'à la transcription de la totalité du segment. Le code précédent est un exemple tronqué de segment vocal entièrement transcrit. Les étiquettes des haut-parleurs apparaissent uniquement pour les segments entièrement transcrits.

La liste suivante montre l'organisation des objets et des paramètres dans une sortie de transcription en continu.

Transcript

Chaque segment vocal possède son propreTranscript objet.

Results

ChaqueTranscript objet possède son propreResults objet. Cet objet contient leisPartial champ. Lorsque sa valeur est égale àfalse, les résultats renvoyés concernent un segment vocal complet.

Alternatives

ChaqueResults objet possède unAlternatives objet.

Items

ChaqueAlternatives objet possède son propreItems objet qui contient des informations sur chaque mot et chaque signe de ponctuation dans la sortie de transcription. Lorsque vous activez le partitionnement des haut-parleurs, chaque mot possède uneSpeaker étiquette pour les segments vocaux entièrement transcrits. Amazon Transcribe Medical utilise cette étiquette pour attribuer un entier unique à chaque haut-parleur du flux. LeType paramètre ayant une valeur despeaker-change indique qu'une personne a cessé de parler et qu'une autre personne est sur le point de commencer.

Transcript

Chaque objet Items contient un segment vocal transcrit comme valeur duTranscript champ.

Pour plus d'informations sur WebSocket les demandes, consultezConfiguration d'un WebSocket stream.