医療用カスタム語彙を使用してリアルタイムストリームを文字起こし

リアルタイムストリームで文字起こしの精度を向上させるために、HTTP/2 ストリームまたは WebSocket ストリームを使用してカスタム語彙を使用できます。HTTP/2 リクエストを開始する場合、StartMedicalStreamTranscription API を使用します。カスタム語彙は、、 StartMedicalStreamTranscription API AWS Management Console、または WebSocket プロトコルを使用してリアルタイムで使用できます。

を使用してメディカルディクテーションのストリーミング音声を AWS Management Console 書き起こすには、メディカルディクテーションを書き起こし、ストリームを開始し、マイクに向かって話し始めるオプションを選択します。

メディカルディクテーションの音声ストリームの書き起こし (AWS Management Console)

AWS Management Consoleにサインインします。
ナビゲーションペインの Amazon Transcribe Medical で、リアルタイム文字起こしを選択します。
医療専門分野の場合、ストリームで話す臨床医の専門分野を選択します。
音声入力タイプ の場合、会話または ディクテーション のいずれかを選択します。
追加設定の場合、カスタム語彙 を選択します。
1. 語彙選択で、カスタム語彙を選択します。
[ストリーミングの開始] を選択します。
マイクに向かって話してください。

HTTP/2 リクエストのパラメータのための構文を次に示します。


POST /medical-stream-transcription HTTP/2
host: transcribestreaming.us-west-2.amazonaws.com
authorization: Generated value
x-amz-target: com.amazonaws.transcribe.Transcribe.StartMedicalStreamTranscription
x-amz-content-sha256: STREAMING-MED-AWS4-HMAC-SHA256-EVENTS
x-amz-date: 20220208T235959Z
x-amzn-transcribe-session-id: my-first-http2-med-stream
x-amzn-transcribe-language-code: en-US
x-amzn-transcribe-media-encoding: flac
x-amzn-transcribe-sample-rate: 16000
x-amzn-transcribe-vocabulary-name: my-first-med-vocab
x-amzn-transcribe-specialty: PRIMARYCARE
x-amzn-transcribe-type: CONVERSATION
x-amzn-transcribe-show-speaker-label: true
Content-type: application/vnd.amazon.eventstream
transfer-encoding: chunked

パラメータの説明

host: (前の例の AWS リージョン「us-west-2」) を呼び出しているで更新 AWS リージョンします。有効なのリストについては AWS リージョン、AWS リージョン「」および「エンドポイント」を参照してください。
authorization: これは生成されたフィールドです。署名の作成の詳細については、「署名バージョン 4 を使用した AWS リクエストの署名」を参照してください。
x-amz-target: このフィールドは変更しないでください。前の例で示した内容を使用してください。
x-amz-content-sha256: これは生成されたフィールドです。署名の計算の詳細については、「署名バージョン 4 を使用した AWS リクエストの署名」を参照してください。
x-amz-date: 署名が作成された日時。形式は YYYYMMDDTHHMMSSZ で、YYY = 年、MM = 月、DD = 日、HH = 時間、MM = 分、SS = 秒、「T」と「Z」は固定文字です。詳細については、「署名バージョン 4 で日付を扱う」を参照してください。
x-amzn-transcribe-session-id: ストリーミングセッションの名前。
x-amzn-transcribe-media-encoding: 入力音声に使用されるエンコード。有効な値のリストについては、「StartMedicalStreamTranscription」または「サポートされている言語および言語固有の機能」を参照してください。
x-amzn-transcribe-media-encoding: 入力音声に使用されるエンコード。有効な値は、pcm、ogg-opus、flac です。
x-amzn-transcribe-sample-rate: 入力オーディオのサンプルレート (ヘルツ単位）。は 8,000 Hz ～ 48,000 Hz の範囲 Amazon Transcribe をサポートします。電話音声などの低品質音声は、通常 8,000 Hz 前後です。高品質の音声は、通常 16,000 Hz から 48,000 Hz の範囲です。指定するサンプルレートは音声のサンプルレートと一致する必要があることに注意してください。
x-amzn-transcribe-vocabulary-name: 文字起こしに使用したいボキャブラリーの名前。
x-amzn-transcribe-specialty: 文字起こしの対象となる医療専門分野。
x-amzn-transcribe-type: ディクテーションにするか会話にするかを選択します。
x-amzn-transcribe-show-speaker-label: ダイアライゼーションを有効にするには、この値が true でなければなりません。
content-type: このフィールドは変更しないでください。前の例で示した内容を使用してください。

API による WebSocket ストリーム内のスピーカーをパーティション化する場合、次の形式を使用して WebSocket リクエストをスタートするための署名付き URL を作成し、vocabulary-name をカスタム語彙の名前に特定します。


GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket
?language-code=en-US
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=Signature Version 4 signature 
&X-Amz-SignedHeaders=host
&media-encoding=flac
&sample-rate=16000
&session-id=sessionId
&specialty=medicalSpecialty
&type=CONVERSATION
&vocabulary-name=vocabularyName
&show-speaker-label=boolean

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

医療用カスタム語彙を使用した音声ファイルの文字起こし

Amazon Transcribe Medical の文字セット