データ入力との出力 - Amazon Transcribe

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データ入力との出力

Amazon TranscribeAmazon S3オーディオデータをバケットまたはメディアストリーム内のメディアファイルとして取得し、テキストデータに変換します。

Amazon S3バケットに保存されているメディアファイルを文字起こしする場合は、バッチ文字起こしを実行することになります。メディアストリームを文字起こしする場合は、ストリーミング文字起こしを実行することになります。これら 2 つのプロセスには、異なるルールと要件があります。

バッチ文字起こしでは、Job キューイングすべての文字起こしジョブを同時に処理する必要がない場合に使用できます。これによりAmazon Transcribe、トランスクリプションジョブを追跡し、スロットが使用可能になったときに処理することができます。

注記

Amazon Transcribe分析モデルの品質を継続的に向上させるため、コンテンツを一時的に保存する場合があります。詳細については、Amazon Transcribeよくある質問を参照してください。Media Media コンテンツの削除をリクエストするにはAmazon Transcribe、でケースを開いてくださいAWS Support

メディア形式

サポートされるメディアタイプは、バッチトランスクリプションとストリーミングトランスクリプションで異なりますが、どちらにもロスレスフォーマットが推奨されます。詳細については、次の表を参照してください。

バッチ

ストリーミング

サポートされる形式

  • アーム

  • FLAC

  • M4A

  • MP3

  • MP4

  • Ogg

  • WebM

  • WAV

  • FLAC

  • オッグ・オーパス

  • PCM エンコード

推奨フォーマット

  • FLAC

  • PCM 16 のいずれかを、ビットエンコードと共に使用します。

  • FLAC

  • PCM 署名付き 16 ビットリトルエンディアンオーディオ (これには WAV は含まれないことに注意してください)

最良の結果を得るには、PCM 16 のいずれかを、ビットエンコードなどの可逆形式を使用します。

注記

ストリーミング文字変換は、すべての言語でサポートされているわけではありません。詳細については、サポート言語表の「データ入力」列を参照してください。

オーディオチャンネル

Amazon Transcribeシングルチャンネルメディアとデュアルチャンネルメディアをサポートします。現在、3 つ以上のチャンネルを含むメディアはサポートされていません。

オーディオの 1 つのチャンネルに複数のスピーカーが含まれていて、トランスクリプション出力の各スピーカーを分割してラベルを付ける場合は、スピーカーパーティショニング (ダイアライゼーション) を使用できます。

オーディオに 2 つの異なるチャンネルの音声が含まれている場合は、チャンネル識別機能を使用して、トランスクリプト内の各チャンネルを個別に文字起こしできます。

これらのオプションは両方とも 1 つのトランスクリプトファイルを生成します。

注記

スピーカー分割またはチャンネル識別を有効にしない場合、トランスクリプトテキストは 1 つの連続したセクションとして提供されます。

サンプルレート

バッチトランスクリプションジョブでは、サンプルレートを指定することもできますが、このパラメータはオプションです。リクエストに含める場合は、入力する値がオーディオの実際のサンプルレートと一致することを確認してください。オーディオと一致しないサンプルレートを指定すると、ジョブが失敗する可能性があります。

ストリーミング文字変換では、リクエストにサンプルレートを含める必要があります。バッチトランスクリプションジョブと同様に、入力する値がオーディオの実際のサンプルレートと一致していることを確認してください。

電話録音などの低忠実度オーディオのサンプルレートは、通常 8,000 Hz を使用します。ハイファイオーディオの場合、Amazon Transcribe 16,000 Hz ~ 48,000 Hz のいずれかを、ビットエンコードなどの値を使用します。

出力

トランスクリプションの出力は JSON 形式にあります。トランスクリプトの最初の部分には、トランスクリプト自体が段落形式で含まれ、その後に各単語と句読点に関する追加データが続きます。提供されるデータは、リクエストに含める機能によって異なります。トランスクリプトには、少なくとも各単語の開始時刻、終了時刻、および信頼スコアが含まれます。次のセクションでは、追加のオプションや機能が含まれていない基本的な文字起こしリクエストの出力例を示します。

Amazon S3バッチトランスクリプトはすべてバケットに保存されます。Amazon S3トランスクリプトを自分のバケットに保存するか、Amazon Transcribe安全なデフォルトバケットを使用するかを選択できます。バケットの作成と使用の詳細については、「Amazon S3バケットの使用」を参照してください。

Amazon S3自分の所有するバケットにトランスクリプトを保存したい場合は、トランスクリプションリクエストでバケットの URI を指定します。バッチ文字起こしジョブを開始する前に、Amazon Transcribe必ずこのバケットに書き込み権限を与えてください。独自のバケットを指定した場合、トランスクリプトは削除するまでそのバケットに残ります。

Amazon S3バケットを指定しない場合は、Amazon Transcribe安全なサービス管理バケットを使用し、トランスクリプトをダウンロードするために使用できる一時的な URI を提供します。テンポラリ URI は 15 分間有効であることに注意してください。提供された URIAccessDenied を使用してエラーが発生した場合は、トランスクリプト用の新しい一時的な URIGetTranscriptionJob の取得をリクエストしてください。

デフォルトのバケットを選択した場合、ジョブの有効期限が切れると(90 日)、履歴書は削除されます。この有効期限を過ぎてもトランスクリプトを保存したい場合は、ダウンロードする必要があります。

ストリーミングのトランスクリプトは、ストリームに使用しているのと同じ方法で返されます。

ヒント

JSON 出力を Word turn-by-turn 形式のトランスクリプトに変換する場合は、GitHub この例 (Python3 用) を参照してください。このスクリプトは、通話後の分析トランスクリプトとダイアライゼーションを有効にした標準バッチトランスクリプトで動作します。

出力例

トランスクリプトには、段落形式で完全な文字起こしが行われ、 word-for-word その後に分類が続き、すべての単語と句読点のデータが表示されます。これには、開始時間、終了時間、信頼度スコア、タイプ (pronunciationまたはpunctuation) が含まれます。

次の例は、追加機能が含まれていない単純なバッチトランスクリプションジョブのものです。文字起こしリクエストに追加機能を適用するたびに、書き起こし出力ファイルに追加データが追加されます。

基本的なバッチトランスクリプトには、主に次の 2 つのセクションがあります。

  1. transcripts: トランスクリプト全体が 1 つのテキストブロックに含まれます。

  2. items:transcripts セクションの各単語と句読点に関する情報が含まれています。

文字起こしリクエストに追加機能を追加するたびに、文字起こしに追加情報が表示されます。

{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }, "status": "COMPLETED" }