カスタム言語モデル - Amazon Transcribe

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

カスタム言語モデル

カスタム言語モデルは、ドメイン固有の音声の文字起こしの精度を向上させるように設計されています。これには、通常の日常会話で聞く内容以外の内容も含まれます。たとえば、科学会議の議事録を転記する場合、標準的な文字起こしでは、発表者が使用する科学用語の多くを認識することはまずありません。このような場合は、自分の専門分野で使用されている専門用語を認識するようにカスタム言語モデルをトレーニングできます。

ヒント (発音など) を提供することで単語の認知度を高めるカスタム語彙とは異なり、カスタム言語モデルは特定の単語に関連する文脈を学習します。これには、単語がいつどのように使用されるか、および単語と他の単語との関係が含まれます。たとえば、気候科学の研究論文を使用してモデルをトレーニングすると、モデルが「氷流」よりも「氷流」という語句の組み合わせである可能性が高いことを学習する可能性があります。

カスタム言語モデルでサポートされている言語を確認するには、を参照してくださいサポートされている言語および言語固有の機能。リクエストにカスタム言語モデルを含めると、言語識別を有効にできないことに注意してください (言語コードを指定する必要があります)。

カスタム言語モデル固有の API オペレーション

データソース

モデルのトレーニングには、どのような種類のテキストデータでも使用できます。ただし、テキストコンテンツがオーディオコンテンツに近いほど、モデルの精度は高くなります。そのため、音声と同じ文脈で同じ用語を使用するテキストデータを選択することが重要です。

モデルのトレーニングに最適なデータは、正確なトランスクリプトです。これはドメイン内データと見なされます。ドメイン内のテキストデータには、書き起こしたい音声とまったく同じ用語、用法、コンテキストが含まれます。

正確なトランスクリプトがない場合は、ジャーナル記事、テクニカルレポート、ホワイトペーパー、会議議事録、取扱説明書、ニュース記事、ウェブサイトのコンテンツ、およびオーディオと同様の文脈で使用される必要な用語を含むその他のテキストを使用してください。これはドメイン関連データと見なされます。

堅牢なカスタム言語モデルを作成するには、大量のテキストデータが必要になる場合があり、そのデータには音声で話されている用語が含まれている必要があります。Amazon Transcribeモデルのトレーニング用に最大 2 GB のテキストデータを指定できます。これはトレーニングデータと呼ばれます。オプションで、ドメイン内のトランスクリプトがない(または少ない)場合は、モデルを調整するために最大 200 MB Amazon Transcribe のテキストデータを提供できます。これをチューニングデータと呼びます。

トレーニングデータとチューニングデータ

トレーニングデータの目的は、新しい用語を認識し、それらの用語がどのような文脈で使われるかを学ぶことです。Amazon Transcribe堅牢なモデルを作成するには、Amazon Transcribe大量の関連テキストデータが必要になる場合があります。2 GB の制限まで、できるだけ多くのトレーニングデータを提供することを強くお勧めします。

データをチューニングする目的は、トレーニングデータから学習したコンテクスト・リレーションシップの改善と最適化を支援することです。カスタム言語モデルの作成には、チューニングデータは必要ありません。

トレーニングの方法を決めるのはユーザーです。そして必要に応じてチューニングデータを決めるのはユーザーです。それぞれのケースは異なり、所有しているデータの種類と量によって異なります。ドメイン内のトレーニングデータが不足している場合は、チューニングデータを使用することをおすすめします。

両方のデータ型を含める場合は、トレーニングデータとチューニングデータを重複させないでください。トレーニングとチューニングのデータは一意でなければなりません。データが重複すると、カスタム言語モデルに偏りや歪みが生じ、精度に影響する可能性があります。

一般的なガイダンスとして、可能な限り正確なドメイン内のテキストをトレーニングデータとして使用することをお勧めします。一般的なシナリオで、で指定した順に一覧表示されます。

  • ドメイン内の正確なトランスクリプトテキストが10,000語以上ある場合は、それをトレーニングデータとして使用してください。この場合、チューニングデータを含める必要はありません。これは、カスタム言語モデルのトレーニングに最適なシナリオです。

  • 10,000語未満の正確なドメイン内のトランスクリプトテキストがあっても、期待した結果が得られない場合は、テクニカルレポートなどのドメイン関連のテキストでトレーニングデータを補足することを検討してください。この場合、ドメイン内のトランスクリプトデータのごく一部(10 ~ 25%)をチューニングデータとして使用するために予約してください。

  • ドメイン内のトランスクリプトテキストがない場合は、ドメイン関連のすべてのテキストをトレーニングデータとしてアップロードします。この場合、書かれたテキストよりもトランスクリプト形式のテキストの方が適しています。これは、カスタム言語モデルのトレーニングには最も効果の低いシナリオです。

モデルを作成する準備ができたら、を参照してくださいカスタム言語モデルの作成