カスタム言語モデル

カスタム言語モデルは、ドメイン固有の音声に対する文字起こしの精度を向上させるために設計されています。これには、通常の日常会話で聞く内容以外のコンテンツも含まれます。たとえば、科学会議の議事録の文字起こしをする場合、標準的な文字起こしでは、発表者が使用する科学用語の多くを認識できない可能性があります。このような場合は、専門分野で使用されている特殊な用語を認識するようにカスタム言語モデルをトレーニングできます。

ヒント (発音など) を提供することで単語の認識を高めるカスタム語彙とは異なり、カスタム言語モデルは特定の単語に関連するコンテキストを学習します。これには、単語がいつどのように使われているか、ある単語が他の単語とどのような関係にあるかなどが含まれます。たとえば、気候科学の研究論文を使用してモデルをトレーニングすると、モデルは「氷の流れ」よりも「流氷」という単語である可能性が高いことを学習するかもしれません。

カスタム言語モデルでサポートされる言語を確認するには、「サポートされている言語および言語固有の機能」を参照してください。リクエストにカスタム言語モデルを含めると、言語識別を有効にできないことに注意してください (言語コードを指定する必要があります)。

カスタム言語モデル固有の API オペレーション

CreateLanguageModel, DeleteLanguageModel, DescribeLanguageModel, ListLanguageModels

データソース

モデルのトレーニングには、さまざまなタイプのテキストデータでも使用できます。ただし、テキストコンテンツが音声コンテンツに近いほど、モデルの精度は高くなります。そのため、音声と同じコンテキストで同じ用語を使用するテキストデータを選択することが重要です。

モデルのトレーニングに最適なデータは、正確なトランスクリプトです。これはドメイン内のデータと見なされます。ドメイン内のテキストデータには、文字起こししたい音声とまったく同じ用語、使用法、コンテキストがあります。

正確なトランスクリプトがない場合は、ジャーナル記事、技術レポート、ホワイトペーパー、会議議事録、取扱説明書、ニュース記事、ウェブサイトコンテンツ、および音声と同様のコンテキストで使用される用語が含まれるテキストを使用します。これはドメイン関連のデータと見なされます。

堅牢なカスタム言語モデルを作成するには、音声で話されている用語を含む大量のテキストデータが必要になります。モデルをトレーニングするために、最大 2 GB のテキストデータを Amazon Transcribe に提供できます。これはトレーニングデータと呼ばれます。オプションで、ドメイン内のトランスクリプトがない (または少ない) 場合は、モデルをチューニングするために Amazon Transcribe 最大 200 MB のテキストデータをに提供できます。これはチューニングデータと呼ばれます。

トレーニングデータとチューニングデータ

トレーニングデータの目的は、新しい用語を認識し、これらの用語が使用されるコンテキストを学習 Amazon Transcribe するようにに教えることです。堅牢なモデルを作成するには、 Amazon Transcribe は大量の関連テキストデータが必要になることがあります。2 GB の上限まで、できるだけ多くのトレーニングデータを提供することを強くおすすめします。

チューニングデータの目的は、トレーニングデータから学習したコンテキストとの関連を絞り込み、最適化することです。カスタム言語モデルの作成にはチューニングデータは必要ありません。

トレーニングデータと、オプションでチューニングデータをどのように選択するかを決めるのは、お客様です。それぞれのケースは一意的で、持っているデータのタイプと量によって異なります。ドメイン内のトレーニングデータが不足している場合は、チューニングデータを使用することをおすすめします。

両方のデータタイプを選択する場合は、トレーニングデータとチューニングデータが重複しないようにします。トレーニングデータとチューニングデータは一意でなければなりません。データが重複すると、カスタム言語モデルに偏りや歪みが生じ、精度に影響する可能性があります。

一般的なガイダンスとして、可能な限り正確なドメイン内テキストをトレーニングデータとして使用することをおすすめします。一般的なシナリオを優先順位の高いものからご紹介します

ドメイン内の正確なトランスクリプトテキストが 10,000 語以上ある場合は、それをトレーニングデータとして使用します。この場合、チューニングデータを含める必要はありません。これは、カスタム言語モデルのトレーニングに最適なシナリオです。
10,000 語未満の正確なドメイン内トランスクリプトテキストがあっても期待した結果が得られない場合は、テクニカルレポートなどのドメイン関連のテキストでトレーニングデータを補強することを検討します。この場合は、ドメイン内のトランスクリプトデータのごく一部 (10～25%) をチューニングデータとして使用するように確保します。
ドメイン内のトランスクリプトテキストがない場合は、ドメイン関連のテキストをすべてトレーニングデータとしてアップロードします。この場合、書かれたテキストよりもトランスクリプト形式のテキストの方が適しています。これは、カスタム言語モデルのトレーニングに最も効果的でないシナリオです。

モデルを作成する準備ができたら、「カスタム言語モデルの作成」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

カスタム語彙の使用

カスタム言語モデルの作成