エンティティレコグナイザーのトレーニングデータの準備 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

エンティティレコグナイザーのトレーニングデータの準備

カスタムエンティティレコグナイザーモデルのトレーニングを成功させるには、モデルトレーナーへの入力として高品質データを提供することが重要です。適切なデータがないと、モデルはエンティティを正しく識別する方法を学習できません。 

カスタムエンティティレコグナイザーモデルをトレーニングするために、Amazon Comprehend へのデータ提供方法として次のいずれかを選択します。

  • エンティティリスト — Amazon Comprehend がトレーニングしてカスタムエンティティを識別できるように、特定のエンティティを一覧表示します。注: エンティティリストはプレーンテキストのドキュメントにのみ使用できます。 

  • 注釈 — Amazon Comprehend がエンティティとそのコンテキストの両方についてトレーニングできるように、多数のドキュメント内のエンティティの位置を示します。  画像ファイル、PDF、Word ドキュメントを分析するためのモデルを作成するには、PDF 注釈を使用してレコグナイザーをトレーニングする必要があります。 

いずれの場合も、Amazon Comprehend はドキュメントの種類と、エンティティが発生するコンテキストを学習し、ドキュメントを分析するときに新しいエンティティを検出するように一般化できるレコグナイザーを構築します。 

カスタムモデルを作成 (または新しいバージョンをトレーニング) するときに、テストデータセットを提供できます。  テストデータを提供しない場合、Amazon Comprehend は入力ドキュメントの 10% をモデルのテスト用に取っておきます。Amazon Comprehend は残りのドキュメントを使用してモデルをトレーニングします。 

注釈トレーニングセット用のテストデータセットを提供する場合、テストデータには、作成リクエストで指定されたエンティティタイプごとに少なくとも 1 つの注釈が含まれている必要があります。   

注釈の使用とエンティティリストの使用

注釈の作成はエンティティリストの作成よりも手間がかかりますが、生成されるモデルの精度は大幅に向上します。エンティティリストを使用する方が迅速で手間はかかりませんが、結果の精度や精度は低下します。  これは、注釈によって Amazon Comprehend がモデルをトレーニングする場合、より多くのコンテキストが提供されるためです。このコンテキストがないと、Amazon Comprehend がエンティティを識別する際の誤検出の数が多くなります。

注釈の使用にかかる高い費用やワークロードを避ける方が、業務上道理にかなう場合もあります。たとえば、John Johnson という名前は検索には重要ですが、それがまさにその個人であるかどうかは重要ではない。または、エンティティリストを使用する際の指標が、必要なレコグナイザー結果を得るのに十分優れている。  このような場合は、代わりにエンティティリストを使用する方が効果的です。 

次の場合は、注釈モードを使用することをお勧めします。 

  • 画像ファイル、PDF、Word ドキュメントの推論を行う予定がある場合。このシナリオでは、注釈付き PDF ファイルを使用してモデルをトレーニングし、そのモデルを使用して画像ファイル、PDF、Word ドキュメントの推論ジョブを実行します。

  • エンティティの意味があいまいで、コンテキストに依存する可能性がある場合。  たとえば、「Amazon」という言葉は、ブラジルの川を指す場合もあれば、オンライン小売業者の Amazon.com を指す場合もあります。「Amazon」などの企業体を識別するカスタムエンティティレコグナイザーを作成する場合は、エンティティリストの代わりに注釈を使用する必要があります。これは、コンテキストを使用してエンティティを検索できるためです。

  • 注釈を取得するプロセスを設定することに慣れている場合 (これには多少の労力が必要となる場合があります)。

次のような場合にはエンティティリストを使用することをお勧めします。 

  • エンティティリストがすでにある場合や、エンティティの包括的なリストを比較的簡単に作成できる場合。エンティティリストを使用する場合、リストは完全であるか、少なくともトレーニング用に提供するドキュメントに含まれている可能性のある有効なエンティティの大半を網羅している必要があります。 

  • 初めて使用するユーザーには、通常、エンティティリストの使用をお勧めします。これは、注釈を作成するよりも手間がかからないためです。ただし、トレーニングされたモデルは、注釈を使用した場合ほど正確ではない可能性があることに注意する必要があります。