カスタムエンティティ認識 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

カスタムエンティティ認識

カスタムエンティティレコグナイザーは、あらかじめ設定された汎用エンティティタイプ にはない特定の新しいエンティティタイプを識別できるようにすることで、Amazon Comprehend の機能を拡張します。つまり、ドキュメントを分析し、製品コードやビジネス固有のエンティティなど、特定のニーズに合ったエンティティを抽出できます。

正確なカスタムエンティティレコグナイザーを自分で構築する場合、手作業で注釈を付けた大量のトレーニングドキュメントを準備したり、モデルトレーニングに適したアルゴリズムとパラメーターを選択したりする必要があり、複雑なプロセスになる場合があります。Amazon Comprehend は、カスタムエンティティレコグナイザーモデルを作成するための自動アノテーションとモデル開発を提供することで、複雑さを軽減します。

カスタムエンティティレコグナイザーモデルを作成する方が、文字列マッチングや正規表現を使用してドキュメントからエンティティを抽出するよりも効果的です。たとえば、ドキュメント内の ENGINEER 名を抽出する場合、考えられるすべての名前を列挙することは困難です。さらに、コンテキストがないと、エンジニア名とアナリスト名を区別するのが難しくなります。カスタムエンティティレコグナイザーモデルは、それらの名前が出現する可能性のあるコンテキストを学習できます。さらに、文字列の照合では、タイプミスのあるエンティティや新しい命名規則に従っているエンティティは検出されませんが、カスタムモデルを使用すると検出できます。

カスタムモデルを作成するには、次の 2 つのオプションがあります。

  1. 注釈 — モデルトレーニング用の注釈付きエンティティを含むデータセットを提供します。

  2. エンティティリスト (プレーンテキストのみ) — エンティティとそのタイプラベル (PRODUCT_CODES や、モデルのトレーニングに使用するエンティティを含む注釈なしドキュメントのセットなど) を提供します。

注釈付きの PDF ファイルを使用してカスタムエンティティレコグナイザーを作成すると、そのレコグナイザーをさまざまな入力ファイル形式 (プレーンテキスト、画像ファイル (JPG、PNG、TIFF)、PDF ファイル、Word ドキュメント) で使用できます。前処理やドキュメントの統合は不要です。Amazon Comprehend は、画像ファイルや Word ドキュメントの注釈をサポートしていません。

注記

注釈付き PDF ファイルを使用するカスタムエンティティレコグナイザーは、英語のドキュメントのみをサポートします。

1 つのモデルは最大 25 のカスタムエンティティで同時にトレーニングできます。詳細については、ガイドラインとクォータページをご覧ください。

モデルをトレーニングしたら、そのモデルをリアルタイムのエンティティ検出やエンティティ検出ジョブに使用できます。