エンティティリスト (プレーンテキストのみ) - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

エンティティリスト (プレーンテキストのみ)

ユーザー定義エンティティ認識用のエンティティリストには、カンマ区切り値 (CSV) ファイルが必要です。

  • テキスト— 添付のドキュメントコーパスでまったく同じエントリ例のテキスト。

  • タイプ顧客定義のエンティティタイプ。エンティティタイプは、MANAGER や SENIOR_MANAGER など、大文字のアンダースコアで区切られた文字列でなければなりません。モデルごとに最大 25 種類のエンティティをトレーニングできます。

ファイルdocuments.txt次の 4 つの行が含まれます。

Jo Brown is an engineer in the high tech industry. John Doe has been a engineer for 14 years. Emilio Johnson is a judge on the Washington Supreme Court. Our latest new employee, Jane Smith, has been a manager in the industry for 4 years.

エンティティのリストを含む CSV ファイルには、次の行があります。

Text, Type Jo Brown, ENGINEER John Doe, ENGINEER Jane Smith, MANAGER
注記

エンティティリストでは、Emilio Johnson のエントリは ENGINEER エンティティまたは MANAGER エンティティを含まないため、存在しません。

ユーザー定義エンティティ認識用にモデルをトレーニングするには、エンティティリスト内のエンティティごとに最低 200 のエンティティの一致が必要です。

データファイルを作成する

エンティティリストファイルに問題が発生する可能性が最小限に抑えられるように、エンティティリストが適切に設定されたCSVファイルにあることが重要です。CSV ファイルを手動で設定するには、以下の条件が満たされている必要があります。

  • UTF-8 エンコーディングは、ほとんどの場合デフォルトとして使用される場合でも、明示的に指定する必要があります。

  • 列名を含める必要があります。TypeおよびText

潜在的な問題を回避するために、CSV 入力ファイルをプログラムで生成することを強くお勧めします。

次の例では、Python を使用して上に示したアノテーションの CSV を生成します。

import csv with open("./entitylist/entitylist.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["Text", "Type"]) csv_writer.writerow(["Jo Brown", "ENGINEER"]) csv_writer.writerow(["John Doe", "ENGINEER"]) csv_writer.writerow(["Jane Smith", "MANAGER"])

最良の結果を得る

最良の結果を得る

エンティティリストを使用するときに最良の結果を得るには、次のような考慮事項がいくつかあります。

  • リスト内のエンティティの順序は、モデルトレーニングに影響しません。

  • 注釈のない文書コーパスで言及されているポジティブなエンティティの例の 80%-100% をカバーするエンティティリスト項目を使用します。

  • 一般的な単語やフレーズを削除して、ドキュメントコーパス内の非エンティティと一致するエンティティの例を避けます。ほんの一握りの誤った一致でも、結果のモデルの精度に大きな影響を与える可能性があります。たとえば、のような単語ザ・エンティティリストでは、探しているエンティティになることはまずなく、精度に大きな影響を与えます。

  • 入力データに重複を含めないでください。重複したサンプルが存在すると、テストセットの汚染が発生し、トレーニングプロセス、モデルメトリック、および動作に悪影響を及ぼす可能性があります。

  • 実際のユースケースに似たドキュメントをできるだけ近く提供する。玩具データや合成データをプロダクションシステムに使用しないでください。入力データは、過適合を回避し、基礎となるモデルが実際の例をより良く一般化できるようにするために、できるだけ多様でなければなりません。

  • エンティティリストでは大文字と小文字が区別され、正規表現は現在サポートされていません。ただし、トレーニング済みモデルは、エンティティリストに示されている大文字と小文字と正確に一致しない場合でも、エンティティを認識できることがよくあります。

  • 別のエンティティの部分文字列であるエンティティ (「Smith」や「Jane Smith」など) がある場合は、エンティティリストに両方を指定します。

追加の提案については、「」を参照してください。カスタムエンティティ認識機能のパフォーマンスの向上