カスタムエンティティ認識の分析ジョブの実行

非同期分析ジョブを実行して、1 つ以上のドキュメントセット内のカスタムエンティティを検出できます。

[開始する前に]

カスタムエンティティを検出するには、カスタムエンティティ認識モデル (レコグナイザーとも呼ばれる) が必要です。これらのモデルの詳細については、「カスタムエンティティレコグナイザーモデルのトレーニング」を参照してください。

プレーンテキストの注釈でトレーニングされたレコグナイザーは、プレーンテキストドキュメントのエンティティ検出のみをサポートします。PDF ドキュメントの注釈でトレーニングされたレコグナイザーは、プレーンテキストドキュメント、画像、PDF ファイル、Word ドキュメントのエンティティ検出をサポートします。テキストファイル以外のファイルについては、Amazon Comprehend は分析を実行する前にテキスト抽出を実行します。入力ファイルの詳細については、「非同期カスタム分析の入力　」を参照してください。

画像ファイルまたはスキャンした PDF ドキュメントを分析する予定がある場合は、IAM ポリシーで 2 つの Amazon Textract API メソッド (DetectDocumentText と AnalyzeDocument) を使用するアクセス権限を付与する必要があります。Amazon Comprehend は、テキスト抽出中にこれらのメソッドを呼び出します。ポリシーの例についてはドキュメント分析アクションを実行するために必要なアクセス許可を参照してください。

非同期分析ジョブの実行には、次のステップを実行します。

ドキュメントを Amazon S3 バケットに保存します。
API またはコンソールを使用して分析ジョブを開始します。
分析ジョブの進行状況をモニタリングします。
ジョブの実行が完了するまで、ジョブ開始時に指定した S3 バケットを確認します。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

リアルタイム分析の出力

分析ジョブ (コンソール)