リアルタイムカスタム分析用の入力 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

リアルタイムカスタム分析用の入力

カスタムモデルを使用したリアルタイム分析では、1 つのドキュメントを入力として扱います。次のトピックでは、使用可能な入力ドキュメントタイプについて説明します。 

プレーンテキストドキュメント

入力ドキュメントは UTF-8 形式のテキストを提供してください。

半構造化ドキュメント

半構造化ドキュメントには、ネイティブ PDF ドキュメントと Word ドキュメントが含まれます。

デフォルトでは、リアルタイムカスタム分析は Amazon Comprehend パーサーを使用して Word ファイルとデジタル PDF ファイルからテキストを抽出します。PDF ファイルの場合は、このデフォルトをオーバーライドして、Amazon Textract を使用してテキストを抽出できます。テキスト抽出オプションの設定 を参照してください。

イメージファイルとスキャンした PDF ファイル

サポートされている画像タイプには JPEG、PNG、TIFF があります。

デフォルトでは、カスタムエンティティレコグナイザーは Amazon Textract DetectDocumentText API オペレーションを使用して、画像ファイルとスキャンした PDF ファイルからテキストを抽出します。このデフォルトをオーバーライドして、代わりに AnalyzeDocument API オペレーションを使用できます。テキスト抽出オプションの設定 を参照してください。

Amazon Textract 出力

Amazon Textract DetectDocumentText API または AnalyzeDocument API からの JSON 出力を、カスタム分類とカスタムエンティティレコグナイザー用のリアルタイム API オペレーションへの入力として提供できます。Amazon Comprehend は、リアルタイム API オペレーションではこの入力タイプをサポートしていますが、コンソールではサポートしていません。

リアルタイム分析用の最大ドキュメントサイズ 

すべての入力ドキュメントタイプで、入力ファイルの最大数は 1 ページで、10,000 文字以下です。

次の表は、入力ドキュメントの最大ファイルサイズを示しています。

ファイルタイプ 最大サイズ (API) 最大サイズ (コンソール)
A UTF-8 テキストドキュメント 10 KB 10 KB
PDF ドキュメント 10 MB 5 MB
Word ドキュメント 10 MB 1 MB
画像ファイル 10 MB 5 MB
Textract 出力ファイル 1 MB 該当なし

半構造化ドキュメントのエラー

ClassifyDocument または DetectEntities API オペレーションでは、半構造化ドキュメントまたは画像ファイルからテキストを抽出するときに、ドキュメントレベルまたはページレベルのエラーが発生する可能性があります。

ページレベルのエラー

入力ドキュメントのページの処理中に ClassifyDocumentまたは DetectEntities API オペレーションでエラーが発生した場合、API レスポンスには各エラーのエラーリストにエントリが含まれます。

ErrorCode エラーリストのエントリには、次のいずれかの値が含まれます。

  • TEXTRACT_BAD_PAGE — Amazon Textract はページを読み取ることができません。Amazon Textract のページ制限の詳細については、「Amazon Textract のページクォータ」 を参照してください。

  • TEXTRACT_PROVISIONED_THROUTPUT_EXCEEDED — リクエストの数がスループット制限を超えました。Amazon Textract のスループットクォータの詳細については、「Amazon Textract のデフォルトクォータ」 を参照してください。

  • PAGE_CHARACTERS_EXCEEDED — ページ上のテキスト文字数が多すぎます (最大 10,000 文字)。

  • PAGE_SIZE_EXCEEDED — 最大ページサイズは 10 MB です。

  • INTERNAL_SERVER_ERROR — リクエストにサービスの問題が発生しました。API リクエストを再試行してください。

ドキュメントレベルのエラー

ClassifyDocument または DetectEntities API オペレーションが入力ドキュメントでドキュメントレベルのエラーを検出すると、API はInvalidRequestExceptionエラーレスポンスを返します。

エラーレスポンスの Reason フィールドには INVALID_DOCUMENT 値が含まれています。

Detail フィールドは、次のいずれかの値を含みます。

  • DOCUMENT_SIZE_EXCEEDED — ドキュメントのサイズが大きすぎます。  ファイルのサイズを確認して、リクエストを再送信してください。 

  • UNSUPPORTED_DOC_TYPE — ドキュメントタイプはサポートされていません。  ファイルタイプを確認して、リクエストを再送信してください。 

  • PAGE_LIMIT_EXCEEDED — ドキュメント内のページ数が多すぎます。  ファイルのページ数を確認して、リクエストを再送信してください。 

  • TEXTRACT_ACCESS_DENIED_EXCEPTION — Amazon Textract へのアクセスが拒否されました。  アカウントに Amazon Textract DetectDocumentTextおよび AnalyzeDocument API オペレーションを使用するアクセス許可があることを確認し、リクエストを再送信します。