プレーンテキストドキュメント半構造化ドキュメントイメージファイルとスキャンした PDF ファイル Amazon Textract 出力リアルタイム分析用の最大ドキュメントサイズ　半構造化ドキュメントのエラー

リアルタイムカスタム分析用の入力

カスタムモデルを使用したリアルタイム分析では、1 つのドキュメントを入力として扱います。次のトピックでは、使用可能な入力ドキュメントタイプについて説明します。　

トピック

プレーンテキストドキュメント
半構造化ドキュメント
イメージファイルとスキャンした PDF ファイル
Amazon Textract 出力
リアルタイム分析用の最大ドキュメントサイズ　
半構造化ドキュメントのエラー

プレーンテキストドキュメント

入力ドキュメントは UTF-8 形式のテキストを提供してください。

半構造化ドキュメント

半構造化ドキュメントには、ネイティブ PDF ドキュメントと Word ドキュメントが含まれます。

デフォルトでは、リアルタイムカスタム分析は Amazon Comprehend パーサーを使用して Word ファイルとデジタル PDF ファイルからテキストを抽出します。PDF ファイルの場合は、このデフォルトをオーバーライドして、Amazon Textract を使用してテキストを抽出できます。「テキスト抽出オプションの設定」を参照してください。

イメージファイルとスキャンした PDF ファイル

サポートされている画像タイプには JPEG、PNG、TIFF があります。

デフォルトでは、カスタムエンティティレコグナイザーは Amazon Textract DetectDocumentText API オペレーションを使用して、画像ファイルとスキャンした PDF ファイルからテキストを抽出します。このデフォルトをオーバーライドして、代わりに AnalyzeDocument API オペレーションを使用できます。「テキスト抽出オプションの設定」を参照してください。

Amazon Textract 出力

Amazon Textract DetectDocumentText API または AnalyzeDocument API からの JSON 出力を、カスタム分類とカスタムエンティティレコグナイザー用のリアルタイム API オペレーションへの入力として提供できます。Amazon Comprehend は、リアルタイム API オペレーションではこの入力タイプをサポートしていますが、コンソールではサポートしていません。

リアルタイム分析用の最大ドキュメントサイズ　

すべての入力ドキュメントタイプで、入力ファイルの最大数は 1 ページで、10,000 文字以下です。

次の表は、入力ドキュメントの最大ファイルサイズを示しています。

ファイルタイプ	最大サイズ (API)	最大サイズ (コンソール)
A UTF-8 テキストドキュメント	10 KB	10 KB
PDF ドキュメント	10 MB	5 MB
Word ドキュメント	10 MB	1 MB
画像ファイル	10 MB	5 MB
Textract 出力ファイル	1 MB	該当なし

半構造化ドキュメントのエラー

ClassifyDocument または DetectEntities API オペレーションでは、半構造化ドキュメントまたは画像ファイルからテキストを抽出する際に、ドキュメントレベルまたはページレベルのエラーが発生する可能性があります。

ページレベルのエラー

ClassifyDocument または DetectEntities API オペレーションで入力ドキュメント内のページを処理中にエラーが発生した場合、API レスポンスには各エラーのエントリがエラーリストに含まれています。

ErrorCode エラーリストのエントリには、次のいずれかの値が含まれます。

TEXTRACT_BAD_PAGE — Amazon Textract はページを読み取ることができません。Amazon Textract のページ制限の詳細については、「Amazon Textract のページクォータ」を参照してください。
TEXTRACT_PROVISIONED_THROUTPUT_EXCEEDED — リクエストの数がスループット制限を超えました。Amazon Textract のスループットクォータの詳細については、「Amazon Textract のデフォルトクォータ」を参照してください。
PAGE_CHARACTERS_EXCEEDED — ページ上のテキスト文字数が多すぎます (最大 10,000 文字)。
PAGE_SIZE_EXCEEDED — 最大ページサイズは 10 MB です。
INTERNAL_SERVER_ERROR — リクエストにサービスの問題が発生しました。API リクエストを再試行してください。

ドキュメントレベルのエラー

ClassifyDocument または DetectEntities API オペレーションが入力ドキュメントでドキュメントレベルのエラーを検出すると、API は InvalidRequestException エラーレスポンスを返します。

エラーレスポンスの Reason フィールドには INVALID_DOCUMENT 値が含まれています。

Detail フィールドは、次のいずれかの値を含みます。

DOCUMENT_SIZE_EXCEEDED — ドキュメントのサイズが大きすぎます。　ファイルのサイズを確認して、リクエストを再送信してください。　
UNSUPPORTED_DOC_TYPE — ドキュメントタイプはサポートされていません。　ファイルタイプを確認して、リクエストを再送信してください。　
PAGE_LIMIT_EXCEEDED — ドキュメント内のページ数が多すぎます。　ファイルのページ数を確認して、リクエストを再送信してください。　
TEXTRACT_ACCESS_DENIED_EXCEPTION — Amazon Textract へのアクセスが拒否されました。　アカウントに Amazon Textract DetectDocumentText と AnalyzeDocument API オペレーションを使用する権限があることを確認し、リクエストを再送信してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ドキュメント処理

非同期分析の入力