リクエストの構文リクエストパラメータレスポンスの構文レスポンス要素エラー以下の資料も参照してください。

DetectDocumentText

入力ドキュメント内のテキストを検出します。Amazon Textract では、テキスト行とテキスト行を構成する単語を検出できます。入力ドキュメントは、JPEG、PNG、PDF、または TIFF 形式の画像である必要があります。DetectDocumentText検出されたテキストを次の配列で返します。Blockオブジェクト。

各ドキュメントページには、Blockタイプの PAGE。各ページBlockオブジェクトはLINEの親ですBlockページ上で検出されたテキストの行を表すオブジェクト。[1 行]Blockオブジェクトは、行を構成する各単語の親です。単語は次のように表されます。BlockWORD 型のオブジェクト。

DetectDocumentText は同期演算です。ドキュメントを非同期的に分析するには、StartDocumentTextDetection。

詳細については、「」を参照してください。ドキュメントのテキストの検出。

リクエストの構文


{
   "Document": { 
      "Bytes": blob,
      "S3Object": { 
         "Bucket": "string",
         "Name": "string",
         "Version": "string"
      }
   }
}

リクエストパラメータ

リクエストは以下の JSON 形式のデータを受け入れます。

Document

base64 でエンコードされたバイトまたは Amazon S3 オブジェクトとしての入力ドキュメント。AWS CLI を使用して Amazon Textract オペレーションを呼び出す場合、イメージバイトを渡すことはできません。ドキュメントは、JPEG または PNG 形式であることが必要です。

AWS SDK を使用して Amazon Textract を呼び出す場合は、を使用して渡されるイメージバイトを base64 エンコードする必要がない場合があります。Bytesフィールド。

型: Document オブジェクト

: 必須はい

レスポンスの構文


{
   "Blocks": [ 
      { 
         "BlockType": "string",
         "ColumnIndex": number,
         "ColumnSpan": number,
         "Confidence": number,
         "EntityTypes": [ "string" ],
         "Geometry": { 
            "BoundingBox": { 
               "Height": number,
               "Left": number,
               "Top": number,
               "Width": number
            },
            "Polygon": [ 
               { 
                  "X": number,
                  "Y": number
               }
            ]
         },
         "Id": "string",
         "Page": number,
         "Relationships": [ 
            { 
               "Ids": [ "string" ],
               "Type": "string"
            }
         ],
         "RowIndex": number,
         "RowSpan": number,
         "SelectionStatus": "string",
         "Text": "string",
         "TextType": "string"
      }
   ],
   "DetectDocumentTextModelVersion": "string",
   "DocumentMetadata": { 
      "Pages": number
   }
}

レスポンス要素

アクションが成功すると、サービスは HTTP 200 レスポンスを返します。

サービスから以下のデータが JSON 形式で返されます。

Blocks

の配列Block文書内で検出されたテキストを含むオブジェクト。

Type: の配列Blockオブジェクト

DetectDocumentTextModelVersion

Type: 文字列

DocumentMetadata

ドキュメントに関するメタデータ。ドキュメント内で検出されたページ数が含まれます。

型: DocumentMetadata オブジェクト

エラー

AccessDeniedException

そのアクションを実行する権限がありません。そのオペレーションを実行するには、承認されたユーザーまたは IAM ロールの Amazon リソースネーム (ARN) を使用します。

HTTP ステータスコード: 400

BadDocumentException

Amazon Textract はドキュメントを読み取ることができません。Amazon Textract のドキュメント制限の詳細については、「」を参照してください。Amazon Textract のハード制限。

HTTP ステータスコード: 400

DocumentTooLargeException

文書が大きすぎるため処理できません。10 MB の同期オペレーションの最大ドキュメントサイズ。非同期操作の最大ドキュメントサイズは、PDF ファイルの場合 500 MB です。

HTTP ステータスコード: 400

InternalServerError

Amazon Textract でサービスの問題が発生しました。もう一度やり直してください。

HTTP ステータスコード: 500

InvalidParameterException

入力パラメータが制約に違反しています。たとえば、同期操作では、InvalidParameterException例外が発生するのは、どちらもS3ObjectまたはBytes値は、Documentリクエストパラメータ。API オペレーションを再度呼び出す前にパラメータを検証します。

HTTP ステータスコード: 400

InvalidS3ObjectException

Amazon Textract は、リクエストで指定された S3 オブジェクトにアクセスできません。詳細については、Amazon S3 へのアクセスの設定トラブルシューティング情報については、「」を参照してください。Amazon S3 トラブルシューティング

HTTP ステータスコード: 400

ProvisionedThroughputExceededException

お客様のスループット制限を超えたリクエストの数。この上限を引き上げる場合は、Amazon Textract までお問い合わせください。

HTTP ステータスコード: 400

ThrottlingException

Amazon Textract は一時的にリクエストを処理できませんでした。もう一度やり直してください。

HTTP ステータスコード: 500

UnsupportedDocumentException

入力ドキュメントの形式はサポートされていません。操作用のドキュメントは、PNG、JPEG、PDF、または TIFF 形式にすることができます。

HTTP ステータスコード: 400

以下の資料も参照してください。

言語固有の AWS SDK のいずれかでこの API を使用する方法の詳細については、次を参照してください：

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

AnalyzeID

GetDocumentAnalysis