翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
StartDocumentAnalysis
キーと値のペア、表、選択要素など、検出された項目間のリレーションシップについて、入力ドキュメントの非同期分析を開始します。
StartDocumentAnalysis
では、JPEG、PNG、TIFF、および PDF 形式のドキュメント内のテキストを分析できます。ドキュメントは Amazon S3 バケットに格納されます。を使用するDocumentLocationを使用して、ドキュメントのバケット名とファイル名を指定します。
StartDocumentAnalysis
ジョブ識別子を返します (JobId
) を使用して、オペレーションの結果を取得します。テキスト分析が完了すると、Amazon Textract は、で指定した Amazon Simple Notification Service (Amazon SNS) トピックに完了ステータスを発行します。NotificationChannel
。テキスト分析操作の結果を取得するには、まず Amazon SNS トピックに発行されたステータス値がSUCCEEDED
。もしそうなら、電話してくださいGetDocumentAnalysisをクリックし、ジョブ識別子を渡します (JobId
) の最初の呼び出しからStartDocumentAnalysis
。
詳細については、「」を参照してください。ドキュメントテキスト分析。
リクエストの構文
{
"ClientRequestToken": "string
",
"DocumentLocation": {
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"FeatureTypes": [ "string
" ],
"JobTag": "string
",
"KMSKeyId": "string
",
"NotificationChannel": {
"RoleArn": "string
",
"SNSTopicArn": "string
"
},
"OutputConfig": {
"S3Bucket": "string
",
"S3Prefix": "string
"
}
}
リクエストパラメータ
リクエストは以下の JSON 形式のデータを受け入れます。
- ClientRequestToken
-
開始リクエストを識別するために使用するべき等トークン。同じトークンを複数で使用する場合
StartDocumentAnalysis
リクエスト、同じJobId
が返されます。を使用するClientRequestToken
同じジョブが誤って複数回開始されないようにするためです。詳細については、「」を参照してください。Amazon Textract 非同期オペレーションを呼び出す。Type: 文字列
長さの制約: 最小長は 1 です。 最大長は 64 です。
パターン:
^[a-zA-Z0-9-_]+$
必須: いいえ
- DocumentLocation
-
処理されるドキュメントの場所。
型: DocumentLocation オブジェクト
必須: はい
- FeatureTypes
-
実行する解析のタイプのリスト。TABLES をリストに追加して、入力ドキュメントで検出されたテーブルに関する情報を返します。FORMS を追加して、検出されたフォームデータを返します。両方のタイプの分析を実行するには、TABLES と FORMS を
FeatureTypes
。ドキュメント内で検出されたすべての行と単語が応答に含まれます(次の値に関連しないテキストを含む)FeatureTypes
).Type: 文字列の配列
有効な値:
TABLES | FORMS
必須: はい
- JobTag
-
Amazon SNS トピックに対して発行される完了通知に含まれる、指定する識別子。例えば、次を使用できます。
JobTag
完了通知が対応する文書のタイプ(納税フォームや領収書など)を識別します。Type: 文字列
長さの制約: 最小長は 1 です。 最大長は 64 です。
パターン:
[a-zA-Z0-9_.\-:]+
必須: いいえ
- KMSKeyId
-
推論結果の暗号化に使用される KMS キー。これは、キー ID 形式またはキーエイリアス形式のいずれかになります。KMS キーが提供されると、KMS キーは、カスタマーバケット内のオブジェクトのサーバー側の暗号化に使用されます。このパラメータが有効でない場合、結果は SSE-S3 を使用してサーバー側で暗号化されます。
Type: 文字列
長さの制約: 最小長は 1 です。 最大長は 2,048 です。
パターン:
^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$
必須: いいえ
- NotificationChannel
-
Amazon Textract でオペレーションの完了ステータスを公開する Amazon SNS トピック ARN。
型: NotificationChannel オブジェクト
必須: いいえ
- OutputConfig
-
出力が顧客定義のバケットに送られるかどうかを設定します。デフォルトでは、Amazon Textract は内部的に結果を保存し、GetDocumentAnalysis s オペレーションによってアクセスされます。
型: OutputConfig オブジェクト
必須: いいえ
レスポンスの構文
{
"JobId": "string"
}
レスポンス要素
アクションが成功すると、サービスは HTTP 200 レスポンスを返します。
サービスから以下のデータが JSON 形式で返されます。
- JobId
-
ドキュメントテキスト検出ジョブの識別子。を使用する
JobId
以降の呼び出しでジョブを識別するにはGetDocumentAnalysis
。あるJobId
値は 7 日間だけ有効です。Type: 文字列
長さの制約: 最小長は 1 です。 最大長は 64 です。
パターン:
^[a-zA-Z0-9-_]+$
エラー
- AccessDeniedException
-
そのアクションを実行する権限がありません。そのオペレーションを実行するには、承認されたユーザーまたは IAM ロールの Amazon リソースネーム (ARN) を使用します。
HTTP ステータスコード: 400
- BadDocumentException
-
Amazon Textract はドキュメントを読み取ることができません。Amazon Textract のドキュメント制限の詳細については、「」を参照してください。Amazon Textract のハード制限。
HTTP ステータスコード: 400
- DocumentTooLargeException
-
文書が大きすぎるため処理できません。同期オペレーションの最大ドキュメントサイズ 10 MB。非同期操作の最大ドキュメントサイズは、PDF ファイルの場合 500 MB です。
HTTP ステータスコード: 400
- IdempotentParameterMismatchException
-
ある
ClientRequestToken
入力パラメータがオペレーションに再利用されましたが、他の入力パラメータの少なくとも 1 つが、オペレーションに対する前回の呼び出しとは異なります。HTTP ステータスコード: 400
- InternalServerError
-
Amazon Textract でサービスの問題が発生しました。もう一度やり直してください。
HTTP ステータスコード: 500
- InvalidKMSKeyException
-
KMS キーが入力された状態で復号化権限がないか、KMS キーが誤って入力されたことを示します。
HTTP ステータスコード: 400
- InvalidParameterException
-
入力パラメータが制約に違反しています。たとえば、同期操作では
InvalidParameterException
例外が発生するのは、どちらもS3Object
またはBytes
値は、Document
リクエストパラメータ。API オペレーションを再度呼び出す前にパラメータを検証します。HTTP ステータスコード: 400
- InvalidS3ObjectException
-
Amazon Textract は、リクエストで指定された S3 オブジェクトにアクセスできません。詳細については、を参照してください。Amazon S3 へのアクセスの設定トラブルシューティング情報については、「」を参照してください。Amazon S3 トラブルシューティング
HTTP ステータスコード: 400
- LimitExceededException
-
Amazon Textract サービスの制限を超えました。たとえば、同時起動する非同期ジョブが多すぎると、オペレーションの開始を呼び出します (
StartDocumentTextDetection
たとえば、) 同時に実行されるジョブの数が Amazon Textract のサービスの制限を下回るまで、limitExceptionException の例外 (HTTP ステータスコード:400) を受け取ります。HTTP ステータスコード: 400
- ProvisionedThroughputExceededException
-
お客様のスループット制限を超えたリクエストの数。この上限を引き上げる場合は、Amazon Textract までお問い合わせください。
HTTP ステータスコード: 400
- ThrottlingException
-
Amazon Textract は一時的にリクエストを処理できませんでした。もう一度やり直してください。
HTTP ステータスコード: 500
- UnsupportedDocumentException
-
入力ドキュメントの形式はサポートされていません。操作用のドキュメントは、PNG、JPEG、PDF、または TIFF 形式にすることができます。
HTTP ステータスコード: 400
以下の資料も参照してください。
言語固有の AWS SDK のいずれかでこの API を使用する方法の詳細については、次を参照してください: