StartDocumentTextDetection - Amazon Textract

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

StartDocumentTextDetection

開始非同步偵測文件中的文字。Amazon Textract 可以檢測文本行和構成一行文本的單詞。

StartDocumentTextDetection可以分析 JPEG、PNG、TIFF 和 PDF 格式的文檔中的文本。這些文件存放在 Amazon S3 儲存貯體中。使用DocumentLocation指定文件的儲存貯體與影片檔名稱。

StartTextDetection返回一個作業標識符 (JobId),用於獲取操作結果。文字偵測完成後,Amazon Textract 會將完成狀態發佈至 Amazon Simple Notification Service (Amazon SNS) 主題的完成狀態,而此主題會傳送至您在NotificationChannel。要獲取文本檢測操作的結果,請首先檢查發佈到 Amazon SNS 主題的狀態值是SUCCEEDED。如果是這樣,請調用GetDocumentTextDetection,並傳遞作業標識符(JobId)從初始調用到StartDocumentTextDetection

如需詳細資訊,請參閱「」文件文字偵測

請求語法

{ "ClientRequestToken": "string", "DocumentLocation": { "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "JobTag": "string", "KMSKeyId": "string", "NotificationChannel": { "RoleArn": "string", "SNSTopicArn": "string" }, "OutputConfig": { "S3Bucket": "string", "S3Prefix": "string" } }

請求參數

請求接受採用 JSON 格式的下列資料。

ClientRequestToken

用於標識啟動請求的冪等令牌。如果您將相同的令牌與多個StartDocumentTextDetection請求,相同JobId傳回。使用ClientRequestToken以防止同一作業意外多次啟動。如需詳細資訊,請參閱「」調用 Amazon Textract 異步操作

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-_]+$

:必要 否

DocumentLocation

要處理的文檔的位置。

類型:DocumentLocation 物件

:必要 是

JobTag

您指定的標識符,該編碼包含在發佈到 Amazon SNS 主題的完成通知中。例如,您可以使用JobTag標識完成通知對應的單據類型(例如納税表或收據)。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:[a-zA-Z0-9_.\-:]+

:必要 否

KMSKeyId

用於加密推斷結果的 KMS 金鑰。此格式可以是密鑰 ID 或密鑰別名格式。提供 KMS 密鑰後,KMS 密鑰將用於客户存儲桶中的對象的服務器端加密。如果未啟用此參數,則結果將使用 SSE-S3 加密服務器端。

類型:字串

長度限制:長度下限為 1。長度上限為 2048。

模式:^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$

:必要 否

NotificationChannel

您希望亞馬 Amazon Textract 將操作的完成狀態發佈到的 Amazon SNS 主題 ARN。

類型:NotificationChannel 物件

:必要 否

OutputConfig

設置輸出是否轉到客户定義的存儲段。默認情況下,Amazon Textract 將在內部保存結果,以便通過獲取 GetDocumentTextDetection 操作進行訪問。

類型:OutputConfig 物件

:必要 否

回應語法

{ "JobId": "string" }

回應元素

如果動作成功,則服務傳回 HTTP 200 回應。

服務會傳回下列 JSON 格式的資料。

JobId

文檔的文本檢測作業的標識符。使用JobId在後續調用中標識作業GetDocumentTextDetection。一個JobId值僅在 7 天內有效。

類型:字串

長度限制:長度下限為 1。長度上限為 64。

模式:^[a-zA-Z0-9-_]+$

錯誤

AccessDeniedException

您未獲授權執行動作。使用已獲授權之使用者或 IAM 角色的 Amazon Resource Name (ARN) 來執行操作。

HTTP 狀態碼:400

BadDocumentException

Amazon Textract 無法閲讀該文檔。有關 Amazon Textract 中文檔限制的更多信息,請參閲亞馬遜文字中的硬性限制

HTTP 狀態碼:400

DocumentTooLargeException

無法處理該文檔,因為它太大。同步操作的最大文件大小為 10 MB。對於 PDF 文件,異步操作的最大文檔大小為 500 MB。

HTTP 狀態碼:400

IdempotentParameterMismatchException

一個ClientRequestToken輸入參數與操作一起重複用,但至少有一個其他輸入參數不同於先前對操作的呼叫。

HTTP 狀態碼:400

InternalServerError

Amazon Textract 發生服務問題。請再次嘗試呼叫。

HTTP 狀態碼:500

InvalidKMSKeyException

表示您沒有使用輸入的 KMS 密鑰進行解密權限,或者 KMS 密鑰輸入錯誤。

HTTP 狀態碼:400

InvalidParameterException

輸入參數違反限制。例如,在同步操作中,InvalidParameterException異常發生時,S3Object或者Bytes值提供在Document請求參數。請驗證您的參數,然後再次呼叫 API 操作。

HTTP 狀態碼:400

InvalidS3ObjectException

Amazon Textract 無法存取請求中指定的 S3 物件。有關詳細信息,請設定對 Amazon S3 的存取如需故障診斷資訊,請參閱 。故障診斷 Amazon S3

HTTP 狀態碼:400

LimitExceededException

超出 Amazon Textract 服務限制。例如,如果您同時啟動太多的異步作業,則調用以啟動操作 (StartDocumentTextDetection)引發限制拒絕例外狀況 (HTTP 狀態碼:400),直到數量同時執行任務的數量低於 Amazon Textract 服務限制。

HTTP 狀態碼:400

ProvisionedThroughputExceededException

請求數超過您的傳輸量限制。如果您希望提高此限制,請聯絡 Amazon Textract。

HTTP 狀態碼:400

ThrottlingException

Amazon Textract 暫時無法處理請求。請再次嘗試呼叫。

HTTP 狀態碼:500

UnsupportedDocumentException

不支持輸入檔案的格式。操作文檔可以採用 PNG、JPEG、PDF 或 TIFF 格式。

HTTP 狀態碼:400

另請參閱

如需在語言特定的 AWS 開發套件之一中使用此 API 的詳細資訊,請參閱下列說明: