本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
分析文檔
Amazon Textract 分析文檔和表單中檢測到的文本之間的關係。Amazon Textract 分析操作返回三類文檔提取 — 文本、表單和表格。發票和收據的分析通過不同的流程處理,有關詳細信息,請參閲分析發票和收款。
文字提取
從文檔中提取的原始文本。如需詳細資訊,請參閱「」文本的行和單詞。
表單提取
表單數據鏈接到從文檔中提取的文本項。Amazon Textract 將表單數據表示為金鑰/值對。在以下示例中,Amazon Textract 檢測到的文本行之一是名稱: Doe。Amazon Textract 還標識了一個密鑰(名稱:)和一個值(Doe。如需詳細資訊,請參閱「」表單數據(鍵值對)。
名稱: Doe
地址:123 任何街, 安城, 美國
出生日期:12-26-1980
鍵值對還用於表示從表單中提取的複選框或選項按鈕(單選按鈕)。
男性:☑
如需詳細資訊,請參閱「」選擇元素。
表格提取
Amazon Textract 可以提取表格、表格單元格和表格單元格中的項目,並且可以編程以返回 JSON、.csv 或 .txt 文件中的結果。
名稱 | Address |
---|---|
安娜·卡羅萊納州 |
123 任何城市 |
如需更多詳細資訊,請參閱資料表。也可以從表格中提取選擇元素。如需詳細資訊,請參閱「」選擇元素。
對於分析商品,Amazon Textract 以多個方式返回以下內容Block物件:
-
檢測到的文本的行和單詞
-
檢測到的項目的內容
-
檢測到的項目之間的關係
-
檢測到項目的頁面
-
項目在文檔頁面上的位置
您可以使用同步或異步操作來分析文檔中的文本。要同步分析文本,請使用AnalyzeDocument操作,並將文檔作為輸入傳遞。AnalyzeDocument
返回整組結果。如需詳細資訊,請參閱 使用 Amazon Textract 分析文檔文本。
若要異步檢測文字,請使用StartDocumentAnalysis以開始處理。若要獲取結果,請調用GetDocumentAnalysis。結果將在一個或多個響應中返回GetDocumentAnalysis
。如需詳細資訊和範例,請參閱 檢測或分析多頁文檔中的文本。
要指定要執行的分析類型,可以使用FeatureTypes
列表輸入參數。將 TABLE 添加到列表以返回有關在輸入文檔中檢測到的表的信息,例如,表格單元格、單元格文本和單元格中的選擇元素。添加 FORM 以返回單詞關係,例如鍵值對和選擇元素。要執行這兩種類型的分析,請將表和表格添加到FeatureTypes
。
在文檔中檢測到的所有行和單詞都包含在響應中(包括與FeatureTypes
。