擷取階段 - AWS 規範指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

擷取階段

您的組織會識別持續產生的 PDF 檔案類型 (例如,每日作業報告)、具有相同格式,以及您需要自動且定期從中擷取資料。若要擷取此 PDF 檔案,您需要 Amazon Simple Storage Service (Amazon S3) 儲存貯體,建議您建立專用 S3 儲存貯體。不過,也可以使用現有 S3 儲存貯體。如需關於此詳細資訊,請參閱 Amazon S3 說明文件中的建立儲存貯體。

擷取新 PDF 檔案時,S3 儲存貯體會叫用AWS Lambda函數。如需此詳細資訊,請參閱AWS Lambda文件中的使用 Amazon S3 觸發器叫用 Lambda 函數

然後,Lambda 函數會處理 PDF 檔案。本指南的加化階段章節將對此程序進行說明。

擷取階段

請使用下列四個最佳作法來確保成功擷取 PDF 檔案:

  • 對歷史 PDF 檔案使用大量擷取,並針對新 PDF 檔案使用持續擷取。

  • 對於大量擷取,請使用大量傾印 (例如,從本機磁碟機上傳 PDF 檔案)。如果您有多個 PDF 檔案類型,建議您使用不同的資料夾來存放每種類型的 PDF 檔案。我們還建議對檔案使用唯一且具描述性的命名標準,例如warehouse_<wharehouse_number>_<mmddyy>_<PDF_file_type>.pdf

  • 若要持續擷取新的 PDF 檔案,您的來源系統必須連接到 S3 儲存貯體。例如,您可以設定從來源系統到 S3 儲存貯體的每日傾印。

  • 確保您的 PDF 文件質量好且清晰可讀。我們建議使用原生 PDF 檔案,但如果個別文字清晰,您也可以使用轉換為 PDF 格式的掃描文件。如需詳細資訊,請參閱 MAWS achine Learning 部落格上的使用 Amazon Textract 進行 PDF 檔案預先處理:視覺效果偵測和移除