本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
摄取阶段
您的组织会识别持续生成的 PDF 文件类型(例如,每日运营报告),格式相同,您需要自动定期从中提取数据。要提取此 PDF 文件,您需要一个亚马逊简单存储服务 (Amazon S3) 存储桶,我们建议您创建一个专用 S3 存储桶。但是,您也可以使用现有的 S3 存储桶。有关这方面的更多信息,请参阅 Amazon S3 文档中的创建存储桶。
载入新的 PDF 文件时,S3 存储桶会调用一个 AWS Lambda 函数。有关这方面的更多信息,请参阅文档中的使用 Amazon S3 触发器调用 Lambda 函数。 AWS Lambda
然后,Lambda 函数会处理该 PDF 文件。本指南的处理阶段部分描述了此过程。
摄取阶段的最佳实践
使用以下四种最佳做法来确保成功摄取 PDF 文件:
-
对历史 PDF 文件使用批量摄取,对新的 PDF 文件使用连续摄取。
-
要进行批量摄取,请使用批量转储(例如,从本地驱动器上传 PDF 文件)。如果您有多种 PDF 文件类型,我们建议您使用不同的文件夹来保存每种类型的 PDF 文件。我们还建议对文件使用独特的描述性命名标准,例如
warehouse_<warehouse_number>_<mmddyy>_<PDF_file_type>.pdf
。 -
要持续摄取新的 PDF 文件,您的源系统必须连接到 S3 存储桶。例如,您可以设置从源系统到 S3 存储桶的每日转储。
-
确保您的 PDF 文件质量良好,可读性清晰。我们建议使用原生 PDF 文件,但如果单个单词清晰,您也可以使用转换为 PDF 格式的扫描文档。有关这方面的更多信息,请参阅 Machine Learnin AWS g 博客上的 “使用 Amazon Textract 预处理 PDF 文件:视觉效果检测和
删除”。