参考架构 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

参考架构

下图显示了将本指南的自动化解决方案应用于每日操作报告后的工作流程。当新文件被载入 Amazon Simple Service (Amazon S3) 时,可以将其存储在 Amazon Simple Service (Amazon QuickSight S3) 中。

该解决方案的工作流程分为四个阶段:摄取、处理、存储和分析。

该图显示了以下四个阶段:

  1. PDF 文件提取 — 您的应用程序会自动在 Amazon Simple Service Service (Amazon S3) 存储桶。当新的 PDF 文件被添加到存储桶时,Amazon S3 会启动一个ObjectCreated事件,这会调用一个AWS Lambda函数。有关更多信息 Amazon S3 Lambda Amazon S3。

  2. PDF 文件处理 — Lambda 函数向 Amazon Textract 发送一个 PDF 文件,后者提取内容。后期处理脚本运行并解析 Amazon Textract 响应,并为此类的 PDF 文件使用预定义的模板。此模板包含正确的属性,有助于正确提取所有键值对、表和其他原始文本。有关这方面的更多信息,请参阅AWS规范指南网站上的 “使用 Amazon Textract 自动从 PDF 文件中提取内容” 模式。

  3. 数据存储 — 除每个 PDF 文件的 JSON 文件外,提取和更正的数据存储在 Amazon DynamoDB 表中。JSON 文件存储在 S3 存储桶中,可供下游处理和分析服务(如 Amazon Athena QuickSight、亚马逊亚马逊)使用 SageMaker。

  4. 分析和可视化 — 亚马逊 QuickSight 分析数据并创建可视化效果,帮助为所有处理过的 PDF 文件生成见解。在 Amazon 中创建仪表板后 QuickSight,您可以将其与最终用户和业务团队共享。

注意事项

本指南的解决方案适用于处理格式相同且表单和表格布局一致的 PDF 文件。但是,您必须定义模板并事先对其进行编辑,以使该过程完全自动化,并使提取的数据可用于分析。然后,在 Lambda 函数的处理过程中使用此模板。

尽管此解决方案可以同时应用于不同的 PDF 文件类型,但您必须为每种 PDF 文件类型创建和定义单独的模板,并将它们存储在可访问的位置(例如,Amazon S3)。我们建议您为每种 PDF 文件类型使用唯一标识符,例如 PDF 文件名或 S3 存储桶中的不同文件夹。然后,Lambda 函数可以在处理 PDF 文件类型时调用相应的模板。