分析发票和收据 - Amazon Textract

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

分析发票和收据

Amazon Textract 从几乎任何发票或收据中提取相关数据,例如联系信息、购买的商品和供应商名称,而无需任何模板或配置。发票和收据通常使用各种布局,因此大规模手动提取数据变得困难而且耗时。Amazon Textract 使用 ML 了解发票和收据的上下文,并自动提取诸如发票或收据日期、发票或收据编号、商品价格、总金额和付款条件等数据,以满足您的业务需求。

Amazon Textract 还可以识别对您的工作流程至关重要但可能没有明确标记的供应商名称。例如,Amazon Textract 可以在收据上找到供应商名称,即使该名称仅在页面顶部的徽标中注明,没有明确的键值对组合。Amazon Textract 还可以让您轻松整合来自不同收据和发票的输入,这些收据和发票对同一概念使用不同词汇。例如,Amazon Textract 将不同文档(如客户编号、客户号码和账户 ID)中的字段名称之间的关系映射出来,将标准分类输出为INVOICE_RECEIPT_ID. 在这种情况下,Amazon Textract 一致地表示不同文档类型的数据。与标准分类不一致的字段被归类为OTHER.

以下是 AnalyzeExperet 目前支持的标准字段的列表:

  • 供应商名称:VENDOR_NAME

  • 总计:TOTAL

  • 收件人地址:RECEIVER_ADDRESS

  • 发票/收据日期:INVOICE_RECEIPT_DATE

  • 发票/收据编号:INVOICE_RECEIPT_ID

  • 付款条款:PAYMENT_TERMS

  • 小计:SUBTOTAL

  • 截止日期:DUE_DATE

  • 税:TAX

  • 发票纳税人 ID(SSN/ITIN 或 EIN):TAX_PAYER_ID

  • 项目名称:ITEM_NAME

  • 商品价格:PRICE

  • 商品数量:QUANTITY

分析费用 API 返回给定文档页面的以下元素:

  • 页面中的收据或发票数量表示为ExpenseIndex

  • 表示为的单个字段的标准化名称Type

  • 显示在文档上的字段的实际名称,表示为LabelDetection

  • 表示为的相应字段的值ValueDetection

  • 提交的文档中的页数表示为Pages

  • 检测到字段、值或行项目的页码,表示为PageNumber

  • 几何图形,其中包括边界框和页面上各个字段、值或行项目的坐标位置,表示为Geometry

  • 与文档中检测到的每条数据相关联的置信度评分,表示为Confidence

  • 所购买的单个行商品的整行,表示为EXPENSE_ROW

以下是 AnalyzeExendal 处理的收据的 API 输出的一部分,其中显示了总额:作为标准字段提取的文档中 55.64 美元TOTAL,文档上的实际文本为 “总计”,置信度分数为 “97.1”,页码 “1”,总值为 “$55.64”,边界框和多边形坐标:

{ "Type": { "Text": "TOTAL", "Confidence": 99.94717407226562 }, "LabelDetection": { "Text": "Total:", "Geometry": { "BoundingBox": { "Width": 0.09809663146734238, "Height": 0.0234375, "Left": 0.36822840571403503, "Top": 0.8017578125 }, "Polygon": [ { "X": 0.36822840571403503, "Y": 0.8017578125 }, { "X": 0.466325044631958, "Y": 0.8017578125 }, { "X": 0.466325044631958, "Y": 0.8251953125 }, { "X": 0.36822840571403503, "Y": 0.8251953125 } ] }, "Confidence": 97.10792541503906 }, "ValueDetection": { "Text": "$55.64", "Geometry": { "BoundingBox": { "Width": 0.10395314544439316, "Height": 0.0244140625, "Left": 0.66837477684021, "Top": 0.802734375 }, "Polygon": [ { "X": 0.66837477684021, "Y": 0.802734375 }, { "X": 0.7723279595375061, "Y": 0.802734375 }, { "X": 0.7723279595375061, "Y": 0.8271484375 }, { "X": 0.66837477684021, "Y": 0.8271484375 } ] }, "Confidence": 99.85165405273438 }, "PageNumber": 1 }

您可以使用同步操作来分析发票或收据。要分析这些文档,您可以使用 AnalyzeExendal 操作并向其传递收据或发票。AnalyzeExpense返回整组结果。有关更多信息,请参阅 使用 Amazon Textract 分析发票和收据

要异步分析发票和收据,请使用StartExpenseAnalysis开始处理输入文档文件。要获得结果,请致电GetExpenseAnalysis. 给定呼叫的结果StartExpenseAnalysis返回方GetExpenseAnalysis. 有关更多信息以及示例,请参阅 使用异步操作处理文档