Análisis de facturas y recibos - Amazon Textract

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Análisis de facturas y recibos

Amazon Textract Texact extrae datos relevantes, como información de contacto, artículos comprados y nombre del proveedor, de casi cualquier factura o recibo sin necesidad de plantillas ni configuración. Las facturas y recibos suelen utilizar varios diseños, lo que dificulta y lleva mucho tiempo extraer datos manualmente a escala. Amazon Textract utiliza ML para comprender el contexto de las facturas y los recibos y extrae automáticamente datos como la fecha de la factura o la recepción, el número de factura o recibo, los precios del artículo, el importe total y las condiciones de pago para satisfacer las necesidades de su empresa.

Amazon Textract también identifica nombres de proveedores que son críticos para sus flujos de trabajo pero que no se etiquetan explícitamente. Por ejemplo, Amazon Textract puede encontrar el nombre del proveedor en un recibo aunque solo se indique dentro de un logotipo en la parte superior de la página sin una combinación explícita de par clave-valor. Amazon Textract Texact también le facilita la consolidación de los insumos de diversos recibos y facturas que utilizan palabras diferentes para el mismo concepto. Por ejemplo, Amazon Textract asigna relaciones entre nombres de campo en distintos documentos, como el número de cliente, el número de cliente y el ID de cuenta, lo que genera taxonomía estándar comoINVOICE_RECEIPT_ID. En este caso, Amazon Textract los datos de forma coherente en distintos tipos de documentos. Los campos que no se alinean con la taxonomía estándar se clasifican comoOTHER.

A continuación se muestra la lista de los campos estándar que AnalyzeExpense admite actualmente:

  • Nombre del proveedor:VENDOR_NAME

  • Total:TOTAL

  • Dirección del destinatario:RECEIVER_ADDRESS

  • Fecha de factura/recepción:INVOICE_RECEIPT_DATE

  • ID de factura/recibo:INVOICE_RECEIPT_ID

  • Condiciones de pago:PAYMENT_TERMS

  • Subtotal:SUBTOTAL

  • Fecha de vencimiento:DUE_DATE

  • Tax:TAX

  • ID del contribuyente de facturas (SSN/ITIN o EIN):TAX_PAYER_ID

  • Nombre del objeto:ITEM_NAME

  • Precio del artículo:PRICE

  • Cantidad de artículo:QUANTITY

La API AnalyzeExpense devuelve los siguientes elementos de una página de documento determinada:

  • El número de recibos o facturas de una página representada comoExpenseIndex

  • El nombre estandarizado de los campos individuales representados comoType

  • El nombre real del campo tal como aparece en el documento, representado comoLabelDetection

  • El valor del campo correspondiente representado comoValueDetection

  • El número de páginas del documento presentado representadas comoPages

  • El número de página en el que se detectó el campo, el valor o las líneas de pedido, representado comoPageNumber

  • La geometría, que incluye el cuadro delimitador y la ubicación de las coordenadas del campo, el valor o los elementos de línea individuales de la página, representada comoGeometry

  • Puntuación de confianza asociada a cada dato detectado en el documento, representado comoConfidence

  • La fila completa de líneas de pedido individuales compradas, representadas comoEXPENSE_ROW

A continuación se muestra una parte de la salida de la API de un recibo procesado por AnalyzeExpense que muestra el Total: 55,64$ en el documento extraído como campo estándarTOTAL, texto real del documento como «Total», Puntuación de confianza de «97,1», Número de página «1», El valor total como «55,64$» y el cuadro delimitador y las coordenadas del polígono:

{ "Type": { "Text": "TOTAL", "Confidence": 99.94717407226562 }, "LabelDetection": { "Text": "Total:", "Geometry": { "BoundingBox": { "Width": 0.09809663146734238, "Height": 0.0234375, "Left": 0.36822840571403503, "Top": 0.8017578125 }, "Polygon": [ { "X": 0.36822840571403503, "Y": 0.8017578125 }, { "X": 0.466325044631958, "Y": 0.8017578125 }, { "X": 0.466325044631958, "Y": 0.8251953125 }, { "X": 0.36822840571403503, "Y": 0.8251953125 } ] }, "Confidence": 97.10792541503906 }, "ValueDetection": { "Text": "$55.64", "Geometry": { "BoundingBox": { "Width": 0.10395314544439316, "Height": 0.0244140625, "Left": 0.66837477684021, "Top": 0.802734375 }, "Polygon": [ { "X": 0.66837477684021, "Y": 0.802734375 }, { "X": 0.7723279595375061, "Y": 0.802734375 }, { "X": 0.7723279595375061, "Y": 0.8271484375 }, { "X": 0.66837477684021, "Y": 0.8271484375 } ] }, "Confidence": 99.85165405273438 }, "PageNumber": 1 }

Puede utilizar operaciones síncronas para analizar una factura o un recibo. Para analizar estos documentos, utilice la operación AnalyzeExpense y le pasa un recibo o factura.AnalyzeExpensedevuelve todo el conjunto de resultados. Para obtener más información, consulte Análisis de facturas y recibos con Amazon Textract.

Para analizar facturas y recibos de forma asíncrona, utiliceStartExpenseAnalysispara empezar a procesar un archivo de documento de entrada. Para obtener los resultados, llameGetExpenseAnalysis. Los resultados de una llamada dada aStartExpenseAnalysisson devueltas porGetExpenseAnalysis. Para obtener más información y un ejemplo, consulte Procesamiento de documentos con operaciones asíncronas.