Analisando faturas e recibos - Amazon Textract

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Analisando faturas e recibos

O Amazon Textract extrai dados relevantes, como informações de contato, itens comprados e nome do fornecedor, de quase qualquer fatura ou recibo sem a necessidade de nenhum modelo ou configuração. As faturas e os recibos costumam usar vários layouts, dificultando e demorado extrair dados manualmente em escala. Amazon Textract usa ML para entender o contexto de faturas e recibos e extrai automaticamente dados, como data de fatura ou recebimento, número da fatura ou do recibo, preços do item, valor total e condições de pagamento para atender às necessidades da sua empresa.

Amazon Textract também identifica nomes de fornecedores que são críticos para seus fluxos de trabalho, mas podem não ser identificados explicitamente. Por exemplo, o Amazon Textract pode encontrar o nome do fornecedor em um recibo, mesmo que ele seja indicado apenas dentro de um logotipo na parte superior da página sem uma combinação explícita de pares de valores-chave. O Amazon Textract também facilita a consolidação de dados de diversos recibos e faturas que usam palavras diferentes para o mesmo conceito. Por exemplo, o Amazon Textract mapeia relacionamentos entre nomes de campo em documentos diferentes, como número do cliente, número do cliente e ID da conta, gerando taxonomia padrão comoINVOICE_RECEIPT_ID. Nesse caso, o Amazon Textract representa dados de forma consistente em diferentes tipos de documentos. Campos que não se alinham com a taxonomia padrão são categorizados comoOTHER.

A seguir há uma lista dos campos padrão que o AnalyzeExpense suporta atualmente:

  • Nome do fornecedor:VENDOR_NAME

  • Total:TOTAL

  • Endereço do receptor:RECEIVER_ADDRESS

  • Data de fatura/recebimento:INVOICE_RECEIPT_DATE

  • ID de fatura/recibo:INVOICE_RECEIPT_ID

  • Termos de pagamento:PAYMENT_TERMS

  • Subtotal:SUBTOTAL

  • Data de vencimento:DUE_DATE

  • Imposto:TAX

  • ID do pagador do imposto da fatura (SSN/ITIN ou EIN):TAX_PAYER_ID

  • Nome do item:ITEM_NAME

  • Preço do item:PRICE

  • Quantidade do item:QUANTITY

A API AnalyzeExpense retorna os seguintes elementos para uma determinada página de documento:

  • O número de recebimentos ou faturas em uma página representada comoExpenseIndex

  • O nome padronizado para campos individuais representados comoType

  • O nome real do campo como exibido no documento, representado comoLabelDetection

  • O valor do campo correspondente representado comoValueDetection

  • O número de páginas dentro do documento enviado representado comoPages

  • O número da página em que o campo, o valor ou os itens de linha foram detectados, representado comoPageNumber

  • A geometria, que inclui a caixa delimitadora e a localização das coordenadas dos itens de campo, valor ou linha individuais na página, representados comoGeometry

  • A pontuação de confiança associada a cada pedaço de dados detectado no documento, representado comoConfidence

  • A linha inteira de itens de linha individuais comprados, representada comoEXPENSE_ROW

Veja a seguir uma parte da saída da API para um recebimento processado pelo AnalyzeExpense que mostra o Total: US$55,64 no campo documento extraído como padrãoTOTAL, texto real no documento como “Total”, Pontuação de Confiança de “97,1”, Número da Página “1”, O valor total como “$55,64" e a caixa delimitadora e as coordenadas do polígono:

{ "Type": { "Text": "TOTAL", "Confidence": 99.94717407226562 }, "LabelDetection": { "Text": "Total:", "Geometry": { "BoundingBox": { "Width": 0.09809663146734238, "Height": 0.0234375, "Left": 0.36822840571403503, "Top": 0.8017578125 }, "Polygon": [ { "X": 0.36822840571403503, "Y": 0.8017578125 }, { "X": 0.466325044631958, "Y": 0.8017578125 }, { "X": 0.466325044631958, "Y": 0.8251953125 }, { "X": 0.36822840571403503, "Y": 0.8251953125 } ] }, "Confidence": 97.10792541503906 }, "ValueDetection": { "Text": "$55.64", "Geometry": { "BoundingBox": { "Width": 0.10395314544439316, "Height": 0.0244140625, "Left": 0.66837477684021, "Top": 0.802734375 }, "Polygon": [ { "X": 0.66837477684021, "Y": 0.802734375 }, { "X": 0.7723279595375061, "Y": 0.802734375 }, { "X": 0.7723279595375061, "Y": 0.8271484375 }, { "X": 0.66837477684021, "Y": 0.8271484375 } ] }, "Confidence": 99.85165405273438 }, "PageNumber": 1 }

Você pode usar operações síncronas para analisar uma fatura ou um recibo. Para analisar esses documentos, você usa a operação AnalyzeExpense e passa um recibo ou fatura para ela.AnalyzeExpenseretorna todo o conjunto de resultados. Para obter mais informações, consulte Analisando faturas e recibos com o Amazon Textract.

Para analisar faturas e recebimentos de forma assíncrona, useStartExpenseAnalysispara começar a processar um arquivo de documento de entrada. Para obter resultados, ligue paraGetExpenseAnalysis. Os resultados de uma determinada chamada paraStartExpenseAnalysissão retornados porGetExpenseAnalysis. Para obter mais informações e um exemplo, consulte Processando documentos com operações assíncronas.