Práticas recomendadas para o Amazon Textract - Amazon Textract

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Práticas recomendadas para o Amazon Textract

Amazon Textract usa aprendizado de máquina para ler documentos como uma pessoa faria. Ele extrai texto, tabelas e formulários de documentos. Use as melhores práticas a seguir para obter os melhores resultados de seus documentos.

Forneça um documento de entrada ideal

Veja a seguir uma lista de algumas maneiras pelas quais você pode otimizar seus documentos de entrada para obter melhores resultados.

  • Certifique-se de que o texto do documento esteja em um idioma compatível com o Amazon Textract. Atualmente, o Amazon Textract é compatível com inglês, espanhol, alemão, italiano, francês e português.

  • Forneça uma imagem de alta qualidade, idealmente pelo menos 150 DPI.

  • Se o documento já estiver em um dos formatos de arquivo compatíveis com o Amazon Textract (PDF, TIFF, JPEG e PNG), não converta ou diminua a amostra do documento antes de enviá-lo para o Amazon Textract.

Para obter os melhores resultados ao extrair texto de tabelas em documentos, certifique-se de que:

  • As tabelas em seu documento são separadas visualmente dos elementos ao redor na página. Por exemplo, a tabela não é sobreposta em uma imagem ou padrão complexo.

  • O texto dentro da tabela está na posição vertical. Por exemplo, o texto não é girado em relação a outro texto na página.

Ao extrair texto de tabelas, você pode ver resultados inconsistentes quando:

  • Células de tabela mescladas que abrangem várias colunas.

  • Tabelas com células, linhas ou colunas diferentes de outras partes da mesma tabela.

Recomendamos usarDetecção de textoComo solução.

Usar escores de confiança

Você deve levar em consideração as pontuações de confiança retornadas pelas operações da API Amazon Textract e a sensibilidade de seu caso de uso. Um escore de confiança é um número entre 0 e 100 que indica a probabilidade de que uma determinada previsão esteja correta. Isso ajuda você a tomar decisões informadas sobre como você usa os resultados.

Em aplicativos sensíveis a erros de detecção (falsos positivos), imponha um limite mínimo de pontuação de confiança. O aplicativo deve descartar resultados abaixo desse limite ou sinalizar situações como exigindo um nível mais alto de escrutínio humano.

O limite ideal depende do aplicativo. Para fins de arquivamento, como documentar notas manuscritas, pode ser tão baixo quanto 50%. Processos de negócios envolvendo decisões financeiras podem exigir limites de 90% ou mais.

Considere usar a análise humana

Considere também incorporar a revisão humana em seus fluxos de trabalho. Isso é especialmente importante para aplicativos confidenciais, como processos de negócios que envolvem decisões financeiras.