Best practice per Amazon Textract - Amazon Textract

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Best practice per Amazon Textract

Amazon Textract utilizza il machine learning per leggere i documenti come farebbe una persona. Estrae testo, tabelle e moduli dai documenti. Utilizza le seguenti best practice per ottenere risultati ottimali dai tuoi documenti.

Fornire un documento di input ottimale

Di seguito è riportato un elenco di alcuni modi per ottimizzare i documenti di input per risultati migliori.

  • Assicurati che il testo del documento sia in una lingua supportata da Amazon Textract. Attualmente Amazon Textract supporta inglese, spagnolo, tedesco, italiano, francese e portoghese.

  • Fornisce un'immagine di alta qualità, idealmente almeno 150 DPI.

  • Se il documento è già in uno dei formati di file supportati da Amazon Textract (PDF, TIFF, JPEG e PNG), non convertire o scaricare il campione prima di caricarlo su Amazon Textract.

Per ottenere risultati ottimali quando si estrae testo dalle tabelle nei documenti, assicurarsi che:

  • Le tabelle del documento sono visivamente separate dagli elementi circostanti della pagina. Ad esempio, la tabella non è sovrapposta a un'immagine o a un motivo complesso.

  • Il testo all'interno della tabella è verticale. Ad esempio, il testo non viene ruotato rispetto all'altro testo della pagina.

Quando si estrae il testo dalle tabelle, è possibile che vengano visualizzati risultati incoerenti quando:

  • Celle di tabella unite che si estendono su più colonne.

  • Tabelle con celle, righe o colonne diverse dalle altre parti della stessa tabella.

Si consiglia di utilizzarerilevamento del testocome soluzione alternativa.

Utilizzare i punteggi di affidabilità

È necessario tenere conto dei punteggi di fiducia restituiti dalle operazioni dell'API di Amazon Textract e della sensibilità del loro caso d'uso. Un punteggio di attendibilità è un numero compreso tra 0 e 100 che indica la probabilità che una determinata previsione sia corretta. Ti aiuta a prendere decisioni informate su come utilizzi i risultati.

Nelle applicazioni sensibili agli errori di rilevamento (falsi positivi), applicare una soglia minima del punteggio di confidenza. L'applicazione dovrebbe scartare i risultati al di sotto di tale soglia o di contrassegnare le situazioni in quanto richiedono un livello più elevato di controllo umano.

La soglia ottimale varia a seconda dell'applicazione. Per scopi di archiviazione, come la documentazione di note scritte a mano, potrebbe arrivare fino al 50%. I processi aziendali che comportano decisioni finanziarie potrebbero richiedere soglie pari o superiori al 90%.

Considerare di utilizzare la revisione

Considera inoltre di incorporare la revisione umana nei tuoi flussi di lavoro. Ciò è particolarmente importante per applicazioni sensibili, come i processi aziendali che implicano decisioni finanziarie.