Fornire un documento di input ottimale Utilizzare i punteggi di affidabilità Considerare di utilizzare la revisione

Best practice per Amazon Textract

Amazon Textract utilizza il machine learning per leggere i documenti come farebbe una persona. Estrae testo, tabelle e moduli dai documenti. Utilizza le seguenti best practice per ottenere risultati ottimali dai tuoi documenti.

Fornire un documento di input ottimale

Di seguito è riportato un elenco di alcuni modi per ottimizzare i documenti di input per risultati migliori.

Assicurati che il testo del documento sia in una lingua supportata da Amazon Textract. Attualmente Amazon Textract supporta inglese, spagnolo, tedesco, italiano, francese e portoghese.
Fornisce un'immagine di alta qualità, idealmente almeno 150 DPI.
Se il documento è già in uno dei formati di file supportati da Amazon Textract (PDF, TIFF, JPEG e PNG), non convertire o scaricare il campione prima di caricarlo su Amazon Textract.

Per ottenere risultati ottimali quando si estrae testo dalle tabelle nei documenti, assicurarsi che:

Le tabelle del documento sono visivamente separate dagli elementi circostanti della pagina. Ad esempio, la tabella non è sovrapposta a un'immagine o a un motivo complesso.
Il testo all'interno della tabella è verticale. Ad esempio, il testo non viene ruotato rispetto all'altro testo della pagina.

Quando si estrae il testo dalle tabelle, è possibile che vengano visualizzati risultati incoerenti quando:

Celle di tabella unite che si estendono su più colonne.
Tabelle con celle, righe o colonne diverse dalle altre parti della stessa tabella.

Si consiglia di utilizzarerilevamento del testocome soluzione alternativa.

Utilizzare i punteggi di affidabilità

È necessario tenere conto dei punteggi di fiducia restituiti dalle operazioni dell'API di Amazon Textract e della sensibilità del loro caso d'uso. Un punteggio di attendibilità è un numero compreso tra 0 e 100 che indica la probabilità che una determinata previsione sia corretta. Ti aiuta a prendere decisioni informate su come utilizzi i risultati.

Nelle applicazioni sensibili agli errori di rilevamento (falsi positivi), applicare una soglia minima del punteggio di confidenza. L'applicazione dovrebbe scartare i risultati al di sotto di tale soglia o di contrassegnare le situazioni in quanto richiedono un livello più elevato di controllo umano.

La soglia ottimale varia a seconda dell'applicazione. Per scopi di archiviazione, come la documentazione di note scritte a mano, potrebbe arrivare fino al 50%. I processi aziendali che comportano decisioni finanziarie potrebbero richiedere soglie pari o superiori al 90%.

Considerare di utilizzare la revisione

Considera inoltre di incorporare la revisione umana nei tuoi flussi di lavoro. Ciò è particolarmente importante per applicazioni sensibili, come i processi aziendali che implicano decisioni finanziarie.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Gestione di chiamate limitate e connessioni interrotte

Tutorial