Numero minimo di annotazioni Le migliori pratiche di annotazione

Annotazioni

Le annotazioni etichettano le entità nel contesto associando i tipi di entità personalizzati alle posizioni in cui si trovano nei documenti di formazione.

Inviando le annotazioni insieme ai documenti, è possibile aumentare la precisione del modello. Con Annotations, non stai semplicemente fornendo la posizione dell'entità che stai cercando, ma stai anche fornendo un contesto più accurato all'entità personalizzata che stai cercando.

Ad esempio, se stai cercando il nome John Johnson, con il tipo di entità JUDGE, fornire la tua annotazione potrebbe aiutare il modello a capire che la persona che vuoi trovare è un giudice. Se è in grado di utilizzare il contesto, Amazon Comprehend non troverà persone di nome John Johnson che siano avvocati o testimoni. Senza fornire annotazioni, Amazon Comprehend creerà la propria versione di un'annotazione, ma non sarà altrettanto efficace nell'includere solo i giudici. Fornire annotazioni personalizzate può aiutare a ottenere risultati migliori e a generare modelli in grado di sfruttare meglio il contesto durante l'estrazione di entità personalizzate.

Argomenti

Numero minimo di annotazioni

Il numero minimo di documenti e annotazioni di input necessari per addestrare un modello dipende dal tipo di annotazioni.

Annotazioni PDF

Per creare un modello per l'analisi di file di immagini, PDF o documenti Word, addestrate il vostro addetto al riconoscimento utilizzando le annotazioni PDF. Per le annotazioni PDF, fornisci almeno 250 documenti di input e almeno 100 annotazioni per entità.

Se fornisci un set di dati di test, i dati di test devono includere almeno un'annotazione per ciascuno dei tipi di entità specificati nella richiesta di creazione.

Annotazioni in testo semplice

Per creare un modello per l'analisi dei documenti di testo, potete addestrare il vostro sistema di riconoscimento utilizzando annotazioni in testo semplice.

Per le annotazioni in testo semplice, fornite almeno tre documenti di input annotati e almeno 25 annotazioni per entità. Se fornisci meno di 50 annotazioni in totale, Amazon Comprehend riserva più del 10% dei documenti di input per testare il modello (a meno che tu non abbia fornito un set di dati di test nella richiesta di formazione). Non dimenticare che la dimensione minima del corpus di documenti è di 5 KB.

Se l'input contiene solo pochi documenti di formazione, è possibile che si verifichi un errore nel senso che i dati di input della formazione contengono troppo pochi documenti che menzionano una delle entità. Invia nuovamente il lavoro con documenti aggiuntivi che menzionano l'entità.

Se fornisci un set di dati di test, i dati del test devono includere almeno un'annotazione per ciascuno dei tipi di entità specificati nella richiesta di creazione.

Per un esempio di come eseguire il benchmark di un modello con un set di dati di piccole dimensioni, consulta Amazon Comprehend annuncia limiti di annotazione inferiori per il riconoscimento personalizzato delle entità sul sito del blog. AWS

Le migliori pratiche di annotazione

Esistono diversi fattori da considerare per ottenere risultati ottimali quando si utilizzano le annotazioni, tra cui:

Annota i tuoi dati con cura e verifica di annotare ogni menzione dell'entità. Le annotazioni imprecise possono portare a risultati scadenti.
I dati di input non devono contenere duplicati, come un duplicato di un PDF che intendi annotare. La presenza di un campione duplicato potrebbe causare la contaminazione del set di test e influire negativamente sul processo di addestramento, sulle metriche del modello e sul comportamento del modello.
Assicurati che tutti i tuoi documenti siano annotati e che i documenti senza annotazioni siano dovuti alla mancanza di entità legittime, non a negligenza. Ad esempio, se hai un documento che dice «J Doe è ingegnere da 14 anni», dovresti fornire anche un'annotazione per «J Doe» e «John Doe». In caso contrario, il modello potrebbe confondere il modello e potrebbe non riconoscere «J Doe» come INGEGNERE. Ciò deve essere coerente all'interno dello stesso documento e tra i documenti.
In generale, un numero maggiore di annotazioni porta a risultati migliori.
È possibile addestrare un modello con il numero minimo di documenti e annotazioni, ma l'aggiunta di dati di solito migliora il modello. Si consiglia di aumentare il volume dei dati annotati del 10% per aumentare la precisione del modello. È possibile eseguire l'inferenza su un set di dati di test che rimane invariato e può essere testato con diverse versioni del modello. È quindi possibile confrontare le metriche per le versioni successive del modello.
Fornisci documenti che assomiglino il più possibile a casi d'uso reali. I dati sintetizzati con schemi ripetitivi dovrebbero essere evitati. I dati di input dovrebbero essere il più diversi possibile per evitare un adattamento eccessivo e aiutare il modello sottostante a generalizzare meglio su esempi reali.
È importante che i documenti siano diversi in termini di numero di parole. Ad esempio, se tutti i documenti contenuti nei dati di addestramento sono brevi, il modello risultante potrebbe avere difficoltà a prevedere le entità nei documenti più lunghi.
Provate a fornire per l'addestramento la stessa distribuzione dei dati che vi aspettate di utilizzare quando state effettivamente rilevando le vostre entità personalizzate (tempo di inferenza). Ad esempio, al momento dell'inferenza, se prevedi di inviarci documenti che non contengono entità, anche questi dovrebbero far parte del tuo set di documenti di formazione.

Per ulteriori suggerimenti, consulta Miglioramento delle prestazioni del riconoscimento di entità personalizzato.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Elenchi di entità

Annotazioni in testo semplice