Consolidare le annotazioni - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Consolidare le annotazioni

Una annotazione è il risultato dell'attività di etichettatura di un singolo lavoratore. Il consolidamento delle annotazioni combina le annotazioni di due o più lavoratori in una singola etichetta per gli oggetti dati. Un'etichetta, che viene assegnata a ciascun oggetto nel set di dati, è una stima probabilistica di quel che dovrebbe essere l'etichetta vera. Ogni oggetto nel set di dati in genere dispone di più annotazioni, ma di una sola etichetta o di un solo set di etichette.

Puoi decidere quanti lavoratori annotano ogni oggetto nel set di dati. L’uso di un numero maggiore di lavoratori può aumentare la precisione delle etichette, ma aumenta anche il costo dell'etichettatura. Per ulteriori informazioni sui prezzi di Ground Truth, consulta i prezzi di Amazon SageMaker Ground Truth.

Se utilizzi la SageMaker console Amazon per creare un processo di etichettatura, le seguenti sono le impostazioni predefinite per il numero di lavoratori che possono annotare gli oggetti:

  • Classificazione del testo—Tre lavoratori

  • Classificazione delle immagini—Tre lavoratori

  • Rettangoli di selezione—Cinque lavoratori

  • Segmentazione semantica—Tre lavoratori

  • Riconoscimento entità denominate—Tre lavoratori

Quando utilizzi l'operazione CreateLabelingJob, devi impostare il numero di lavoratori che devono annotare ogni oggetto dati utilizzando il parametro NumberOfHumanWorkersPerDataObject. Puoi sovrascrivere il numero predefinito di lavoratori che annotano un oggetto dati utilizzando la console o l'operazione CreateLabelingJob.

Ground Truth fornisce una funzione di consolidamento delle annotazioni per ciascuna delle attività di etichettatura predefinite: rettangolo di selezione, classificazione delle immagini, Named Entity Recognition, segmentazione semantica e classificazione del testo. Le funzioni sono le seguenti:

  • Il consolidamento delle annotazioni multiclasse per la classificazione delle immagini e del testo utilizza una variante dell'approccio di massimizzazione dell'aspettativa (EM, Expectation Maximization) alle annotazioni. Stima i parametri per ogni lavoratore e utilizza l'inferenza bayesiana per stimare la vera classe in base alle annotazioni classe di singoli lavoratori.

  • L'annotazione riquadro di delimitazione consolida i riquadri di delimitazione da più lavoratori. Individua i riquadri più simili da lavoratori diversi in base all'indice di Jaccard, o intersezione sopra unione, dei riquadri e ne calcola la media.

  • Il consolidamento delle annotazioni di segmentazione semantica tratta ogni pixel in una singola immagine come una classificazione multiclasse. Considera le annotazioni pixel dei lavoratori come "voti", con informazioni aggiuntive provenienti dai pixel circostanti incorporati applicando una funzione di sfumatura all'immagine.

  • Seleziona il testo dei cluster del riconoscimento delle entità denominate in base alla somiglianza di Jaccard e calcola i limiti di selezione in base alla modalità o alla mediana, se la modalità non è chiara. L'etichetta si risolve nell'etichetta di entità più assegnata nel cluster, interrompendo i vincoli per selezione casuale.

Puoi utilizzare altri algoritmi per consolidare le annotazioni. Per informazioni, consulta Creazione di una funzione di consolidamento delle annotazioni.

Creazione di una funzione di consolidamento delle annotazioni

Puoi scegliere di utilizzare la tua funzione di consolidamento delle annotazioni per determinare le etichette finali per gli oggetti etichettati. Esistono molti approcci possibili per scrivere una funzione e l'approccio che adotti dipende dalla natura delle annotazioni da consolidare. In generale, le funzioni di consolidamento osservano le annotazioni dei lavoratori, ne misurano la somiglianza e quindi utilizzano una forma di giudizio probabilistico per determinare quale deve essere l'etichetta più probabile.

Se desideri utilizzare altri algoritmi per creare funzioni di consolidamento delle annotazioni, puoi trovare le risposte del lavoratore nella cartella [project-name]/annotations/worker-response del bucket Amazon S3 nel quale dirigi l'output del processo.

Valutazione della somiglianza

Per valutare la somiglianza tra etichette, puoi utilizzare una delle seguenti strategie o utilizzarne una che soddisfa le esigenze di etichettatura dei dati:

  • Per spazi etichetta costituiti da categorie discrete, mutuamente esclusive, come la classificazione multiclasse, la valutazione della somiglianza può essere semplice. Le etichette discrete o corrispondono o non corrispondono.

  • Per spazi etichetta che non includono valori discreti, come le annotazioni riquadro di delimitazione, occorre trovare una misura di somiglianza ampia. Per i riquadri di delimitazione, una tale misura è l'indice di Jaccard. Questo consente di misurare il rapporto dell'intersezione di due caselle con l'unione delle caselle per valutarne la somiglianza. Ad esempio, se ci sono tre annotazioni, può esserci una funzione che determina quali annotazioni rappresentano lo stesso oggetto e devono essere consolidate.

Valutazione dell'etichetta più probabile

Tenendo in considerazione una delle strategie illustrate nelle sezioni precedenti, crea una sorta di giudizio probabilistico su come deve essere l'etichetta consolidata. Nel caso di categorie discrete mutuamente esclusive, può essere semplice. Uno dei modi più comuni per eseguire questa operazione è prendere i risultati di una votazione a maggioranza tra le annotazioni. Ciò consente di pesare le annotazioni equamente.

Alcuni approcci tentano di stimare la precisione di annotatori diversi e di pesare le relative annotazioni in proporzione alla probabilità di correttezza. Un esempio è il metodo Expectation Maximization, che viene utilizzato nella funzione di consolidamento Ground Truth predefinita per annotazioni multiclasse.

Per ulteriori informazioni sulla creazione di una funzione di consolidamento delle annotazioni, consulta Fase 3: Elaborazione con AWS Lambda.