Etichettatura - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Etichettatura

Fornisci istruzioni di etichettatura chiare

Un set di dati potrebbe includere campioni ambigui che provocano un'etichettatura incoerente sull'intero set di dati. Ad esempio, si consideri il compito di etichettare le immagini che contengono un cane. Alcuni campioni potrebbero contenere solo un assaggio dell'animale. Dovrebbero essere contrassegnati con un'etichetta positiva o negativa? Questo tipo di problema potrebbe essere risolto fornendo istruzioni chiare e obiettive agli etichettatori.

Usa il voto a maggioranza

Consideriamo ora la questione di etichettare un speech-to-text set di dati che contiene audio rumoroso con parole foneticamente simili o identiche ad altre, come know and go, shoe and two, cry and high o right and write. In questo caso, gli etichettatori potrebbero etichettare questi campioni in modo incoerente.

Per mantenere un elevato grado di correttezza nell'etichettatura, un approccio comune consiste nell'utilizzare il voto a maggioranza, in cui lo stesso campione di dati viene assegnato a più lavoratori e i relativi risultati vengono aggregati. Questo metodo e le sue varianti più sofisticate sono descritte nel post del blog Use the wisdom of crowds with Amazon SageMaker Ground Truth per annotare i dati in modo più accurato sul blog AWS Machine Learning.