Filtraggio e selezione dei dati per l'etichettatura - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Filtraggio e selezione dei dati per l'etichettatura

Puoi utilizzare la SageMaker console Amazon per selezionare una parte del tuo set di dati per l'etichettatura. I dati devono essere archiviati in un bucket S3 Amazon. Sono disponibili tre opzioni:

  • Utilizzare il set di dati completo.

  • Scegliere un campione del set di dati selezionato casualmente.

  • Specificare un sottoinsieme del set di dati utilizzando una query.

Le seguenti opzioni sono disponibili nella sezione Lavori di etichettatura della SageMakerconsole dopo aver selezionato Crea processo di etichettatura. Per informazioni su come creare un processo di etichettatura nella console, consulta Nozioni di base. Per configurare il set di dati utilizzato per l'etichettatura, nella sezione Panoramica dei processi seleziona Configurazione aggiuntiva.

Utilizzo del set di dati completo

Quando scegli di utilizzare il set di dati completo devi fornire un file manifest per gli oggetti dati. Puoi fornire il percorso del bucket Amazon S3 che contiene il file manifest o utilizzare la SageMaker console per creare il file. Per informazioni su come creare un file manifest utilizzando la console, consulta Configurazione automatica dei dati:.

Scelta di un campione casuale

Quando vuoi etichettare un sottoinsieme casuale di dati, seleziona Campione casuale. Il set di dati viene archiviato nel bucket S3 Amazon specificato nel campo Posizione del set di dati di input.

Dopo aver specificato la percentuale di oggetti di dati che desideri includere nell'esempio, scegli Crea sottoinsieme. SageMaker seleziona in modo casuale gli oggetti di dati per il tuo lavoro di etichettatura. Dopo aver selezionato gli oggetti, scegli Usa questo sottoinsieme.

SageMaker crea un file manifesto per gli oggetti dati selezionati. Inoltre modifica il valore nel campo Posizione del set di dati di input in modo da puntare al nuovo file manifest.

Specificare un sottoinsieme

Puoi specificare un sottoinsieme degli oggetti dati utilizzando una query SELECT di S3 Amazon sui nomi di file di oggetti.

L'SELECTistruzione della SQL query è definita automaticamente. La clausola WHERE serve a specificare quali oggetti dati devono essere restituiti.

Per ulteriori informazioni sull'istruzione SELECT di S3 Amazon, consulta Selecting content from Objects.

Scegli Crea sottoinsieme per avviare la selezione, quindi seleziona Usa questo sottoinsieme per utilizzare i dati selezionati.

SageMaker crea un file manifesto per gli oggetti dati selezionati. Aggiorna inoltre il campo Posizione del set di dati di input per puntare al nuovo file manifest.