Concatenazione di processi di etichettatura - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Concatenazione di processi di etichettatura

Amazon SageMaker Ground Truth può riutilizzare i set di dati di lavori precedenti in due modi: clonazione e concatenamento.

La modalità clonazione copia la configurazione di un processo di etichettatura precedente e consente di apportare ulteriori modifiche, prima di impostarla per l'esecuzione.

La modalità concatenazione utilizza non solo la configurazione del processo precedente, ma anche i risultati. Questo consente di proseguire un processo non completato e di aggiungere etichette o oggetti dati a un processo completato. La concatenazione è un'operazione più complessa.

Per l’elaborazione dei dati

  • La clonazione utilizza il manifest di input del processo precedente, con modifiche facoltative, come manifest di input del nuovo processo.

  • La concatenazione usa il manifest di output del processo precedente come manifest di input del nuovo processo.

La concatenazione è utile quando è necessario:

  • Proseguire un processo di etichettatura che è stato interrotto manualmente.

  • Continuare un processo di etichettatura che non è riuscito a metà processo, dopo aver risolto i problemi.

  • Passare all'etichettatura dei dati automatizzata dopo avere etichettato manualmente una parte di un processo (o viceversa).

  • Aggiungere altri più oggetti dati a un processo completato e avviare il processo da quel punto.

  • Aggiungere un'altra annotazione a un processo completato. Se ad esempio hai una raccolta di frasi etichettate per argomento e vuoi eseguire di nuovo il set, classificandole in base al pubblico implicito dell'argomento.

In Amazon SageMaker Ground Truth puoi configurare un processo di etichettatura concatenato con la console o l'API.

Termine chiave: nome dell'attributo etichetta

Il nome dell'attributo etichetta (LabelAttributeName nell'API) è una stringa utilizzata come chiave per la coppia chiave-valore formata con l'etichetta che un lavoratore assegna all'oggetto dati.

Per il nome dell'attributo etichetta si applicano le seguenti regole:

  • Tale nome non può terminare con -metadata.

  • I nomi source e source-ref sono riservati e non possono essere utilizzati.

  • Per i processi di etichettatura di segmentazione semantica,, deve finire con -ref. Per tutti gli altri processi di etichettatura, non può finire con -ref. Se utilizzi la console per creare il lavoro, Amazon SageMaker Ground Truth aggiunge automaticamente -ref a tutti i nomi degli attributi delle etichette ad eccezione dei lavori di segmentazione semantica.

  • Per un processo di etichettatura concatenato, se usi lo stesso nome dell'attributo etichetta del processo originario e configuri il processo concatenato per l'utilizzo dell'etichettatura automatica, se a un certo punto è stata usata la modalità di etichettatura automatica, Ground Truth utilizza il modello del processo originario.

In un manifest di output, il nome dell'attributo etichetta appare simile al seguente.

"source-ref": "<S3 URI>", "<label attribute name>": { "annotations": [{ "class_id": 0, "width": 99, "top": 87, "height": 62, "left": 175 }], "image_size": [{ "width": 344, "depth": 3, "height": 234 }] }, "<label attribute name>-metadata": { "job-name": "<job name>", "class-map": { "0": "<label attribute name>" }, "human-annotated": "yes", "objects": [{ "confidence": 0.09 }], "creation-date": "<timestamp>", "type": "groundtruth/object-detection" }

Se crei un processo nella console, Ground Truth usa il nome del processo come nome dell'attributo etichetta per il processo, se non imposti esplicitamente un altro valore.

Avviare un processo concatenato (Console)

Seleziona un processo di etichettatura arrestato, non riuscito o completato nell'elenco dei processi esistenti. Viene abilitato il menu Actions (Azioni).

Nel menu Actions (Operazioni) scegli Copy (Copia).

Pannello Job overview (Panoramica processo)

Nel riquadro Job overview (Panoramica processo) viene impostato un nuovo Job name (Nome processo) in base al titolo del processo da cui si concatena quello corrente. Puoi modificarlo.

Puoi anche specificare un nome dell'attributo etichetta diverso dal nome del processo di etichettatura.

Se esegui la concatenazione da un processo completato, il nome dell'attributo etichetta utilizza il nome del nuovo processo che stai configurando. Per cambiare il nome, seleziona la casella di controllo.

Se esegui la concatenazione da un processo arrestato o non riuscito, il nome dell'attributo etichetta utilizza il nome del processo di origine della concatenazione. Il valore può essere visualizzato e modificato facilmente perché la casella di controllo relativa al nome è selezionata.

Considerazioni relative alla denominazione dell'etichetta attributo
  • Per impostazione predefinita viene utilizzato il nome dell'etichetta attributo selezionato da Ground Truth. Tutti gli oggetti dati senza dati connessi a tale nome dell'attributo etichetta vengono etichettati.

  • Quando si usa un nome dell'attributo etichetta non presente nel manifest, il processo elabora tutti gli oggetti nel set di dati.

La posizione del set di dati di input in questo caso viene selezionata automaticamente come manifest di output del processo concatenato. Il campo di input non è disponibile, quindi non è modificabile.

Aggiunta di oggetti dati a un processo di etichettatura

Non è possibile specificare un file manifest alternativo. Modifica manualmente il manifest di output del processo precedente per aggiungere nuovi elementi prima di avviare un processo concatenato. L'URI di Amazon S3 ti aiuta a individuare la posizione di archiviazione del manifesto nel tuo bucket Amazon S3. Scarica il file manifesto da lì, modificalo in locale nel tuo computer, quindi carica la nuova versione per sostituirlo. Non introdurre errori durante la modifica. Ti consigliamo di usare lo strumento di convalida JSON per controllare il codice JSON. In molti editor di testo e IDE comuni sono disponibili plugin dello strumento di convalida.

Avviare un processo concatenato (API)

La procedura è quasi uguale alla configurazione di un nuovo processo di etichettatura mediante CreateLabelingJob, ma vi sono due importanti differenze.

  • Posizione del manifesto: anziché usare il manifesto originale del processo precedente, il valore ManifestS3Uri in DataSource deve puntare all'URI di Amazon S3 del manifesto di output del processo di etichettatura precedente.

  • Nome dell'attributo etichetta: qui è importante impostare il valore LabelAttributeName corretto. Si tratta della chiave nella coppia chiave-valore in cui i dati di etichettatura sono il valore. Ecco alcuni esempi di casi d'uso:

    • Aggiunta di etichette nuove o più specifiche per un processo completato: imposta un nuovo nome dell'attributo etichetta.

    • Etichettatura di elementi non etichettati da un processo precedente: usa il nome dell'attributo etichetta del processo precedente.

Utilizzo di set di dati parzialmente etichettati

Puoi ottenere alcuni vantaggi di concatenazione se utilizzi un manifest aumentato che è già stato parzialmente etichettato. Seleziona la casella di controllo Label attribute name (Nome attributo etichetta) e imposta il nome in modo che corrisponda al nome nel manifest.

Se utilizzi l'API, le istruzioni sono identiche a quelle per l'avvio di un processo concatenato. Devi però caricare il tuo manifesto in un bucket Amazon S3 e utilizzarlo, invece di utilizzare il manifesto di output di un processo precedente.

Il valore Nome attributo dell’etichetta nel manifesto deve rispettare i requisiti di denominazione illustrati sopra.