Raccolta di dati etichettati - Amazon Machine Learning

Non aggiorniamo più il servizio Amazon Machine Learning né accettiamo nuovi utenti. Questa documentazione è disponibile per gli utenti esistenti, ma non la aggiorniamo più. Per ulteriori informazioni, consulta Cos'è Amazon Machine Learning.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Raccolta di dati etichettati

I problemi con ML iniziano con i dati, preferibilmente molti dati (esempi o osservazioni) di cui si conosce già la risposta target. I dati per i quali si conosce già la risposta target vengono chiamati dati etichettati. Nel ML controllato, l'algoritmo insegna a se stesso ad apprendere dagli esempi etichettati forniti.

Ogni esempio/osservazione nei dati deve contenere due elementi:

  • Il target: la risposta che si desidera prevedere. Si forniscono dati che vengono etichettati con il target (risposta corretta) per consentire all'algoritmo ML di apprendere. Quindi, si potrà utilizzare il modello ML addestrato per prevedere tale risposta sui dati di cui non si conosce la risposta target.

  • Variabili/caratteristiche: si tratta di attributi dell'esempio che possono essere utilizzati per identificare pattern che consentano di prevedere la risposta target.

Ad esempio, per il problema della classificazione delle e-mail, il target è un'etichetta che indica se un'e-mail è spam o non spam. Esempi di variabili sono il mittente dell'e-mail, il testo nel corpo del messaggio e-mail, il testo dell'oggetto, l'ora in cui è stata inviata l'e-mail e la presenza di precedente corrispondenza tra il mittente e il destinatario.

Spesso i dati non sono immediatamente disponibili in forma etichettata. La raccolta e la preparazione delle variabili e del target sono spesso le fasi più importanti nella risoluzione di un problema ML. I dati di esempio devono essere rappresentativi dei dati che si avranno a disposizione durante l'utilizzo del modello per effettuare una previsione. Ad esempio, se si desidera prevedere se un'e-mail è o non è spam, è necessario raccogliere dati positivi (e-mail spam) e negativi (e-mail non spam) affinché l'algoritmo di machine learning sia in grado di trovare pattern che distinguano tra i due tipi di e-mail.

Una volta etichettati i dati, potrebbe essere necessario convertirli in un formato accettabile per l'algoritmo o il software. Ad esempio, per utilizzare Amazon ML devi convertire i dati in formato separato da virgole (CSV) e ogni esempio deve costituire una riga del file CSV, ogni colonna contenente una variabile di input e una colonna contenente la risposta di destinazione.