Elaborazione delle caratteristiche - Amazon Machine Learning

Non aggiorniamo più il servizio Amazon Machine Learning né accettiamo nuovi utenti. Questa documentazione è disponibile per gli utenti esistenti, ma non la aggiorneremo più. Per ulteriori informazioni, consulta la paginaCos'è Amazon Machine Learning.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Elaborazione delle caratteristiche

Dopo avere imparato a conoscere i propri dati tramite i riepiloghi e le visualizzazioni, è possibile trasformare ulteriormente le proprie variabili per renderle più significative. Questo processo è noto come elaborazione delle caratteristiche. Si supponga, ad esempio, di avere una variabile che acquisisce la data e l'ora in cui si è verificato un evento. Tale data e ora non si verificheranno mai più e, di conseguenza, non saranno utili per prevedere il target. Tuttavia, se questa variabile è trasformata in caratteristiche che rappresentano l'ora del giorno, il giorno della settimana e il mese, tali variabili potrebbero essere utili per scoprire se l'evento tende a verificarsi in una determinata ora, giorno feriale o mese. L'elaborazione delle caratteristiche per formare punti di dati più generalizzabili da cui apprendere può apportare notevoli miglioramenti ai modelli predittivi.

Altre esempi di elaborazione di funzionalità comuni:

  • Sostituzione dei dati mancanti o non validi con valori più significativi (ad esempio, se si sa che il valore mancante di una variabile tipo prodotto significa effettivamente che si tratta di un libro, è possibile sostituire tutti i valori mancanti nel tipo prodotto con il valore per il libro). Una strategia comune utilizzata per imputare i valori mancanti consiste nel sostituire i valori mancanti con la media o il valore mediano. È importante comprendere i dati prima di scegliere una strategia per la sostituzione dei valori mancanti.

  • Formazione di prodotti cartesiani di una variabile con un'altra. Ad esempio, se si dispone di due variabili, come la densità di popolazione (urban, suburban, rural) e lo stato (Washington, Oregon, California), potrebbero esservi informazioni utili nelle caratteristiche costituite da un prodotto cartesiano di queste due variabili, che genera caratteristiche (urban_Washington, suburban_Washington, rural_Washington, urban_Oregon, suburban_Oregon, rural_Oregon, urban_California, suburban_California, rural_California).

  • Trasformazioni non lineari come il binning di variabili numeriche alle categorie. In molti casi, il rapporto tra una caratteristica numerica e la destinazione è non lineare (il valore della caratteristica non aumenta né diminuisce monotonicamente con la destinazione). In questi casi, può essere utile effettuare il binning della caratteristica numerica in caratteristiche categoriche che rappresentano diversi intervalli della caratteristica numerica. Ogni caratteristica categorica (bin) può quindi essere modellata come se avesse la propria relazione lineare con la destinazione. Ad esempio, si supponga di sapere che la caratteristica numerica continua età è correlata non linearmente alla probabilità di acquistare un libro. È possibile effettuare il binning dell'età in caratteristiche categoriche che potrebbero essere in grado di acquisire in modo più preciso il rapporto con la destinazione. Il numero ottimale di bin per una variabile numerica dipende dalle caratteristiche della variabile e dal suo rapporto con la destinazione, e ciò si determina meglio attraverso la sperimentazione. Amazon ML suggerisce il numero ottimale di bin per una caratteristica numerica basata su dati statistici nella composizione suggerita. Consultare la Guida per gli sviluppatori per ulteriori informazioni sulla composizione suggerita.

  • Caratteristiche specifiche di dominio (ad esempio, se si dispone di lunghezza, larghezza e altezza come variabili separate, è possibile creare una nuova caratteristica volume che sia il prodotto di queste tre variabili).

  • Caratteristiche specifiche delle variabili. Alcuni tipi di variabili, come le caratteristiche del testo, che acquisiscono la struttura di una pagina Web o la struttura di una frase, hanno metodi di elaborazione generici che consentono di estrarre struttura e contesto. Ad esempio, la formazione di n-grammi con il testo "the fox jumped over the fence" può essere rappresentata con unigrammi: the, fox, jumped, over, fence o bigrammi: the fox, fox jumped, jumped over, over the, the fence.

L'inclusione delle caratteristiche più importanti aiuta a migliorare la capacità predittiva. Chiaramente, non è sempre possibile conoscere in anticipo le caratteristiche dotate di un "segnale" o di un'influenza predittiva. Pertanto è opportuno includere tutte le caratteristiche che potenzialmente sono correlate all'etichetta di destinazione e lasciare che l'algoritmo di addestramento del modello scelga la caratteristiche con le correlazioni più forti. In Amazon ML, l'elaborazione delle caratteristiche può essere specificata nella composizione durante la creazione di un modello. Consultare la Developer Guide per un elenco di processori di caratteristiche disponibili.