Preparazione di dati con trasformazioni avanzate - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Preparazione di dati con trasformazioni avanzate

Nota

È possibile utilizzare solo trasformazioni avanzate per modelli basati su set di dati tabulari. Sono esclusi anche i modelli di previsione del testo multicategoria.

Il set di dati di machine learning potrebbe richiedere la preparazione dei dati prima di creare il modello. Potresti voler pulire i dati a causa di vari problemi, tra cui valori mancanti o valori anomali, ed eseguire l'ingegneria delle caratteristiche per migliorare la precisione del modello. Amazon SageMaker Canvas fornisce trasformazioni di dati ML con cui puoi pulire, trasformare e preparare i dati per la creazione di modelli. Puoi utilizzare queste trasformazioni sui tuoi set di dati senza alcun codice. SageMaker Canvas aggiunge le trasformazioni utilizzate alla ricetta del modello, che è una registrazione della preparazione dei dati effettuata sui dati prima di creare il modello. Qualsiasi trasformazione dati utilizzata modifica solo i dati di input per la creazione del modello e non la fonte di dati originale.

Le seguenti trasformazioni sono disponibili in SageMaker Canvas per preparare i dati per la creazione.

Nota

L'anteprima del set di dati mostra le prime 100 righe del set di dati. Se il tuo set di dati ha più di 20.000 righe, Canvas prende un campione casuale di 20.000 righe e visualizza in anteprima le prime 100 righe di quel campione. È possibile cercare e specificare solo i valori delle righe visualizzate in anteprima e la funzionalità di filtro filtra solo le righe visualizzate in anteprima e non l'intero set di dati.

Eliminazione di colonne

Puoi escludere una colonna dalla build del modello rilasciandola nella scheda Build dell'applicazione SageMaker Canvas. Deseleziona la colonna che desideri eliminare e non verrà inclusa durante la creazione del modello.

Nota

Se elimini le colonne e poi fai previsioni in batch con il tuo modello, SageMaker Canvas aggiunge le colonne eliminate al set di dati di output disponibile per il download. Tuttavia, SageMaker Canvas non aggiunge nuovamente le colonne eliminate per i modelli di serie temporali.

Filtraggio delle righe

La funzionalità di filtro filtra le righe visualizzate in anteprima (le prime 100 righe del set di dati) in base alle condizioni specificate. Il filtraggio delle righe crea un'anteprima temporanea dei dati e non influisce sulla creazione del modello. È possibile filtrare per visualizzare in anteprima le righe con valori mancanti, che contengono valori anomali o soddisfano condizioni personalizzate in una colonna a tua scelta.

Filtraggio delle righe in base ai valori mancanti

I valori mancanti sono un'occorrenza comune nei set di dati di machine learning. Se hai righe con valori nulli o vuoti in determinate colonne, potresti voler filtrare e visualizzare in anteprima tali righe.

Per filtrare i valori mancanti dai dati visualizzati in anteprima, effettua le seguenti operazioni.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, scegli Filtra per righe ( Filter icon in the SageMaker Canvas application. ).

  2. Scegli la colonna in cui desideri verificare la presenza di valori mancanti.

  3. Per Operazione, scegli Mancante.

SageMaker Canvas filtra le righe che contengono valori mancanti nella colonna selezionata e fornisce un'anteprima delle righe filtrate.

Schermata del filtro mediante l'operazione dei valori mancanti nell'applicazione SageMaker Canvas.

Filtraggio delle righe per valori anomali

I valori anomali, o valori rari nella distribuzione e nell'intervallo dei dati, possono influire negativamente sulla precisione del modello e portare a tempi di costruzione più lunghi. SageMaker Canvas consente di rilevare e filtrare le righe che contengono valori anomali nelle colonne numeriche. È possibile scegliere di definire valori anomali con deviazioni standard o un intervallo personalizzato.

Per filtrare i valori anomali nei dati, effettua le seguenti operazioni.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, scegli Filtra per righe (). Filter icon in the SageMaker Canvas application.

  2. Scegli la colonna in cui desideri verificare la presenza di valori anomali.

  3. Per Operazione, scegli Valore anomalo.

  4. Imposta l'Intervallo di valore anomalo su Deviazione standard o Intervallo personalizzato.

  5. Se scegli Deviazione standard, specifica un valore SD (deviazione standard) compreso tra 1 e 3. Se scegli Intervallo personalizzato, seleziona Percentile o Numero, quindi specifica i valori Min e Max.

L'opzione Deviazione standard rileva e filtra i valori anomali nelle colonne numeriche utilizzando media e deviazione standard. Si specifica il numero di deviazioni standard. Un valore deve variare dalla media per essere considerato un valore anomalo. Ad esempio, se si specifica 3 per DS, un valore deve scendere di più di 3 deviazioni standard dalla media per essere considerato un valore anomalo.

L'opzione Intervallo personalizzato rileva e filtra i valori anomali nelle colonne numeriche utilizzando valori minimi e massimi. Utilizza questo metodo se conosci i valori di soglia che delimitano i valori anomali. È possibile impostare il Tipo dell'intervallo su Percentile o Numero. Se scegli Percentile, i valori Min e Max devono essere il minimo e il massimo dell'intervallo di percentili (0-100) che si desidera consentire. Se scegli Numero, i valori Min e Max devono essere i valori numerici minimo e massimo che desideri filtrare nei dati.

Schermata dell'operazione di filtro per valori anomali nell'applicazione Canvas. SageMaker

Filtraggio delle righe in base a valori personalizzati

È possibile filtrare le righe con valori che soddisfano condizioni personalizzate. Ad esempio, potresti voler visualizzare in anteprima le righe con un valore di prezzo superiore a 100 prima di rimuoverle. Con questa funzionalità, è possibile filtrare le righe che superano la soglia impostata e visualizzare in anteprima i dati filtrati.

Per utilizzare la funzionalità di filtro personalizzato, effettua le seguenti operazioni.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, scegliete Filtra per righe (). Filter icon in the SageMaker Canvas application.

  2. Scegli la Colonna che desideri verificare.

  3. Seleziona il tipo di Operazione che desideri utilizzare, quindi specifica i valori per la condizione selezionata.

Per Operazione, è possibile scegliere una delle seguenti opzioni. Nota che le operazioni disponibili dipendono dal tipo di dati della colonna scelta. Ad esempio, non è possibile creare un'operazione is greater than per una colonna contenente valori di testo.

Operazione Tipo di dati supportati Tipo di caratteristica supportata Funzione

È uguale a

Numerico, testo

Binario, categorico

Filtra le righe in cui il valore in Colonna è uguale ai valori specificati.

Non è uguale a

Numerico, testo

Binario, categorico

Filtra le righe in cui il valore in Colonna non è uguale ai valori specificati.

È minore di

Numerico

N/D

Filtra le righe in cui il valore in Colonna è minore rispetto al valore specificato.

È minore di o uguale a

Numerico

N/D

Filtra le righe in cui il valore in Colonna è minore o uguale ai valori specificati.

È maggiore di

Numerico

N/D

Filtra le righe in cui il valore in Colonna è maggiore rispetto ai valori specificati.

È maggiore di o uguale a

Numerico

N/D

Filtra le righe in cui il valore in Colonna è maggiore di o uguale al valore specificato.

È compreso tra

Numerico

N/D

Filtra le righe in cui il valore in Colonna è compreso tra o uguale ai valori specificati.

Contiene

Testo

Categoriale

Filtra le righe in cui il valore in Colonna contiene i valori specificati dall'utente.

Inizia con

Testo

Categoriale

Filtra le righe in cui il valore in Colonna inizia con un valore specificato dall'utente.

Ends with

Categoriale

Categoriale

Filtra le righe in cui il valore in Colonna termina con un valore specificato dall'utente.

Dopo aver impostato l'operazione di filtro, SageMaker Canvas aggiorna l'anteprima del set di dati per mostrarvi i dati filtrati.

Schermata dell'operazione di filtro mediante valori personalizzati nell'applicazione Canvas. SageMaker

Funzioni e operatori

È possibile utilizzare funzioni e operatori matematici per l'esplorazione e la distribuzione dei dati. È possibile utilizzare le funzioni supportate da SageMaker Canvas o creare una formula personalizzata con i dati esistenti e creare una nuova colonna con il risultato della formula. Ad esempio, è possibile aggiungere i valori corrispondenti di due colonne e salvare il risultato in una nuova colonna.

È possibile nidificare le istruzioni per creare funzioni più complesse. Di seguito sono riportati alcuni esempi di funzioni nidificate che è possibile utilizzare.

  • Per calcolare l'IMC, è possibile utilizzare la funzione weight / (height ^ 2).

  • Per classificare le età, puoi utilizzare la funzione Case(age < 18, 'child', age < 65, 'adult', 'senior').

È possibile specificare le funzioni nella fase di preparazione dei dati prima di creare il modello. Per importare una funzione, procedi nel modo seguente:

  • Nella scheda Crea dell'applicazione SageMaker Canvas, scegli Visualizza tutto, quindi scegli Formula personalizzata per aprire il pannello Formula personalizzata.

  • Nel pannello Formula personalizzata, è possibile scegliere una formula da aggiungere alla tua Ricetta del modello. Ogni formula viene applicata a tutti i valori nelle colonne specificate. Per le formule che accettano due o più colonne come argomenti, utilizzate colonne con tipi di dati corrispondenti; in caso contrario, nella nuova colonna viene visualizzato un errore o dei null valori.

  • Dopo aver specificato una formula, aggiungi un nome di colonna nel campo Nome nuova colonna. SageMaker Canvas usa questo nome per la nuova colonna che viene creata.

  • (Facoltativo) Scegli Anteprima per visualizzare l'anteprima della trasformazione.

  • Per aggiungere la funzione alla tua Ricetta del modello, scegli Aggiungi.

SageMaker Canvas salva il risultato della funzione in una nuova colonna utilizzando il nome specificato in New Column Name. È possibile visualizzare o rimuovere le funzioni dal pannello Ricetta del modello.

SageMaker Canvas supporta i seguenti operatori per le funzioni. È possibile utilizzare il formato testo o il formato in linea per specificare la funzione.

Operatore Descrizione Tipi di dati supportati Formato testo Formato in linea

Add (Aggiungi)

Restituisce la somma dei valori

Numerico

Aggiungi (vendite1, vendite2)

vendite1 + vendite2

Subtract (Sottrai)

Restituisce la differenza tra i valori

Numerico

Sottrai (vendite1, vendite2)

vendite1 + vendite2

Multiply (Moltiplica)

Restituisce la somma dei valori

Numerico

Moltiplica (vendite1, vendite2)

vendite1 * vendite2

Divide (Dividi)

Restituisce il quoziente dei valori

Numerico

Divide (vendite1, vendite2)

vendite1 / vendite2

Mod

Restituisce il risultato dell'operatore modulo (il resto dopo la divisione dei due valori)

Numerico

Mod(vendite1, vendite2)

vendite1 % vendite2

Abs

Restituisce il valore assoluto del valore

Numerico

Abs (vendite1)

N/D

Nega

Restituisce il negativo del valore

Numerico

Nega (c1)

‐c1

Exp

Restituisce e (numero di Eulero) elevato alla potenza del valore

Numerico

Exp(vendite1)

N/D

Log

Restituisce il logaritmo (in base 10) del valore

Numerico

Log(vendite1)

N/D

Ln

Restituisce il logaritmo naturale (in base e) del valore

Numerico

Ln(vendite1)

N/D

Pow

Restituisce il valore elevato a una potenza

Numerico

Pow(vendite 1, 2)

vendite 1 ^ 2

Se

Restituisce un'etichetta vera o falsa in base a una condizione specificata

Booleano, numerico, testo

Se(sales1>7000, 'truelabel, 'falselabel')

N/D

Or

Restituisce un valore booleano che indica se uno dei valori o delle condizioni specificati è vero o meno

Booleano

Oppure(prezzopieno, sconto)

prezzopieno, || sconto

And

Restituisce un valore booleano che indica se due dei valori o delle condizioni specificati sono vere o meno

Booleano

E(vendite1, vendite2)

vendite1 && vendite2

Not

Restituisce un valore booleano che è l'opposto del valore o delle condizioni specificati

Booleano

Not(vendite1)

!vendite1

Caso

Restituisce un valore booleano basato su istruzioni condizionali (restituisce c1 se cond1 è vero, restituisce c2 se cond2 è vero, altrimenti restituisce c3)

Booleano, numerico, testo

Caso(cond1, c1, cond2, c2, c3)

N/D

Uguale

Restituisce un valore booleano che indica se due valori sono uguali

Booleano, numerico, testo

N/D

c1 = c2

c1 == c2

Non uguale

Restituisce un valore booleano che indica se due valori non sono uguali

Booleano, numerico, testo

N/D

c1!= c2

Minore di

Restituisce un valore booleano che indica se c1 è minore di c2

Booleano, numerico, testo

N/D

c1 < c2

Maggiore di

Restituisce un valore booleano che indica se c1 è maggiore di c2

Booleano, numerico, testo

N/D

c1 > c2

Minore di o uguale a

Restituisce un valore booleano che indica se c1 è minore o uguale a c2

Booleano, numerico, testo

N/D

c1 < c2

Maggiore di o uguale a

Restituisce un valore booleano che indica se c1 è maggiore o uguale a c2

Booleano, numerico, testo

N/D

c1 >= c2

SageMaker Canvas supporta anche operatori aggregati, che possono eseguire operazioni come il calcolo della somma di tutti i valori o la ricerca del valore minimo in una colonna. È possibile utilizzare operatori di aggregazione in combinazione con operatori standard nelle funzioni. Ad esempio, per calcolare la differenza tra i valori e la media, è possibile utilizzare la funzione. Abs(height – avg(height)) SageMaker Canvas supporta i seguenti operatori di aggregazione.

Operatore di aggregazione Descrizione Formato Esempio

sum

Restituisce la somma di tutti i valori in una colonna

sum

sum(c1)

minimum

Restituisce il valore minimo di una colonna

min

min(c2)

maximum

Restituisce il valore massimo di una colonna

max

max(c3)

average

Restituisce il valore medio di una colonna

avg

avg(c4)

std

Restituisce la deviazione standard di esempio di una colonna

std

std(c1)

stddev

Restituisce la deviazione standard dei valori in una colonna

stddev

stddev(c1)

variance

Restituisce lo scostamento imparziale dei valori di una colonna

variance

variance(c1)

approx_count_distinct

Restituisce il numero approssimativo di elementi distinti in una colonna

approx_count_distinct

approx_count_distinct(c1)

count

Restituisce il numero di elementi in una colonna

count

count(c1)

first

Restituisce il valore medio di una colonna

first

first(c1)

last

Restituisce l'ultimo valore di una colonna

last

last(c1)

stddev_pop

Restituisce la deviazione standard della popolazione di una colonna

stddev_pop

stddev_pop(c1)

variance_pop

Restituisce lo scostamento della popolazione dei valori in una colonna

variance_pop

variance_pop(c1)

Gestisci righe

Con la trasformazione Gestisci righe, è possibile ordinare, mischiare in modo casuale e rimuovere righe di dati dal set di dati.

Ordinare le righe

Per ordinare le righe di un set di dati in base a una determinata colonna, effettua le seguenti operazioni.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci righe, quindi scegli Ordina righe.

  2. Per Ordina colonna, scegli la colonna che desideri ordinare.

  3. Per Criterio di ordinamento, seleziona Crescente o Decrescente.

  4. Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.

Mischiare le righe

Per mischiare casualmente le righe in un set di dati, effettua le seguenti operazioni.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci righe, quindi scegli Shuffle rows.

  2. Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.

Eliminare le righe duplicate

Per rimuovere le righe duplicate in un set di dati, effettua le seguenti operazioni.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci righe, quindi scegli Elimina righe duplicate.

  2. Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.

Rimuovere le righe per valori mancanti

I valori mancanti sono un'occorrenza comune nei set di dati di machine learning e possono avere un impatto sulla precisione del modello. Utilizza questa trasformazione se desideri eliminare righe con valori nulli o vuoti in determinate colonne.

Per rimuovere le righe che contengono valori mancanti in una colonna specificata, effettua le seguenti operazioni.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci righe.

  2. Scegli Elimina righe per valori mancanti.

  3. Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.

SageMaker Canvas rilascia le righe che contengono valori mancanti nella colonna selezionata. Dopo aver rimosso le righe dal set di dati, SageMaker Canvas aggiunge la trasformazione nella sezione Model recipe. Se rimuovi la trasformazione dalla sezione Ricetta del modello, le righe ritornano al tuo set di dati.

Schermata dell'operazione di rimozione delle righe mediante valori mancanti nell'applicazione SageMaker Canvas.

Rimuovere le righe per valori anomali

I valori anomali, ovvero valori rari nella distribuzione e nell'intervallo dei dati, possono influire negativamente sulla precisione del modello e portare a tempi di creazione più lunghi. Con SageMaker Canvas, puoi rilevare e rimuovere le righe che contengono valori anomali nelle colonne numeriche. È possibile scegliere di definire valori anomali con deviazioni standard o un intervallo personalizzato.

Per rimuovere valori anomali dai dati, effettua le seguenti operazioni.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci righe.

  2. Scegli Elimina righe per valori anomali.

  3. Scegli la Colonna in cui desideri verificare la presenza di valori anomali.

  4. Imposta l’Operatore su Deviazione standard, Intervallo numerico personalizzato o Intervallo quantile personalizzato.

  5. Se scegli Deviazione standard, specifica un valore Deviazioni standard compreso tra 1 e 3. Se scegli Intervallo numerico personalizzato o Intervallo quantile personalizzato, specifica i valori minimo e massimo (numeri per gli intervalli numerici o percentili compresi tra 0 e 100% per gli intervalli quantili).

  6. Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.

L'opzione Deviazione standard rileva e rimuove i valori anomali nelle colonne numeriche utilizzando la media e la deviazione standard. Si specifica il numero di deviazioni standard. Un valore deve variare dalla media per essere considerato un valore anomalo. Ad esempio, se si specifica 3 per Deviazioni standard, un valore deve scendere di più di 3 deviazioni standard dalla media per essere considerato un valore anomalo.

Le opzioni Intervallo numerico personalizzato e Intervallo quantile personalizzato rilevano e rimuovono i valori anomali nelle colonne numeriche utilizzando valori minimi e massimi. Utilizzare questo metodo se si conoscono i valori di soglia che delimitano i valori anomali. Se si sceglie un intervallo numerico, i valori Min e Max devono essere i valori numerici minimo e massimo che si desidera consentire nei dati. Se si sceglie un intervallo quantile, i valori Min e Max devono essere il minimo e il massimo dell'intervallo di percentili (0-100) che si desidera consentire.

Dopo aver rimosso le righe dal set di dati, SageMaker Canvas aggiunge la trasformazione nella sezione Model recipe. Se rimuovi la trasformazione dalla sezione Ricetta del modello, le righe ritornano al tuo set di dati.

Schermata dell'operazione di rimozione delle righe tramite outliers nell'applicazione Canvas. SageMaker

Rimuovere le righe iper valori personalizzati

È possibile filtrare le righe con valori che soddisfano condizioni personalizzate. Ad esempio, potresti voler escludere tutte le righe con un valore di prezzo superiore a 100 durante la creazione del modello. Con questa trasformazione, è possibile creare una regola che rimuove tutte le righe che superano la soglia impostata.

Per utilizzare la trasformazione di rimozione personalizzata, effettua le seguenti operazioni.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci righe.

  2. Scegli Elimina righe per formula.

  3. Scegli la Colonna che desideri verificare.

  4. Seleziona il tipo di Operazione che desideri utilizzare, quindi specifica i valori per la condizione selezionata.

  5. Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.

Per l'Operazione, è possibile scegliere una delle seguenti opzioni. Nota che le operazioni disponibili dipendono dal tipo di dati della colonna scelta. Ad esempio, non è possibile creare un'operazione is greater than per una colonna contenente valori di testo.

Operazione Tipo di dati supportati Tipo di caratteristica supportata Funzione

È uguale a

Numerico, testo

Binario, categorico

Rimuove le righe in cui il valore in Colonna è uguale ai valori specificati.

Non è uguale a

Numerico, testo

Binario, categorico

Rimuove le righe in cui il valore in Colonna non è uguale ai valori specificati.

È minore di

Numerico

N/D

Rimuove le righe in cui il valore in Colonna è minore rispetto al valore specificato.

È minore di o uguale a

Numerico

N/D

Rimuove le righe in cui il valore in Colonna è minore di o uguale ai valori specificati.

È maggiore di

Numerico

N/D

Rimuove le righe in cui il valore in Colonna è maggiore rispetto al valore specificato.

È maggiore di o uguale a

Numerico

N/D

Rimuove le righe in cui il valore in Colonna è maggiore di o uguale al valore specificato.

È compreso tra

Numerico

N/D

Rimuove le righe in cui il valore in Colonna è compreso tra o uguale ai valori specificati.

Contiene

Testo

Categoriale

Rimuove le righe in cui il valore in Colonna contiene i valori specificati dall'utente.

Inizia con

Testo

Categoriale

Filtra le righe in cui il valore in Colonna inizia con un valore specificato dall'utente.

Ends with

Testo

Categoriale

Rimuove le righe in cui il valore in Colonna termina con un valore specificato dall'utente.

Dopo aver rimosso le righe dal set di dati, SageMaker Canvas aggiunge la trasformazione nella sezione Model recipe. Se rimuovi la trasformazione dalla sezione Ricetta del modello, le righe ritornano al tuo set di dati.

Schermata dell'operazione di rimozione delle righe mediante valori personalizzati nell'applicazione SageMaker Canvas.

Rinominare le colonne

Con la trasformazione di ridenominazione delle colonne, è possibile rinominare le colonne nei tuoi dati. Quando si rinomina una colonna, SageMaker Canvas modifica il nome della colonna nell'input del modello.

È possibile rinominare una colonna nel set di dati facendo doppio clic sul nome della colonna nella scheda Build dell'applicazione SageMaker Canvas e inserendo un nuovo nome. Premendo il tasto Invio si invia la modifica e facendo clic in un punto qualsiasi al di fuori dell'input si annulla la modifica. Inoltre, puoi rinominare una colonna facendo clic sull'icona Altre opzioni ( More options icon at the end of a row. ), situata alla fine della riga nella visualizzazione elenco o alla fine della cella di intestazione nella visualizzazione a griglia e scegliendo Rinomina.

Il nome della colonna non può contenere più di 32 caratteri o avere caratteri di sottolineatura doppi (__) e non puoi rinominare una colonna con lo stesso nome di un'altra colonna. Inoltre, non puoi rinominare una colonna eliminata.

Lo screenshot seguente mostra come rinominare una colonna facendo doppio clic sul nome della colonna.

Schermata della ridenominazione di una colonna con il metodo del doppio clic nell'applicazione Canvas. SageMaker

Quando rinomini una colonna, SageMaker Canvas aggiunge la trasformazione nella sezione Model recipe. Se si rimuove la trasformazione dalla sezione Ricetta del modello, la colonna torna al suo nome originale.

Gestione delle colonne

Con le seguenti trasformazioni, puoi modificare il tipo di dati delle colonne e sostituire i valori o gli outlier mancanti per colonne specifiche. SageMaker Canvas utilizza i tipi o i valori di dati aggiornati durante la creazione del modello, ma non modifica il set di dati originale. Nota che se hai eliminato una colonna dal tuo set di dati utilizzando la Eliminazione di colonne trasformazione, non puoi sostituire i valori in quella colonna.

Sostituzione dei valori mancanti

I valori mancanti sono un'occorrenza comune nei set di dati di machine learning e possono avere un impatto sulla precisione del modello. È possibile scegliere di eliminare le righe con valori mancanti, ma il tuo modello è più preciso se scegli invece di sostituire i valori mancanti. Con questa trasformazione, è possibile sostituire i valori mancanti nelle colonne numeriche con la media o la mediana dei dati in una colonna oppure è possibile anche specificare un valore personalizzato con cui sostituire i valori mancanti. Per le colonne non numeriche, è possibile sostituire i valori mancanti con la modalità (valore più comune) della colonna o con un valore personalizzato.

Utilizza questa trasformazione se desideri eliminare righe con valori nulli o vuoti in determinate colonne. Per sostituire i valori mancanti in una colonna specificata, effettua le seguenti operazioni.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci colonne.

  2. Scegli Sostituisci i valori mancanti.

  3. Scegli la Colonna in cui desideri sostituire i valori mancanti.

  4. Imposta Modalità su Manuale per sostituire i valori mancanti con valori specificati dall'utente. Con l'impostazione Automatico (predefinita), SageMaker Canvas sostituisce i valori mancanti con valori imputati che meglio si adattano ai dati. Questo metodo di attribuzione viene eseguito automaticamente per ogni creazione del modello, a meno che non si specifichi la modalità Manuale.

  5. Imposta il valore Sostituisci con:

    • Se la colonna è numerica, seleziona Media, Mediana o Personalizzata. Media sostituisce i valori mancanti con la media della colonna e Mediana sostituisce i valori mancanti con la mediana della colonna. Se scegli Personalizzato, devi specificare un valore personalizzato che desideri utilizzare per sostituire i valori mancanti.

    • Se la colonna è non numerica, seleziona Modalità o Personalizzato. La Modalità sostituisce i valori mancanti con la modalità, o il valore più comune, per la colonna. Per Personalizzato, devi specificare un valore personalizzato che desideri utilizzare per sostituire i valori mancanti.

  6. Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.

Dopo aver sostituito i valori mancanti nel set di dati, SageMaker Canvas aggiunge la trasformazione nella sezione Model recipe. Se rimuovi la trasformazione dalla sezione Ricetta del modello, i valori mancanti ritornano al tuo set di dati.

Schermata dell'operazione di sostituzione dei valori mancanti nell'applicazione SageMaker Canvas.

Sostituzione dei valori anomali

I valori anomali, o valori rari nella distribuzione e nell'intervallo dei dati, possono influire negativamente sulla precisione del modello e portare a tempi di costruzione più lunghi. SageMaker Canvas consente di rilevare i valori anomali nelle colonne numeriche e di sostituirli con valori che rientrano in un intervallo accettato nei dati. È possibile scegliere di definire valori anomali con deviazioni standard o un intervallo personalizzato e sostituire i valori anomali con i valori minimi e massimi nell'intervallo accettato.

Per sostituire i valori anomali nei dati, effettua le seguenti operazioni.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, scegli Gestisci colonne.

  2. Scegli Sostituisci valori anomali.

  3. Scegli la Colonna in cui desideri sostituire i valori mancanti.

  4. Per Definisci valori anomali, scegli Deviazione standard, Intervallo numerico personalizzato o Intervallo quantile personalizzato.

  5. Se scegli Deviazione standard, specifica un valore Deviazioni standard compreso tra 1 e 3. Se scegli Intervallo numerico personalizzato o Intervallo quantile personalizzato, specifica i valori minimo e massimo (numeri per gli intervalli numerici o percentili compresi tra 0 e 100% per gli intervalli quantili).

  6. Per Sostituisci con, seleziona Intervallo min/max.

  7. Scegli Aggiungi per aggiungere la trasformazione alla Ricetta del modello.

L'opzione Deviazione standard rileva i valori anomali nelle colonne numeriche utilizzando la media e la deviazione standard. Si specifica il numero di deviazioni standard. Un valore deve variare dalla media per essere considerato un valore anomalo. Ad esempio, se specificate 3 per le deviazioni standard, un valore deve essere inferiore a più di 3 deviazioni standard dalla media per essere considerato un valore anomalo. SageMaker Canvas sostituisce i valori anomali con il valore minimo o il valore massimo nell'intervallo accettato. Ad esempio, se configuri le deviazioni standard per includere solo valori compresi tra 200 e 300, SageMaker Canvas modifica un valore da 198 a 200 (il minimo).

Le opzioni Intervallo numerico personalizzato e Intervallo quantile personalizzato rilevano i valori anomali nelle colonne numeriche utilizzando valori minimi e massimi. Utilizzare questo metodo se si conoscono i valori di soglia che delimitano i valori anomali. Se scegli un intervallo numerico, i valori Min e Max devono essere i valori numerici minimo e massimo che desideri consentire. SageMaker Canvas sostituisce tutti i valori che non rientrano nei valori minimo e massimo con i valori minimo e massimo. Ad esempio, se l'intervallo consente solo valori compresi tra 1 e 100, SageMaker Canvas modifica un valore da 102 a 100 (il massimo). Se si sceglie un intervallo di quantili, i valori Min e Max devono essere il minimo e il massimo dell'intervallo di percentili (0—100) che si desidera consentire.

Dopo aver sostituito i valori nel set di dati, SageMaker Canvas aggiunge la trasformazione nella sezione Model recipe. Se rimuovi la trasformazione dalla sezione Ricetta del modello, i valori originali ritornano al tuo set di dati.

Schermata dell'operazione di sostituzione degli outliers nell'applicazione Canvas. SageMaker

Modifica del tipo di dati

SageMaker Canvas offre la possibilità di modificare il tipo di dati delle colonne tra numerico, testo e datetime, visualizzando anche il tipo di funzionalità associato a quel tipo di dati. Un tipo di dati si riferisce al formato dei dati e al modo in cui vengono archiviati, mentre il tipo di caratteristica si riferisce alla caratteristica dei dati utilizzati negli algoritmi di machine learning, ad esempio binari o categorici. Ciò offre la flessibilità necessaria per modificare manualmente il tipo di dati nelle colonne in base alle funzionalità. La possibilità di scegliere il tipo di dati giusto garantisce l'integrità e la precisione dei dati prima di creare modelli. Questi tipi di dati vengono utilizzati per la creazione di modelli.

Nota

Attualmente, la modifica del tipo di funzionalità (ad esempio, da binario a categorico) non è supportata.

Le tabelle seguenti riportano tutti i tipi di dati supportati in Canvas.

Tipo di dati Descrizione Esempio

Numerico

I dati numerici rappresentano valori numerici

1, 2, 3

1.1, 1.2. 1.3

Testo

I dati di testo rappresentano sequenze di caratteri, come nomi o descrizioni

A, B, C, D

mela, banana, arancia

1A! , 2A! , 3A!

Datetime

I dati Datetime rappresentano date e ore in formato timestamp

01-07-2019 01:00:00, 01-07-2019 02:00:00, 01-07-2019 03:00:00

La tabella seguente riporta tutti i tipi di caratteristiche supportati in Canvas.

Tipo Caratteristica Descrizione Esempio

Binario

Le caratteristiche binarie rappresentano due valori possibili

0, 1, 0, 1, 0 (due valori distinti)

vero, falso, vero (due valori distinti)

Categoriale

Le caratteristiche categoriali rappresentano categorie o gruppi distinti

mela, banana, arancia, mela (tre valori distinti)

A, B, C, D, E, A, D, C (cinque valori distinti)

Per modificare il tipo di dati di una colonna in un set di dati, procedi come segue.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, vai alla vista a colonne o alla vista Griglia e seleziona il menu a discesa Tipo di dati per la colonna specifica.

  2. Nel menu a discesa Tipo di dati, scegli il tipo di dati in cui eseguire la conversione. Lo screenshot seguente mostra il menu a discesa.

    Screenshot del menu a discesa per la conversione dei tipi di dati per una colonna, mostrato nella scheda Compila di crea un modello in Canvas.
  3. In Colonna, scegli o verifica la colonna per cui desideri modificare il tipo di dati.

  4. In Nuovo tipo di dati, scegli o verifica il nuovo tipo di dati in cui desideri eseguire la conversione.

  5. Se il Nuovo tipo di dati è Datetime oNumeric, scegli una delle seguenti opzioni in Gestisci valori non validi:

    1. Sostituisci con un valore vuoto: i valori non validi vengono sostituiti con un valore vuoto

    2. Elimina righe: le righe con un valore non valido vengono rimosse dal set di dati

    3. Sostituisci con un valore personalizzato: i valori non validi vengono sostituiti con il valore personalizzato specificato.

  6. Scegli Aggiungi per aggiungere la trasformazione alla ricetta del modello.

Il tipo di dati della tua colonna dovrebbe ora essere aggiornato.

Preparazione dei dati di serie temporali

Utilizza le seguenti funzionalità per preparare i dati di serie temporali per creare modelli di previsione di serie temporali.

Ricampiona i dati di serie temporali

Ricampionando i dati di serie temporali, puoi stabilire intervalli regolari per le osservazioni nel set di dati di serie temporali. Ciò è particolarmente utile quando lavori con dati di serie temporali contenenti osservazioni con spaziatura irregolare. Ad esempio, puoi utilizzare il ricampionamento per trasformare un set di dati con osservazioni registrate a intervalli di un'ora, due ore e tre ore in un intervallo regolare di un'ora tra le osservazioni. Gli algoritmi di previsione richiedono che le osservazioni vengano eseguite a intervalli regolari.

Per ricampionare i dati di serie temporali, procedi come segue.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, scegli Serie temporali.

  2. Scegli Ricampiona.

  3. Nella Colonna di timestamp, scegli la colonna a cui vuoi applicare la trasformazione. Puoi selezionare solo colonne di tipo Datetime.

  4. Nella sezione Impostazione di frequenza, scegli una Frequenza e un Tasso. La frequenza è l'unità di frequenza e il tasso è l'intervallo dell'unità di frequenza da applicare alla colonna. Ad esempio, scegliendo Calendar Day come Valore di frequenza e 1 come Tasso si imposta l'intervallo in modo che aumenti ogni 1 giorno di calendario, ad esempio 2023-03-26 00:00:00, 2023-03-27 00:00:00, 2023-03-28 00:00:00. Consulta la tabella riportata dopo questa procedura per un elenco completo dei valori di frequenza.

  5. Scegli Aggiungi per aggiungere la trasformazione alla ricetta del modello.

La tabella seguente elenca tutti i tipi di frequenza che puoi selezionare durante il ricampionamento dei dati di serie temporali.

Frequenza Descrizione Valori di esempio (supponendo che il tasso sia 1)

Giorno lavorativo

Ricampiona le osservazioni nella colonna datetime su cinque giorni lavorativi della settimana (lunedì, martedì, mercoledì, giovedì, venerdì)

2023-03-24 00:00:00

2023-03-27 00:00:00

2023-03-28 00:00:00

2023-03-29 00:00:00

2023-03-30 00:00:00

2023-03-31 00:00:00

2023-04-03 00:00:00

Giorno del calendario

Ricampiona le osservazioni nella colonna datetime su tutti e sette i giorni della settimana (lunedì, martedì, mercoledì, giovedì, venerdì, sabato, domenica)

2023-03-26 00:00:00

2023-03-27 00:00:00

2023-03-28 00:00:00

2023-03-29 00:00:00

2023-03-30 00:00:00

2023-03-31 00:00:00

2023-04-01 00:00:00

Settimana

Ricampiona le osservazioni nella colonna datetime sul primo giorno di ogni settimana

-13 00:00:00

2023-03-20 00:00:00

2023-03-27 00:00:00

2023-04-03 00:00:00

Mese

Ricampiona le osservazioni nella colonna datetime sul primo giorno di ogni mese

-01 00:00:00

2023-04-01 00:00:00

2023-05-01 00:00:00

2023-06-01 00:00:00

Trimestre

Ricampiona le osservazioni nella colonna datetime sull’ultimo giorno di ogni trimestre

2023-03-31 00:00:00

2023-06-30 00:00:00

2023-09-30 00:00:00

2023-12-31 00:00:00

Anno

Ricampiona le osservazioni nella colonna datetime sull’ultimo giorno di ogni anno

2022-12-31 0:00:00

2023-12-31 00:00:00

2024-12-31 00:00:00

Ora

Ricampiona le osservazioni nella colonna datetime su ogni ora di ogni giorno

2023-03-24 00:00:00

2023-03-24 01:00:00

2023-03-24 02:00:00

2023-03-24 03:00:00

Minuto

Ricampiona le osservazioni nella colonna datetime su ogni minuto di ogni ora

2023-03-24 00:00:00

2023-03-24 00:01:00

2023-03-24 00:02:00

2023-03-24 00:03:00

Secondo

Ricampiona le osservazioni nella colonna datetime su ogni secondo di ogni minuto

2023-03-24 00:00:00

2023-03-24 00:00:01

2023-03-24 00:00:02

2023-03-24 00:00:03

Quando applichi la trasformazione di ricampionamento, puoi utilizzare le opzioni Avanzate per specificare in che modo vengono modificati i valori risultanti delle altre colonne (diverse dalla colonna di timestamp) nel tuo set di dati. Puoi farlo specificando la metodologia di ricampionamento, che può essere un sottocampionamento o un sovracampionamento, sia per colonne numeriche che non numeriche.

Il sottocampionamento aumenta l'intervallo tra le osservazioni nel set di dati. Ad esempio, se si esegue il sottocampionamento di osservazioni effettuate ogni ora o ogni due ore, ogni osservazione nel set di dati viene eseguita ogni due ore. I valori delle altre colonne delle osservazioni orarie vengono aggregati in un unico valore, utilizzando un metodo combinato. La tabella seguente mostra un esempio di sottocampionamento dei dati di serie temporali utilizzando la media come metodo di combinazione. I dati vengono sottoposti a sottocampionamento da ogni due ore a ogni ora.

La tabella seguente mostra le letture della temperatura eseguita ogni ora nell'arco di un giorno prima del sottocampionamento.

Timestamp Temperatura (gradi Celsius)

12:00

30

1:00

32

2:00

35

3:00

32

4:00

30

La tabella seguente mostra le letture della temperatura eseguita ogni due ore dopo il sottocampionamento.

Timestamp Temperatura (gradi Celsius)

12:00

30

2:00

33,5

2:00

35

4:00

32,5

Per eseguire il sottocampionamento dei dati di serie temporali, procedi come segue:

  1. Espandi la sezione Avanzate sotto la trasformazione Ricampiona.

  2. Scegli Combinazione non numerica per specificare il metodo di combinazione per le colonne non numeriche. Consulta la tabella seguente per l'elenco completo dei metodi di combinazione.

  3. Scegli Combinazione numerica per specificare il metodo di combinazione per le colonne numeriche. Consulta la tabella seguente per l'elenco completo dei metodi di combinazione.

Se non specifichi i metodi di combinazione, i valori predefiniti sono Most Common per la combinazione non numerica e Mean per la combinazione numerica. Nella tabella seguente sono elencati i metodi per la combinazione numerica e non numerica.

Metodologia di sottocampionamento Metodo di combinazione Descrizione

Combinazione non numerica

Più comune

Aggrega i valori nella colonna non numerica in base al valore più comunemente ricorrente

Combinazione non numerica

Ultimo

Aggrega i valori nella colonna non numerica in base all’ultimo valore nella colonna

Combinazione non numerica

Primo

Aggrega i valori nella colonna non numerica in base al primo valore nella colonna

Combinazione numerica

Media

Aggrega i valori nella colonna numerica facendo una media di tutti i valori nella colonna

Combinazione numerica

Mediana

Aggrega i valori nella colonna numerica facendo una mediana di tutti i valori nella colonna

Combinazione numerica

Min

Aggrega i valori nella colonna numerica prendendo il valore minimo tra tutti i valori nella colonna

Combinazione numerica

Max

Aggrega i valori nella colonna numerica prendendo il valore massimo tra tutti i valori nella colonna

Combinazione numerica

Somma

Aggrega i valori nella colonna numerica sommando tutti i valori alla colonna

Combinazione numerica

Quantile

Aggrega i valori nella colonna numerica prendendo il quantile di tutti i valori nella colonna

Il sovracampionamento riduce l'intervallo tra le osservazioni nel set di dati. Ad esempio, se esegui il sovracampionamento delle osservazioni effettuate ogni due ore in osservazioni orarie, i valori delle altre colonne delle osservazioni orarie vengono interpolate da quelle effettuate ogni due ore.

Per eseguire il sovracampionamento di dati di serie temporali, procedi come segue:

  1. Espandi la sezione Avanzate sotto la trasformazione Ricampiona.

  2. Scegli Stima non numerica per specificare il metodo di stima per le colonne non numeriche. Consulta la tabella riportata dopo questa procedura per un elenco completo dei metodi.

  3. Scegli Stima numerica per specificare il metodo di stima per le colonne numeriche. Consulta la tabella seguente per un elenco completo dei metodi.

  4. (Facoltativo) Scegli Colonna ID per specificare la colonna che contiene gli ID delle osservazioni delle serie temporali. Specifica questa opzione se il set di dati ha due serie temporali. Se hai una colonna che rappresenta una sola serie temporale, non specificare alcun valore per questo campo. Ad esempio, puoi avere un set di dati con le colonne id e purchase. La colonna id ha i seguenti valori: [1, 2, 2, 1]. La colonna purchase ha i seguenti valori [$2, $3, $4, $1]. Pertanto, il set di dati ha due serie temporali. Una serie temporale è 1: [$2, $1] e l'altra serie temporale è 2: [$3, $4].

Se non specifichi i metodi di stima, i valori predefiniti sono Forward Fill per la stima non numerica e Linear per la stima numerica. Nella tabella seguente sono elencati i metodi di stima.

Metodologia di sovracampionamento Metodo di stima Descrizione

Stima non numerica

Riempimento in avanti

Interpola i valori nella colonna non numerica prendendo i valori consecutivi dopo tutti i valori nella colonna

Stima non numerica

Riempimento all'indietro

Interpola i valori nella colonna non numerica prendendo i valori consecutivi prima di tutti i valori nella colonna

Stima non numerica

Ancora mancante

Interpola i valori nella colonna non numerica mostrando valori vuoti

Stima numerica

Lineare, tempo, indice, zero, S-lineare, più vicina, quadratica, cubica, baricentrica, polinomiale, di Krogh, polinomiale a tratti, spline, polinomiale interpolante cubica a tratti di Hermite (P-chip), Akima, spline cubica, da derivate

Interpola i valori nella colonna numerica utilizzando l'interpolatore specificato. Per informazioni sui metodi di interpolazione, vedi pandas. DataFrame.interpolate nella documentazione di pandas.

Il seguente screenshot mostra le impostazioni avanzate con i campi per il sottocampionamento e il sovracampionamento già compilati.

Screenshot dell'applicazione Canvas, con il pannello laterale per il ricampionamento delle serie temporali che mostra le opzioni avanzate.

Uso dell'estrazione datetime

Con la trasformazione dell’estrazione datetime, puoi estrarre valori da una colonna datetime in una colonna separata. Ad esempio, se hai una colonna contenente le date degli acquisti, puoi estrarre il valore del mese in una colonna separata e utilizzare la nuova colonna per creare il tuo modello. Puoi anche estrarre più valori in colonne separate con un'unica trasformazione.

La colonna datetime deve utilizzare un formato timestamp supportato. Per un elenco dei formati supportati da Canvas, consulta. SageMaker Previsioni delle serie temporali in Amazon Canvas SageMaker Se il set di dati non utilizza uno dei formati supportati, aggiorna il set di dati in modo da utilizzare un formato di timestamp supportato e reimportalo in SageMaker Amazon Canvas prima di creare il modello.

Per eseguire un'estrazione datetime, procedi come segue.

  1. Nella scheda Build dell'applicazione SageMaker Canvas, nella barra delle trasformazioni, scegli Visualizza tutto.

  2. Scegli Funzionalità di estrazione.

  3. Scegli la Colonna di timestamp da cui desideri estrarre i valori.

  4. In Valori, seleziona uno o più valori da estrarre dalla colonna. I valori che puoi estrarre da una colonna di timestamp sono Anno, Mese, Giorno, Ora, Settimana dell'anno, Giorno dell'anno e Trimestre.

  5. (Facoltativo) Scegli Anteprima per visualizzare in anteprima i risultati della trasformazione.

  6. Scegli Aggiungi per aggiungere la trasformazione alla ricetta del modello.

SageMaker Canvas crea una nuova colonna nel set di dati per ciascuno dei valori che estrai. Ad eccezione dei valori Year, SageMaker Canvas utilizza una codifica basata su 0 per i valori estratti. Ad esempio, se estrai il valore Mese, gennaio viene estratto come 0 e febbraio viene estratto come 1.

Schermata della casella di estrazione della data e dell'ora nell'applicazione Canvas. SageMaker

Puoi visualizzare la trasformazione elencata nella sezione Ricetta del modello. Se rimuovi la trasformazione dalla sezione Ricetta del modello, le nuove colonne vengono rimosse dal set di dati.