Esegui l'analisi esplorativa dei dati (EDA) - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esegui l'analisi esplorativa dei dati (EDA)

Data Wrangler include analisi integrate che ti aiutano a generare visualizzazioni e analisi dei dati in pochi clic. Puoi anche creare analisi personalizzate utilizzando il tuo codice.

Puoi aggiungere un'analisi a un dataframe selezionando una fase nel flusso di dati e quindi scegliendo Aggiungi analisi. Per accedere a un'analisi che hai creato, seleziona la fase che contiene l'analisi e seleziona l'analisi.

Tutte le analisi vengono generate utilizzando 20.000 righe del set di dati.

Puoi aggiungere l'analisi seguente a un dataframe:

  • Visualizzazioni dei dati, inclusi istogrammi e grafici a dispersione.

  • Un breve riepilogo del set di dati, incluso il numero di voci, i valori minimo e massimo (per i dati numerici) e le categorie più e meno frequenti (per i dati categoriali).

  • Un modello rapido del set di dati, che può essere utilizzato per generare un punteggio di importanza per ciascuna funzionalità.

  • Un report sulla perdita di dati, che puoi utilizzare per determinare se una o più funzionalità sono fortemente correlate alla funzionalità di destinazione.

  • Una visualizzazione personalizzata che utilizza il tuo codice.

Utilizza le seguenti sezioni per avere ulteriori informazioni su queste opzioni.

Ottieni approfondimenti sui dati e sulla loro qualità

Utilizza il Report della qualità e dei dettagli dei dati per eseguire un'analisi dei dati che hai importato in Data Wrangler. Si consiglia di creare il report dopo l'importazione del set di dati. Puoi utilizzare il report per aiutarti a pulire ed elaborare i tuoi dati. Il report fornisce informazioni come il numero di valori mancanti e il numero di valori anomali. In caso di problemi con i dati, come la perdita o lo squilibrio di dati di destinazione, il report sulle informazioni può richiamare l'attenzione su tali problemi.

Utilizza la procedura seguente per creare un report Qualità e dettagli dei dati. Si presuppone che tu abbia già importato un set di dati nel flusso di Data Wrangler.

Per creare un report Qualità e dettagli dei dati
  1. Scegli un + accanto a un nodo nel flusso di Data Wrangler.

  2. Seleziona Ottieni dettagli dei dati.

  3. In Nome dell'analisi, specifica un nome per il report dei dettagli.

  4. (Facoltativo) Nella colonna Destinazione, specifica la colonna di destinazione.

  5. In Tipo di problema, specifica Regressione o Classificazione.

  6. In Dimensione dei dati, specifica uno dei seguenti valori:

    • 20 K: utilizza le prime 20000 righe del set di dati che hai importato per creare il report.

    • Intero set di dati: utilizza l'intero set di dati che hai importato per creare il report.

    Nota

    La creazione di un report Data Quality and Insights sull'intero set di dati utilizza un processo di SageMaker elaborazione Amazon. Un SageMaker processo di elaborazione fornisce le risorse di calcolo aggiuntive necessarie per ottenere informazioni dettagliate su tutti i tuoi dati. Per ulteriori informazioni sui SageMaker processi di elaborazione, vedereUsa i processi di elaborazione per eseguire carichi di lavoro di trasformazione dei dati.

  7. Scegli Crea.

I seguenti argomenti mostrano le sezioni del report:

Puoi scaricare il report o visualizzarlo online. Per scaricare il report, scegli il pulsante di download nell'angolo in alto a destra dello schermo.

Riepilogo

Il report dei dettagli contiene un breve riepilogo dei dati che include informazioni generali come valori mancanti, valori non validi, tipi di funzionalità, conteggi dei valori anomali e altro ancora. Può anche includere avvisi di elevata gravità che indicano probabili problemi con i dati. Si consiglia di esaminare gi avvisi.

Colonna di destinazione

Quando crei il rapporto Data Quality and Insights, Data Wrangler ti offre la possibilità di selezionare una colonna di destinazione. Una colonna di destinazione è una colonna che stai cercando di prevedere. Quando scegli una colonna di destinazione, Data Wrangler crea automaticamente un'analisi della colonna di destinazione. Inoltre classifica le funzionalità in base al loro potere predittivo. Quando selezioni una colonna di destinazione, devi specificare se stai cercando di risolvere una regressione o un problema di classificazione.

Per la classificazione, Data Wrangler mostra una tabella e un istogramma delle classi più comuni. Una classe è una categoria. Presenta inoltre osservazioni, o righe, con un valore di destinazione mancante o non valido.

Per la regressione, Data Wrangler mostra un istogramma di tutti i valori nella colonna di destinazione. Presenta inoltre osservazioni, o righe, con un valore obiettivo mancante, non valido o anomalo.

Modello rapido

Il modello rapido fornisce una stima della qualità prevista di un modello che si addestra sulla base dei dati.

Data Wrangler suddivide i dati in file di addestramento e convalida. Utilizza l'80% dei campioni per l’addestramento e il 20% dei valori per la convalida. Per la classificazione, il campione viene suddiviso in strati. Per una suddivisione stratificata, ogni partizione di dati ha la stessa percentuale di etichette. Per problemi di classificazione, è importante avere la stessa percentuale di etichette tra i fold di addestramento e di classificazione. Data Wrangler addestra il modello XGBoost con gli iperparametri predefiniti. Applica l'arresto anticipato dei dati di convalida ed esegue una preelaborazione minima delle funzionalità.

Per i modelli di classificazione, Data Wrangler restituisce sia un riepilogo del modello che una matrice di confusione.

Per ulteriori informazioni sulle informazioni restituite dal riepilogo del modello di classificazione, consulta. Definizioni

Una matrice di confusione fornisce le seguenti informazioni:

  • Il numero di volte in cui l'etichetta prevista corrisponde all'etichetta vera.

  • Il numero di volte in cui l'etichetta prevista non corrisponde all'etichetta vera.

L'etichetta vera rappresenta un'osservazione effettiva nei dati. Ad esempio, se utilizzi un modello per rilevare transazioni fraudolente, la vera etichetta rappresenta una transazione che è effettivamente fraudolenta o non fraudolenta. L'etichetta prevista rappresenta l'etichetta che il modello assegna ai dati.

Puoi utilizzare la matrice di confusione per vedere quanto bene il modello prevede la presenza o l'assenza di una condizione. Se prevedi transazioni fraudolente, puoi utilizzare la matrice di confusione per avere un'idea sia della sensibilità che della specificità del modello. La sensibilità si riferisce alla capacità del modello di rilevare transazioni fraudolente. La specificità si riferisce alla capacità del modello di evitare di rilevare transazioni non fraudolente come fraudolente.

Sintesi delle funzionalità

Quando specifichi una colonna di destinazione, Data Wrangler ordina le funzionalità in base alla loro potenza di previsione. La potenza di previsione viene misurata sui dati dopo averli suddivisi in pieghe di addestramento all'80% e di convalida per il 20%. Data Wrangler inserisce un modello per ogni funzionalità separatamente nella cartella di addestramento. Applica una preelaborazione minima delle funzionalità e misura le prestazioni di previsione sui dati di convalida.

Normalizza i punteggi nell'intervallo [0,1]. I punteggi di previsione più alti indicano le colonne più utili per prevedere da sole l'obiettivo. I punteggi più bassi indicano colonne che non sono predittive della colonna di destinazione.

È raro che una colonna che di per sé non è predittiva lo sia quando viene utilizzata insieme ad altre colonne. Puoi utilizzare con sicurezza i punteggi di previsione per determinare se una funzionalità del tuo set di dati è predittiva.

Un punteggio basso di solito indica che la funzionalità è ridondante. Un punteggio pari a 1 implica capacità predittive perfette, il che spesso indica una perdita dei dati di destinazione. La perdita dei dati di destinazione si verifica in genere quando il set di dati contiene una colonna che non è disponibile al momento della previsione. Ad esempio, potrebbe essere un duplicato della colonna di destinazione.

Esempi

Data Wrangler fornisce informazioni sull'eventuale presenza di campioni anomali o duplicati nel set di dati.

Data Wrangler rileva campioni anomali utilizzando l'algoritmo della foresta di isolamento. La foresta di isolamento associa un punteggio di anomalia a ciascun campione (riga) del set di dati. Punteggi di anomalia bassi indicano campioni anomali. I punteggi più alti sono associati a campioni non anomali. I campioni con un punteggio di anomalia negativo sono generalmente considerati anomali e i campioni con un punteggio di anomalia positivo sono considerati non anomali.

Quando si esamina un campione che potrebbe essere anomalo, si consiglia di prestare attenzione ai valori insoliti. Ad esempio, potresti avere valori anomali derivanti da errori nella raccolta e nell'elaborazione dei dati. Di seguito è riportato un esempio dei campioni più anomali secondo l'implementazione dell'algoritmo della foresta di isolamento da parte di Data Wrangler. Si consiglia di utilizzare la conoscenza del dominio e la logica aziendale quando si esaminano i campioni anomali.

Data Wrangler rileva le righe duplicate e calcola il rapporto tra le righe duplicate nei dati. Alcune origini dati potrebbero includere duplicati validi. Altre origini dati potrebbero avere duplicati che indicano problemi nella raccolta dei dati. I campioni duplicati derivanti da una raccolta errata dei dati potrebbero interferire con i processi di machine learning che si basano sulla suddivisione dei dati in moduli di addestramento e convalida indipendenti.

Di seguito sono riportati alcuni elementi del rapporto di approfondimento che possono essere influenzati da campioni duplicati:

  • Modello rapido

  • Stima della potenza di previsione

  • Ottimizzazione automatica degli iperparametri

È possibile rimuovere campioni duplicati dal set di dati utilizzando la trasformazione Elimina duplicati in Gestisci righe. Data Wrangler mostra le righe duplicate più frequentemente.

Definizioni

Di seguito sono riportate le definizioni dei termini tecnici utilizzati nel report di analisi dei dati.

Feature types

Di seguito sono riportate le definizioni per ogni tipo di funzionalità:

  • Numerico: i valori numerici possono essere variabili o numeri interi, ad esempio età o reddito. I modelli di machine learning presuppongono che i valori numerici siano ordinati e su di essi sia definita una distanza. Ad esempio, 3 è più vicino a 4 che a 10 e 3 < 4 < 10.

  • Categoriale: le voci della colonna appartengono a un insieme di valori univoci, che in genere è molto inferiore al numero di voci nella colonna. Ad esempio, una colonna di lunghezza 100 potrebbe contenere i valori univoci Dog, Cat e Mouse. I valori possono essere numerici, di testo o una combinazione di entrambi. Horse, House, 8, Love e 3.1 sarebbero tutti valori validi e potrebbero essere trovati nella stessa colonna categorica. Il modello di machine learning non presuppone ordine o distanza sui valori delle funzionalità categoriali, a differenza delle funzionalità numeriche, anche quando tutti i valori sono numeri.

  • Binario: le funzionalità binarie sono un tipo di funzionalità categoriale speciale in cui la cardinalità dell'insieme di valori univoci è 2.

  • Testo: una colonna di testo contiene molti valori univoci non numerici. In casi estremi, tutti gli elementi della colonna sono unici. In un caso estremo, non esistono due voci uguali.

  • Datetime: una colonna datetime contiene informazioni sulla data o l'ora. Può contenere informazioni sia sulla data che sull'ora.

Feature statistics

Di seguito sono riportate le definizioni per ciascuna delle statistiche sulle funzionalità:

  • Potenza di previsione: la potenza di previsione misura l'utilità della colonna per prevedere l'obiettivo.

  • Valori anomali (in colonne numeriche): Data Wrangler rileva i valori anomali utilizzando due statistiche affidabili rispetto ai valori anomali: deviazione standard mediana e deviazione standard robusta (median and robust standard deviation, RSTD). RSTD è derivata ritagliando i valori delle funzionalità nell'intervallo [5 percentile, 95 percentile] e calcolando la deviazione standard del vettore ritagliato. Tutti i valori superiori alla mediana + 5 * RSTD o inferiori alla mediana - 5 * RSTD sono considerati valori anomali.

  • Inclinazione (in colonne numeriche): l'inclinazione misura la simmetria della distribuzione ed è definita come il terzo momento della distribuzione diviso per la terza potenza della deviazione standard. L'asimmetria della distribuzione normale o di qualsiasi altra distribuzione simmetrica è zero. I valori positivi implicano che la coda destra della distribuzione è più lunga della coda sinistra. I valori negativi implicano che la coda sinistra della distribuzione è più lunga della coda destra. Come regola generale, una distribuzione è considerata distorta quando il valore assoluto dell'inclinazione è maggiore di 3.

  • Kurtosis (in colonne numeriche): la kurtosis di Pearson misura la pesantezza della coda della distribuzione. È definita come il quarto momento della distribuzione diviso per il quadrato del secondo momento. La kurtosis della distribuzione normale è 3. Valori di kurtosis inferiori a 3 implicano che la distribuzione sia concentrata attorno alla media e che le code siano più leggere delle code della distribuzione normale. Valori di kurtosis superiori a 3 implicano code o valori anomali più pesanti.

  • Valori mancanti: gli oggetti di tipo NULL, le stringhe vuote e le stringhe composte solo da spazi bianchi sono considerati mancanti.

  • Valori validi per funzionalità numeriche o obiettivi di regressione: tutti i valori che è possibile convertire in numeri a virgola mobile finiti sono validi. I valori mancanti non sono validi.

  • Valori validi per funzionalità categoriche, binarie o di testo o per l'obiettivo di classificazione: tutti i valori che non mancano sono validi.

  • Funzionalità datetime: tutti i valori che è possibile trasmettere a un oggetto datetime sono validi. I valori mancanti non sono validi.

  • Valori non validi: valori mancanti o che non è possibile trasmettere correttamente. Ad esempio, in una colonna numerica, non è possibile inserire la stringa "six" o un valore nullo.

Quick model metrics for regression

Di seguito sono riportate le definizioni per le metriche del modello rapido:

  • R2 o coefficiente di determinazione): R2 è la proporzione della variazione dell'obiettivo prevista dal modello. R2 è compreso nell'intervallo [-infty, 1]. 1 è il punteggio del modello che prevede perfettamente l'obiettivo e 0 è il punteggio del modello banale che prevede sempre la media dell'obiettivo.

  • MSE o errore quadratico medio: MSE è compreso nell'intervallo [0, infty]. 0 è il punteggio del modello che prevede perfettamente l'obiettivo.

  • MAE o errore assoluto medio: MAE è compreso nell'intervallo [0, infty] dove 0 è il punteggio del modello che prevede perfettamente l'obiettivo.

  • RMSE o radice dell’errore quadratico medio: RMSE è compreso nell'intervallo [0, infty] dove 0 è il punteggio del modello che prevede perfettamente l'obiettivo.

  • Errore massimo: il valore assoluto massimo dell'errore nel set di dati. L'errore massimo è compreso nell'intervallo [0, infty]. 0 è il punteggio del modello che prevede perfettamente l'obiettivo.

  • Errore assoluto medio: l'errore assoluto medio è compreso nell'intervallo [0, infty]. 0 è il punteggio del modello che prevede perfettamente l'obiettivo.

Quick model metrics for classification

Di seguito sono riportate le definizioni per le metriche del modello rapido:

  • Precisione: la precisione è il rapporto tra campioni previsti con precisione. La precisione è compresa nell'intervallo [0, 1]. 0 è il punteggio del modello che prevede tutti i campioni in modo errato e 1 è il punteggio del modello perfetto.

  • Precisione bilanciata: la precisione bilanciata è il rapporto tra i campioni che viene previsto con precisione quando i pesi delle classi vengono regolati per bilanciare i dati. A tutte le classi viene data la stessa importanza, indipendentemente dalla frequenza. La precisione bilanciata è compresa nell'intervallo [0, 1]. 0 è il punteggio del modello che prevede tutti i campioni errati. 1 è il punteggio del modello perfetto.

  • AUC (classificazione binaria): questa è l'area sotto la curva caratteristica operativa del ricevitore. L'AUC è nell'intervallo [0, 1] in cui un modello casuale restituisce un punteggio di 0,5 e il modello perfetto restituisce un punteggio di 1.

  • AUC (OVR): per la classificazione multiclasse, si tratta dell'area sotto la curva caratteristica operativa del ricevitore calcolata separatamente per ciascuna etichetta utilizzando una contro la resto. Data Wrangler riporta la media delle aree. L'AUC è nell'intervallo [0, 1] in cui un modello casuale restituisce un punteggio di 0,5 e il modello perfetto restituisce un punteggio di 1.

  • Precisione: la precisione è definita per una classe specifica. La precisione è la frazione di veri positivi tra tutte le istanze classificate dal modello come tale classe. La precisione è compresa nell'intervallo [0, 1]. 1 è il punteggio del modello che non presenta falsi positivi per la classe. Per la classificazione binaria, Data Wrangler riporta la precisione della classe positiva.

  • Recupero: il recupero è definito per una classe specifica. Il recupero è la frazione delle istanze di classe pertinenti che vengono recuperate con successo. Il recupero è compreso nell'intervallo [0, 1]. 1 è il punteggio del modello che classifica correttamente tutte le istanze della classe. Per la classificazione binaria, Data Wrangler riporta il recupero della classe positiva.

  • F1: F1 è definito per una classe specifica. È la media armonica tra precisione e recupero. F1 è nell'intervallo [0, 1]. 1 è il punteggio del modello perfetto. Per la classificazione binaria, Data Wrangler riporta F1 per le classi con valori positivi.

Textual patterns

I modelli descrivono il formato testuale di una stringa utilizzando un formato di facile lettura. Di seguito sono riportati alcuni esempi di modelli testuali:

  • «{digits:4-7}» descrive una sequenza di cifre con una lunghezza compresa tra 4 e 7.

  • «{alnum:5}» descrive una stringa alfanumerica con una lunghezza esattamente di 5.

Data Wrangler deduce i modelli esaminando esempi di stringhe non vuote dai dati. Può descrivere molti dei modelli comunemente usati. La attendibilità espressa in percentuale indica la quantità di dati stimata in base al modello. Utilizzando lo schema testuale, puoi vedere quali righe dei dati devi correggere o eliminare.

Di seguito vengono descritti i modelli che Data Wrangler è in grado di riconoscere:

Pattern Formato testuale

{album}

Stringhe alfanumeriche

{any}

Qualsiasi stringa di caratteri di parole

{digits}

Una sequenza di cifre

{lower}

Una parola minuscola

{mixed}

Una parola composta da maiuscole e minuscole

{name}

Una parola che inizia con una lettera maiuscola

{upper}

Una parola in maiuscolo

{whitespace}

Caratteri con spazi bianchi

Un carattere di parole è un carattere di sottolineatura o un carattere che può apparire in una parola in qualsiasi lingua. Ad esempio, 'écoute' entrambe le stringhe 'Hello_word' sono costituite da caratteri di parole. 'H' e 'é' sono entrambi esempi di caratteri di parole.

Report di bias

SageMaker Canvas fornisce il rapporto sulle distorsioni in Data Wrangler per aiutarti a scoprire potenziali pregiudizi nei dati. Il rapporto sulle distorsioni analizza la relazione tra la colonna di destinazione (etichetta) e una colonna che ritieni possa contenere distorsioni (variabile sfaccettata). Ad esempio, se stai cercando di prevedere la conversione dei clienti, la variabile facet potrebbe essere l'età del cliente. Il rapporto sulle distorsioni può aiutarti a determinare se i tuoi dati sono orientati o meno verso una determinata fascia di età.

Per generare un rapporto sulle distorsioni in Canvas, procedi come segue:

  1. Nel flusso di dati in Data Wrangler, scegli l'icona Altre opzioni ( ) accanto a un nodo del flusso.

  2. Dal menu contestuale, scegli Ottieni informazioni sui dati.

  3. Si apre il pannello laterale Crea analisi. Nel menu a discesa Tipo di analisi, seleziona Bias Report.

  4. Nel campo Nome dell'analisi, inserisci un nome per il rapporto di distorsione.

  5. Nel menu a discesa Seleziona la colonna prevista dal modello (target), seleziona la colonna di destinazione.

  6. Per La colonna prevista è un valore o una soglia? , seleziona Valore se la colonna di destinazione contiene valori categorici o Soglia se contiene valori numerici.

  7. In Valore previsto (o Soglia prevista, a seconda della selezione effettuata nel passaggio precedente), inserisci il valore o i valori della colonna di destinazione che corrispondono a un risultato positivo. Ad esempio, se prevedi la conversione dei clienti, il tuo valore potrebbe yes indicare che un cliente è stato convertito.

  8. Nel menu a discesa Seleziona la colonna da analizzare per rilevare eventuali distorsioni, seleziona la colonna che ritieni possa contenere distorsioni, nota anche come variabile facet.

  9. Per La colonna è un valore o una soglia? , seleziona Valore se la variabile facet ha valori categorici o Soglia se ha valori numerici.

  10. Per Valori di colonna da analizzare per rilevare eventuali distorsioni (o Soglia di colonna per analizzare eventuali distorsioni, a seconda della selezione effettuata nel passaggio precedente), inserite il valore o i valori che desiderate analizzare per eventuali distorsioni. Ad esempio, se stai verificando l'eventuale presenza di pregiudizi nei confronti dei clienti di età superiore a una certa età, utilizza l'inizio di tale fascia di età come soglia.

  11. Per Scegli le metriche di pregiudizio, seleziona le metriche di pregiudizio che desideri includere nel rapporto sui pregiudizi. Passa il mouse sulle icone informative per ulteriori informazioni su ciascuna metrica.

  12. (Facoltativo) Quando viene richiesta l'opzione Vuoi analizzare metriche aggiuntive? , seleziona per visualizzare e includere altre metriche di distorsione.

  13. Quando sei pronto per creare il rapporto sulle distorsioni, scegli Aggiungi.

Una volta generato, il rapporto offre una panoramica delle metriche di pregiudizio selezionate. Puoi visualizzare il rapporto sulle distorsioni in qualsiasi momento dalla scheda Analisi del flusso di dati.

Istogramma

Utilizza gli istogrammi per visualizzare i conteggi dei valori delle funzionalità per una funzionalità specifica. Puoi esaminare le relazioni tra le funzionalità utilizzando l'opzione Colora per.

Puoi utilizzare la funzionalità Facet per per creare istogrammi di una colonna, per ogni valore in un'altra colonna.

Grafico a dispersione

Usa la funzionalità Grafico a dispersione per esaminare la relazione tra le funzionalità. Per creare un grafico a dispersione, seleziona una funzionalità da tracciare sull'asse X e sull'asse Y. Entrambe queste colonne devono essere colonne di tipo numerico.

Puoi colorare i grafici a dispersione in base a una colonna aggiuntiva.

Inoltre, puoi suddividere i grafici a dispersione in base alle funzionalità.

Riepilogo della tabella

Utilizza l'analisi Riepilogo della tabella per riepilogare rapidamente i dati.

Per le colonne con dati numerici, inclusi dati di log e float, una tabella di riepilogo riporta il numero di voci (conteggio), minimo (min), massimo (max), di media e deviazione standard (stddev) per ogni colonna.

Per le colonne con dati non numerici, incluse le colonne con dati di stringa, booleani o data/ora, un riepilogo della tabella riporta il numero di voci (conteggio), il valore meno frequente (min) e il valore più frequente (max).

Modello rapido

Usa la visualizzazione Modello rapido per valutare rapidamente i tuoi dati e generare punteggi di importanza per ogni funzionalità. Un punteggio di importanza della funzionalità indica quanto sia utile una funzionalità per prevedere un'etichetta di destinazione. Il punteggio di importanza della funzionalità è compreso tra [0, 1] e un numero più alto indica che la funzionalità è più importante per l'intero set di dati. Nella parte superiore del grafico del modello rapido, c'è un punteggio del modello. Un problema di classificazione mostra un punteggio in F1. Un problema di regressione ha un punteggio di errore quadratico medio (MSE).

Quando si crea un grafico di modello rapido, si seleziona un set di dati da valutare e un'etichetta di destinazione rispetto alla quale si desidera confrontare l'importanza delle funzionalità. Data Wrangler esegue le seguenti operazioni:

  • Deduce i tipi di dati per l'etichetta di destinazione e ogni funzionalità nel set di dati selezionato.

  • Determina il tipo di problema. In base al numero di valori distinti nella colonna dell'etichetta, Data Wrangler determina se si tratta di un tipo di problema di regressione o classificazione. Data Wrangler imposta una soglia categorica su 100. Se ci sono più di 100 valori distinti nella colonna dell'etichetta, Data Wrangler lo classifica come un problema di regressione; in caso contrario, viene classificato come un problema di classificazione.

  • Preelabora le funzionalità e i dati delle etichette per l’addestramento. L'algoritmo utilizzato richiede funzionalità di codifica in tipo vettoriale e etichette di codifica in doppio tipo.

  • Addestra un algoritmo forestale casuale con il 70% dei dati. Il RandomForestregressore di Spark viene utilizzato per addestrare un modello per problemi di regressione. Il RandomForestClassifier viene utilizzato per addestrare un modello per problemi di classificazione.

  • Valuta un modello di foresta casuale con il restante 30% di dati. Data Wrangler valuta i modelli di classificazione utilizzando un punteggio F1 e valuta i modelli di regressione utilizzando un punteggio MSE.

  • Calcola l'importanza delle funzionalità per ogni funzionalità utilizzando il metodo di importanza Gini.

Obiettivo: perdita

La perdita dei dati di destinazione si verifica quando in un set di dati di addestramento di machine learning sono presenti dati fortemente correlati all'etichetta di destinazione, ma non disponibili nei dati del mondo reale. Ad esempio, è possibile che nel set di dati sia presente una colonna che funge da proxy per la colonna che si desidera prevedere con il modello.

Quando utilizzi l'analisi Perdita di dati di destinazione, devi specificare quanto segue:

  • Destinazione: questa è la funzionalità in merito alla quale desideri che il tuo modello ML sia in grado di fare previsioni.

  • Tipo di problema: questo è il tipo di problema di machine learning su cui stai lavorando. Il tipo di problema può essere di classificazione o regressione.

  • (Facoltativo) Numero massimo di funzionalità: si tratta del numero massimo di funzionalità da presentare nella visualizzazione, che mostra le funzionalità classificate in base al rischio di perdita di dati.

Per la classificazione, l'analisi della perdita di dati di destinazione utilizza l'area sotto la funzionalità operativa del ricevitore, o la curva AUC - ROC per ogni colonna, fino alle funzionalità max. Per la regressione, utilizza un coefficiente di determinazione, o parametro R2.

La curva AUC - ROC fornisce un parametro predittivo, calcolato individualmente per ogni colonna utilizzando la convalida incrociata, su un campione di un massimo di circa 1000 righe. Un punteggio pari a 1 indica capacità predittive perfette, il che spesso indica una perdita dei dati di destinazione. Un punteggio pari o inferiore a 0,5 indica che le informazioni sulla colonna non sono in grado di fornire, da sole, alcuna informazione utile per prevedere l'obiettivo. Anche se può succedere che una colonna di per sé non sia informativa ma sia utile per prevedere l'obiettivo se utilizzata insieme ad altre funzionalità, un punteggio basso potrebbe indicare che la funzionalità è ridondante.

Multicollinearità

La multicollinearità è una circostanza in cui due o più variabili predittive sono correlate tra loro. Le variabili predittive sono le funzionalità del set di dati che utilizzi per prevedere una variabile di destinazione. In presenza di multicollinearità, le variabili predittive non sono solo predittive della variabile di destinazione, ma anche predittive l'una dell'altra.

Puoi utilizzare il fattore di inflazione della varianza (Variance Inflation Factor, VIF), l’analisi delle componenti principali (Principal Component Analysis, PCA) o la selezione delle funzionalità Lasso come misure per la multicollinearità dei dati. Per ulteriori informazioni, consulta gli argomenti seguenti.

Variance Inflation Factor (VIF)

Il fattore di inflazione della varianza (VIF) è una misura della collinearità tra coppie di variabili. Data Wrangler restituisce un punteggio VIF come misura della stretta relazione tra le variabili. Un punteggio VIF rappresenta un numero positivo maggiore o uguale a 1.

Un punteggio pari a 1 significa che la variabile non è correlata con le altre variabili. I punteggi superiori a 1 indicano una correlazione più elevata.

In teoria, puoi avere un punteggio VIF con un valore infinito. Data Wrangler porta i punteggi più alti a 50. Se hai un punteggio VIF superiore a 50, Data Wrangler imposta il punteggio su 50.

Puoi utilizzare le seguenti linee guida per l'interpretazione dei punteggi VIF:

  • Un punteggio VIF inferiore o uguale a 5 indica che le variabili sono moderatamente correlate con le altre variabili.

  • Un punteggio VIF maggiore o uguale a 5 indica che le variabili sono altamente correlate con le altre variabili.

Principle Component Analysis (PCA)

L’analisi delle componenti principali (PCA) misura la varianza dei dati lungo diverse direzioni nello spazio delle funzionalità. Lo spazio delle funzionalità è costituito da tutte le variabili predittive utilizzate per prevedere la variabile di destinazione nel set di dati.

Ad esempio, se stai cercando di prevedere chi è sopravvissuto sull'RMS Titanic dopo che questo ha colpito un iceberg, lo spazio delle funzionalità può includere l'età, il sesso e la tariffa pagata dai passeggeri.

Dallo spazio delle funzionalità, PCA genera un elenco ordinato di variazioni. Queste variazioni sono definite anche valori singolari. I valori nell'elenco delle varianze sono maggiori o uguali a 0. Possiamo usarli per determinare la quantità di multicollinearità presente nei nostri dati.

Quando i numeri sono più o meno uniformi, i dati presentano pochissime istanze di multicollinearità. Quando esiste molta variabilità tra i valori, abbiamo molti casi di multicollinearità. Prima di eseguire la PCA, Data Wrangler normalizza ogni funzionalità in modo che abbia una media di 0 e una deviazione standard di 1.

Nota

La PCA in questa circostanza può anche essere denominata decomposizione dei singoli valori (Singular Value Decomposition, SVD).

Lasso feature selection

La selezione delle funzionalità Lasso utilizza la tecnica di regolarizzazione L1 per includere solo le funzionalità più predittive nel set di dati.

Sia per la classificazione che per la regressione, la tecnica di regolarizzazione genera un coefficiente per ogni funzionalità. Il valore assoluto del coefficiente fornisce un punteggio di importanza per la funzionalità. Un punteggio di importanza più elevato indica che è più predittivo della variabile di destinazione. Un metodo di selezione delle funzionalità comune consiste nell'utilizzare tutte le funzionalità con un coefficiente di lasso diverso da zero.

Rileva anomalie nei dati delle serie temporali

Puoi utilizzare la visualizzazione del rilevamento delle anomalie per individuare i valori anomali nei dati di serie temporali. Per comprendere cosa determina un'anomalia, devi capire che scomponiamo le serie temporali in un termine previsto e un termine di errore. Consideriamo la stagionalità e l'andamento delle serie temporali come termine previsto. Trattiamo i residui come termine di errore.

Per il termine di errore, si specifica una soglia come il numero di deviazioni standard, il residuo può essere lontano dalla media perché venga considerato un'anomalia. Ad esempio, puoi specificare una soglia come 3 deviazioni standard. Qualsiasi residuo superiore a 3 deviazioni standard dalla media è un'anomalia.

È possibile utilizzare la procedura seguente per eseguire un'analisi di rilevamento delle anomalie.

  1. Apri il flusso di dati Data Wrangler.

  2. Nel flusso di dati, in Tipi di dati, scegli + e seleziona Aggiungi analisi.

  3. Per Tipo di analisi, scegli Serie temporali.

  4. Per Visualizzazione, scegli Rilevamento delle anomalie.

  5. Per Soglia di anomalia, scegli la soglia per cui un valore è considerato un'anomalia.

  6. Scegli Anteprima per generare un'anteprima dell'analisi.

  7. Scegli Aggiungi per aggiungere la trasformazione al flusso di dati di Data Wrangler.

Scomposizione delle tendenze stagionali nei dati delle serie temporali

Puoi determinare se esiste una stagionalità nei dati di serie temporali utilizzando la visualizzazione Scomposizione delle tendenze stagionali. Utilizziamo il metodo STL (Seasonal Trend decomposition using LOESS) per eseguire la scomposizione. Scomponiamo le serie temporali nelle sue componenti stagionali, di tendenza e residue. La tendenza riflette la progressione a lungo termine della serie. La componente stagionale è un segnale che ricorre in un determinato periodo di tempo. Dopo aver rimosso la tendenza e le componenti stagionali dalla serie temporale, si ottiene il residuo.

È possibile utilizzare la procedura seguente per eseguire un'analisi della scomposizione delle tendenze stagionali.

  1. Apri il flusso di dati Data Wrangler.

  2. Nel flusso di dati, in Tipi di dati, scegli + e seleziona Aggiungi analisi.

  3. Per Tipo di analisi, scegli Serie temporali.

  4. Per Visualizzazione, scegli Scomposizione delle tendenze stagionali.

  5. Per Soglia di anomalia, scegli la soglia per cui un valore è considerato un'anomalia.

  6. Scegli Anteprima per generare un'anteprima dell'analisi.

  7. Scegli Aggiungi per aggiungere la trasformazione al flusso di dati di Data Wrangler.

Crea visualizzazioni personalizzate

Puoi aggiungere un'analisi al flusso di Data Wrangler per creare una visualizzazione personalizzata. Il tuo set di dati, con tutte le trasformazioni che hai applicato, è disponibile come Pandas. DataFrame Data Wrangler utilizza la variabile per memorizzare il dataframe. df Puoi accedere al dataframe chiamando la variabile.

Devi fornire la variabile di output, chart, per memorizzare un grafico di output Altair. Ad esempio, puoi utilizzare il seguente blocco di codice per creare un istogramma personalizzato utilizzando il set di dati del Titanic.

import altair as alt df = df.iloc[:30] df = df.rename(columns={"Age": "value"}) df = df.assign(count=df.groupby('value').value.transform('count')) df = df[["value", "count"]] base = alt.Chart(df) bar = base.mark_bar().encode(x=alt.X('value', bin=True, axis=None), y=alt.Y('count')) rule = base.mark_rule(color='red').encode( x='mean(value):Q', size=alt.value(5)) chart = bar + rule
Per creare una visualizzazione personalizzata:
  1. Accanto al nodo contenente la trasformazione che desideri visualizzare, scegli +.

  2. Scegli Aggiungi analisi.

  3. Per Tipo di analisi, scegli Visualizzazione personalizzata.

  4. Per Nome dell'analisi, specifica un nome.

  5. Inserisci il codice nella casella del codice.

  6. Scegli Anteprima per visualizzare in anteprima la visualizzazione.

  7. Scegli Salva per aggiungere la tua visualizzazione.

Se non sai come usare il pacchetto di visualizzazione Altair in Python, puoi usare frammenti di codice personalizzati per iniziare.

Data Wrangler dispone di una raccolta ricercabile di frammenti di visualizzazione. Per utilizzare uno snippet di visualizzazione, scegli Cerca frammenti di esempio e specifica una query nella barra di ricerca.

L'esempio seguente utilizza lo snippet di codice Scatterplot Binned. Traccia un istogramma per 2 dimensioni.

Gli snippet contengono commenti per aiutarti a comprendere le modifiche da apportare al codice. In genere è necessario specificare i nomi delle colonne del set di dati nel codice.

import altair as alt # Specify the number of top rows for plotting rows_number = 1000 df = df.head(rows_number) # You can also choose bottom rows or randomly sampled rows # df = df.tail(rows_number) # df = df.sample(rows_number) chart = ( alt.Chart(df) .mark_circle() .encode( # Specify the column names for binning and number of bins for X and Y axis x=alt.X("col1:Q", bin=alt.Bin(maxbins=20)), y=alt.Y("col2:Q", bin=alt.Bin(maxbins=20)), size="count()", ) ) # :Q specifies that label column has quantitative type. # For more details on Altair typing refer to # https://altair-viz.github.io/user_guide/encoding.html#encoding-data-types