Ottieni dettagli sui dati e sulla loro qualità - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ottieni dettagli sui dati e sulla loro qualità

Utilizza il Report della qualità e dei dettagli dei dati per eseguire un'analisi dei dati che hai importato in Data Wrangler. Si consiglia di creare il report dopo l'importazione del set di dati. Puoi utilizzare il report per aiutarti a pulire ed elaborare i tuoi dati. Il report fornisce informazioni come il numero di valori mancanti e il numero di valori anomali. In caso di problemi con i dati, come la perdita o lo squilibrio di dati di destinazione, il report sulle informazioni può richiamare l'attenzione su tali problemi.

Utilizza la procedura seguente per creare un report Qualità e dettagli dei dati. Si presuppone che tu abbia già importato un set di dati nel flusso di Data Wrangler.

Per creare un report Qualità e dettagli dei dati
  1. Scegli un + accanto a un nodo nel flusso di Data Wrangler.

  2. Seleziona Ottieni dettagli dei dati.

  3. In Nome dell'analisi, specifica un nome per il report dei dettagli.

  4. (Facoltativo) Nella colonna Destinazione, specifica la colonna di destinazione.

  5. In Tipo di problema, specifica Regressione o Classificazione.

  6. In Dimensione dei dati, specifica uno dei seguenti valori:

    • 50 K: utilizza le prime 50.000 righe del set di dati importato per creare il report.

    • Intero set di dati: utilizza l'intero set di dati che hai importato per creare il report.

    Nota

    La creazione di un report Data Quality and Insights sull'intero set di dati utilizza un processo di SageMaker elaborazione Amazon. Un SageMaker processo di elaborazione fornisce le risorse di calcolo aggiuntive necessarie per ottenere informazioni dettagliate su tutti i tuoi dati. Per ulteriori informazioni sui SageMaker processi di elaborazione, vedereUsa i processi di elaborazione per eseguire carichi di lavoro di trasformazione dei dati.

  7. Scegli Crea.

I seguenti argomenti mostrano le sezioni del report:

Puoi scaricare il report o visualizzarlo online. Per scaricare il report, scegli il pulsante di download nell'angolo in alto a destra dello schermo. L'immagine che segue mostra il pulsante.

Riepilogo

Il report dei dettagli contiene un breve riepilogo dei dati che include informazioni generali come valori mancanti, valori non validi, tipi di funzionalità, conteggi dei valori anomali e altro ancora. Può anche includere avvisi di elevata gravità che indicano probabili problemi con i dati. Si consiglia di esaminare gi avvisi.

Di seguito è riportato un esempio di un riepilogo del report.

Colonna di destinazione

Quando crei il report di qualità e dettagli dei dati, Data Wrangler ti offre la possibilità di selezionare una colonna di destinazione. Una colonna di destinazione è una colonna che stai cercando di prevedere. Quando scegli una colonna di destinazione, Data Wrangler crea automaticamente un'analisi della colonna di destinazione. Inoltre classifica le funzionalità in base al loro potere predittivo. Quando selezioni una colonna di destinazione, devi specificare se stai cercando di risolvere una regressione o un problema di classificazione.

Per la classificazione, Data Wrangler mostra una tabella e un istogramma delle classi più comuni. Una classe è una categoria. Presenta inoltre osservazioni, o righe, con un valore di destinazione mancante o non valido.

L'immagine seguente mostra un esempio di analisi della colonna di destinazione per un problema di classificazione.

Per la regressione, Data Wrangler mostra un istogramma di tutti i valori nella colonna di destinazione. Presenta inoltre osservazioni, o righe, con un valore obiettivo mancante, non valido o anomalo.

L'immagine seguente mostra un esempio di analisi della colonna di destinazione per un problema di regressione.

Modello rapido

Il modello rapido fornisce una stima della qualità prevista di un modello che si addestra sulla base dei dati.

Data Wrangler suddivide i dati in file di addestramento e convalida. Utilizza l'80% dei campioni per l’addestramento e il 20% dei valori per la convalida. Per la classificazione, il campione viene suddiviso in strati. Per una suddivisione stratificata, ogni partizione di dati ha la stessa percentuale di etichette. Per problemi di classificazione, è importante avere la stessa percentuale di etichette tra i fold di addestramento e di classificazione. Data Wrangler addestra il modello XGBoost con gli iperparametri predefiniti. Applica l'arresto anticipato dei dati di convalida ed esegue una preelaborazione minima delle funzionalità.

Per i modelli di classificazione, Data Wrangler restituisce sia un riepilogo del modello che una matrice di confusione.

Di seguito è riportato un esempio di riepilogo del modello di classificazione. Per ulteriori informazioni sulle informazioni che restituisce, consulta Definizioni.

Di seguito è riportato un esempio di matrice di confusione restituita dal modello rapido.

Una matrice di confusione fornisce le seguenti informazioni:

  • Il numero di volte in cui l'etichetta prevista corrisponde all'etichetta vera.

  • Il numero di volte in cui l'etichetta prevista non corrisponde all'etichetta vera.

L'etichetta vera rappresenta un'osservazione effettiva nei dati. Ad esempio, se utilizzi un modello per rilevare transazioni fraudolente, la vera etichetta rappresenta una transazione che è effettivamente fraudolenta o non fraudolenta. L'etichetta prevista rappresenta l'etichetta che il modello assegna ai dati.

Puoi utilizzare la matrice di confusione per vedere quanto bene il modello prevede la presenza o l'assenza di una condizione. Se prevedi transazioni fraudolente, puoi utilizzare la matrice di confusione per avere un'idea sia della sensibilità che della specificità del modello. La sensibilità si riferisce alla capacità del modello di rilevare transazioni fraudolente. La specificità si riferisce alla capacità del modello di evitare di rilevare transazioni non fraudolente come fraudolente.

Di seguito è riportato un esempio di output del modello rapido per un problema di regressione.

Sintesi delle funzionalità

Quando specifichi una colonna di destinazione, Data Wrangler ordina le funzionalità in base alla loro potenza di previsione. La potenza di previsione viene misurata sui dati dopo averli suddivisi in fold di addestramento all'80% e di convalida al 20%. Data Wrangler inserisce un modello per ogni funzionalità separatamente nella cartella di addestramento. Applica una preelaborazione minima delle funzionalità e misura le prestazioni di previsione sui dati di convalida.

Normalizza i punteggi nell'intervallo [0,1]. I punteggi di previsione più alti indicano le colonne più utili per prevedere da sole l'obiettivo. I punteggi più bassi indicano colonne che non sono predittive della colonna di destinazione.

È raro che una colonna che di per sé non è predittiva lo sia quando viene utilizzata insieme ad altre colonne. Puoi utilizzare con sicurezza i punteggi di previsione per determinare se una funzionalità del tuo set di dati è predittiva.

Un punteggio basso di solito indica che la funzionalità è ridondante. Un punteggio pari a 1 implica capacità predittive perfette, il che spesso indica una perdita dei dati di destinazione. La perdita dei dati di destinazione si verifica in genere quando il set di dati contiene una colonna che non è disponibile al momento della previsione. Ad esempio, potrebbe essere un duplicato della colonna di destinazione.

Di seguito sono riportati alcuni esempi della tabella e dell'istogramma che mostrano il valore di previsione di ciascuna funzionalità.

Esempi

Data Wrangler fornisce informazioni sull'eventuale presenza di campioni anomali o duplicati nel set di dati.

Data Wrangler rileva campioni anomali utilizzando l'algoritmo della foresta di isolamento. La foresta di isolamento associa un punteggio di anomalia a ciascun campione (riga) del set di dati. Punteggi di anomalia bassi indicano campioni anomali. I punteggi più alti sono associati a campioni non anomali. I campioni con un punteggio di anomalia negativo sono generalmente considerati anomali e i campioni con un punteggio di anomalia positivo sono considerati non anomali.

Quando si esamina un campione che potrebbe essere anomalo, si consiglia di prestare attenzione ai valori insoliti. Ad esempio, potresti avere valori anomali derivanti da errori nella raccolta e nell'elaborazione dei dati. Di seguito è riportato un esempio dei campioni più anomali secondo l'implementazione dell'algoritmo della foresta di isolamento da parte di Data Wrangler. Si consiglia di utilizzare la conoscenza del dominio e la logica aziendale quando si esaminano i campioni anomali.

Data Wrangler rileva le righe duplicate e calcola il rapporto tra le righe duplicate nei dati. Alcune origini dati potrebbero includere duplicati validi. Altre origini dati potrebbero avere duplicati che indicano problemi nella raccolta dei dati. I campioni duplicati derivanti da una raccolta errata dei dati potrebbero interferire con i processi di machine learning che si basano sulla suddivisione dei dati in moduli di addestramento e convalida indipendenti.

Di seguito sono riportati alcuni elementi del rapporto di approfondimento che possono essere influenzati da campioni duplicati:

  • Modello rapido

  • Stima della potenza di previsione

  • Ottimizzazione automatica degli iperparametri

È possibile rimuovere campioni duplicati dal set di dati utilizzando la trasformazione Elimina duplicati in Gestisci righe. Data Wrangler mostra le righe duplicate più frequentemente.

Definizioni

Di seguito sono riportate le definizioni dei termini tecnici utilizzati nel report di analisi dei dati.

Feature types

Di seguito sono riportate le definizioni per ogni tipo di funzionalità:

  • Numerico: i valori numerici possono essere variabili o numeri interi, ad esempio età o reddito. I modelli di machine learning presuppongono che i valori numerici siano ordinati e su di essi sia definita una distanza. Ad esempio, 3 è più vicino a 4 che a 10 e 3 < 4 < 10.

  • Categorico: le voci della colonna appartengono a un insieme di valori univoci, che in genere è molto inferiore al numero di voci nella colonna. Ad esempio, una colonna di lunghezza 100 potrebbe contenere i valori univoci Dog, Cat e Mouse. I valori possono essere numerici, di testo o una combinazione di entrambi. Horse, House, 8, Love e 3.1 sarebbero tutti valori validi e potrebbero essere trovati nella stessa colonna categorica. Il modello di machine learning non presuppone ordine o distanza sui valori delle funzionalità categoriali, a differenza delle funzionalità numeriche, anche quando tutti i valori sono numeri.

  • Binario: le funzionalità binarie sono un tipo di funzionalità categoriale speciale in cui la cardinalità dell'insieme di valori univoci è 2.

  • Testo: una colonna di testo contiene molti valori univoci non numerici. In casi estremi, tutti gli elementi della colonna sono unici. In un caso estremo, non esistono due voci uguali.

  • Datetime: una colonna datetime contiene informazioni sulla data o l'ora. Può contenere informazioni sia sulla data che sull'ora.

Feature statistics

Di seguito sono riportate le definizioni per ciascuna delle statistiche sulle funzionalità:

  • Potenza di previsione: la potenza di previsione misura l'utilità della colonna per prevedere l'obiettivo.

  • Valori anomali (in colonne numeriche): Data Wrangler rileva i valori anomali utilizzando due statistiche affidabili rispetto ai valori anomali: deviazione standard mediana e deviazione standard robusta (median and robust standard deviation, RSTD). RSTD è derivata ritagliando i valori delle funzionalità nell'intervallo [5 percentile, 95 percentile] e calcolando la deviazione standard del vettore ritagliato. Tutti i valori superiori alla mediana + 5 * RSTD o inferiori alla mediana - 5 * RSTD sono considerati valori anomali.

  • Inclinazione (in colonne numeriche): l'inclinazione misura la simmetria della distribuzione ed è definita come il terzo momento della distribuzione diviso per la terza potenza della deviazione standard. L'asimmetria della distribuzione normale o di qualsiasi altra distribuzione simmetrica è zero. I valori positivi implicano che la coda destra della distribuzione è più lunga della coda sinistra. I valori negativi implicano che la coda sinistra della distribuzione è più lunga della coda destra. Come regola generale, una distribuzione è considerata distorta quando il valore assoluto dell'inclinazione è maggiore di 3.

  • Kurtosis (in colonne numeriche): la kurtosis di Pearson misura la pesantezza della coda della distribuzione. È definita come il quarto momento della distribuzione diviso per il quadrato del secondo momento. La kurtosis della distribuzione normale è 3. Valori di kurtosis inferiori a 3 implicano che la distribuzione sia concentrata attorno alla media e che le code siano più leggere delle code della distribuzione normale. Valori di kurtosis superiori a 3 implicano code o valori anomali più pesanti.

  • Valori mancanti: gli oggetti di tipo NULL, le stringhe vuote e le stringhe composte solo da spazi bianchi sono considerati mancanti.

  • Valori validi per funzionalità numeriche o obiettivi di regressione: tutti i valori che è possibile convertire in numeri a virgola mobile finiti sono validi. I valori mancanti non sono validi.

  • Valori validi per funzionalità categoriche, binarie o di testo o per l'obiettivo di classificazione: tutti i valori che non mancano sono validi.

  • Funzionalità datetime: tutti i valori che è possibile trasmettere a un oggetto datetime sono validi. I valori mancanti non sono validi.

  • Valori non validi: valori mancanti o che non è possibile trasmettere correttamente. Ad esempio, in una colonna numerica, non è possibile inserire la stringa "six" o un valore nullo.

Quick model metrics for regression

Di seguito sono riportate le definizioni per le metriche del modello rapido:

  • R2 o coefficiente di determinazione): R2 è la proporzione della variazione dell'obiettivo prevista dal modello. R2 è compreso nell'intervallo [-infty, 1]. 1 è il punteggio del modello che prevede perfettamente l'obiettivo e 0 è il punteggio del modello banale che prevede sempre la media dell'obiettivo.

  • MSE o errore quadratico medio: MSE è compreso nell'intervallo [0, infty]. 0 è il punteggio del modello che prevede perfettamente l'obiettivo.

  • MAE o errore assoluto medio: MAE è compreso nell'intervallo [0, infty] dove 0 è il punteggio del modello che prevede perfettamente l'obiettivo.

  • RMSE o radice dell’errore quadratico medio: RMSE è compreso nell'intervallo [0, infty] dove 0 è il punteggio del modello che prevede perfettamente l'obiettivo.

  • Errore massimo: il valore assoluto massimo dell'errore nel set di dati. L'errore massimo è compreso nell'intervallo [0, infty]. 0 è il punteggio del modello che prevede perfettamente l'obiettivo.

  • Errore assoluto medio: l'errore assoluto medio è compreso nell'intervallo [0, infty]. 0 è il punteggio del modello che prevede perfettamente l'obiettivo.

Quick model metrics for classification

Di seguito sono riportate le definizioni per le metriche del modello rapido:

  • Precisione: la precisione è il rapporto tra campioni previsti con precisione. La precisione è compresa nell'intervallo [0, 1]. 0 è il punteggio del modello che prevede tutti i campioni in modo errato e 1 è il punteggio del modello perfetto.

  • Precisione bilanciata: la precisione bilanciata è il rapporto tra i campioni che viene previsto con precisione quando i pesi delle classi vengono regolati per bilanciare i dati. A tutte le classi viene data la stessa importanza, indipendentemente dalla frequenza. La precisione bilanciata è compresa nell'intervallo [0, 1]. 0 è il punteggio del modello che prevede tutti i campioni errati. 1 è il punteggio del modello perfetto.

  • AUC (classificazione binaria): questa è l'area sotto la curva caratteristica operativa del ricevitore. L'AUC è nell'intervallo [0, 1] in cui un modello casuale restituisce un punteggio di 0,5 e il modello perfetto restituisce un punteggio di 1.

  • AUC (OVR): per la classificazione multiclasse, si tratta dell'area sotto la curva caratteristica operativa del ricevitore calcolata separatamente per ciascuna etichetta utilizzando una contro la resto. Data Wrangler riporta la media delle aree. L'AUC è nell'intervallo [0, 1] in cui un modello casuale restituisce un punteggio di 0,5 e il modello perfetto restituisce un punteggio di 1.

  • Precisione: la precisione è definita per una classe specifica. La precisione è la frazione di veri positivi tra tutte le istanze classificate dal modello come tale classe. La precisione è compresa nell'intervallo [0, 1]. 1 è il punteggio del modello che non presenta falsi positivi per la classe. Per la classificazione binaria, Data Wrangler riporta la precisione della classe positiva.

  • Recupero: il recupero è definito per una classe specifica. Il recupero è la frazione delle istanze di classe pertinenti che vengono recuperate con successo. Il recupero è compreso nell'intervallo [0, 1]. 1 è il punteggio del modello che classifica correttamente tutte le istanze della classe. Per la classificazione binaria, Data Wrangler riporta il recupero della classe positiva.

  • F1: F1 è definito per una classe specifica. È la media armonica tra precisione e recupero. F1 è nell'intervallo [0, 1]. 1 è il punteggio del modello perfetto. Per la classificazione binaria, Data Wrangler riporta F1 per le classi con valori positivi.

Textual patterns

I modelli descrivono il formato testuale di una stringa utilizzando un formato di facile lettura. Di seguito sono riportati alcuni esempi di modelli testuali:

  • «{digits:4-7}» descrive una sequenza di cifre con una lunghezza compresa tra 4 e 7.

  • «{alnum:5}» descrive una stringa alfanumerica con una lunghezza esattamente di 5.

Data Wrangler deduce i modelli esaminando esempi di stringhe non vuote dai dati. Può descrivere molti dei modelli comunemente usati. La attendibilità espressa in percentuale indica la quantità di dati stimata in base al modello. Utilizzando lo schema testuale, puoi vedere quali righe dei dati devi correggere o eliminare.

Di seguito vengono descritti i modelli che Data Wrangler è in grado di riconoscere:

Pattern Formato testuale

{album}

Stringhe alfanumeriche

{any}

Qualsiasi stringa di caratteri di parole

{digits}

Una sequenza di cifre

{lower}

Una parola minuscola

{mixed}

Una parola composta da maiuscole e minuscole

{name}

Una parola che inizia con una lettera maiuscola

{upper}

Una parola in maiuscolo

{whitespace}

caratteri di spazio

Un carattere di parole è un carattere di sottolineatura o un carattere che può apparire in una parola in qualsiasi lingua. Ad esempio, le stringhe 'hello_word' e 'écoute' sono entrambe costituite da caratteri di parole. 'H' e 'é' sono entrambi esempi di caratteri di parole.