Crea un flusso di dati - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Crea un flusso di dati

Utilizza un flusso Data Wrangler in SageMaker Canvas, o flusso di dati, per creare e modificare una pipeline di preparazione dei dati. I set di dati, le trasformazioni e le analisi utilizzate nel flusso di dati sono rappresentati come passaggi.

Importa dati in un flusso di dati

Ti consigliamo di utilizzare Data Wrangler per set di dati di dimensioni superiori a 5 GB. Per iniziare, importa i dati in un flusso di dati.

Utilizza la procedura seguente per importare i dati in un flusso di dati.

Per importare i dati in un flusso di dati
  1. Apri SageMaker Canvas.

  2. Nella barra di navigazione a sinistra, scegli Data Wrangler.

  3. Scegli Importa e prepara.

  4. Dal menu a discesa, scegli Tabulare o Immagine.

  5. Per Seleziona un'origine dati, scegli la tua fonte di dati e seleziona i dati che desideri importare. Hai la possibilità di selezionare fino a 30 file o una cartella. Se hai già un set di dati importato in Canvas, scegli Canvas dataset come fonte. Altrimenti, connettiti a una fonte di dati come Amazon S3 o Snowflake e sfoglia i tuoi dati. Per informazioni sulla connessione a un'origine dati o sull'importazione di dati, consulta le seguenti pagine:

  6. Dopo aver selezionato i dati da importare, scegli Avanti.

  7. (Facoltativo) Per la sezione Impostazioni di importazione durante l'importazione di un set di dati tabulare, espandi il menu a discesa Avanzate. È possibile specificare le seguenti impostazioni avanzate per le importazioni del flusso di dati:

    • Metodo di campionamento: seleziona il metodo di campionamento e la dimensione del campione che desideri utilizzare. Per ulteriori informazioni sui metodi di campionamento, consultate la sezione successiva a questa procedura. Importa campionamento

    • Codifica file (CSV): seleziona la codifica del file del set di dati. UTF-8è l'impostazione predefinita.

    • Ignora le prime righe: inserisci il numero di righe che desideri saltare l'importazione se hai righe ridondanti all'inizio del set di dati.

    • Delimitatore: seleziona il delimitatore che separa ogni elemento dei dati. Puoi anche specificare un delimitatore personalizzato.

    • Rilevamento multilinea: seleziona questa opzione se desideri che Canvas analizzi manualmente l'intero set di dati alla ricerca di celle multilinea. Canvas determina se utilizzare o meno il supporto multilinea prelevando un campione dei dati, ma Canvas potrebbe non rilevare alcuna cella multilinea nel campione. In questo caso, ti consigliamo di selezionare l'opzione di rilevamento multilinea per forzare Canvas a verificare la presenza di celle multilinea nell'intero set di dati.

  8. Seleziona Importa.

Importa campionamento

Quando si importano dati tabulari in un flusso di dati di Data Wrangler, è possibile scegliere di prelevare un campione del set di dati per accelerare il processo di esplorazione e pulizia dei dati. L'esecuzione di trasformazioni esplorative su un campione del set di dati è spesso più veloce rispetto all'esecuzione di trasformazioni sull'intero set di dati e, quando sei pronto per esportare il set di dati e creare un modello, puoi applicare le trasformazioni all'intero set di dati.

Canvas supporta i seguenti metodi di campionamento:

  • FirstK — Canvas seleziona i primi K elementi dal set di dati, dove K è un numero specificato. Questo metodo di campionamento è semplice ma può introdurre distorsioni se il set di dati non è ordinato in modo casuale.

  • Casuale: Canvas seleziona gli elementi dal set di dati in modo casuale, con ogni elemento che ha la stessa probabilità di essere scelto. Questo metodo di campionamento aiuta a garantire che il campione sia rappresentativo dell'intero set di dati.

  • Stratificato: Canvas divide il set di dati in gruppi (o strati) in base a uno o più attributi (ad esempio, età e livello di reddito). Quindi, un numero proporzionale di elementi viene selezionato casualmente da ciascun gruppo. Questo metodo garantisce che tutti i sottogruppi pertinenti siano adeguatamente rappresentati nel campione.

È possibile modificare la configurazione di campionamento in qualsiasi momento per modificare la dimensione del campione utilizzato per l'esplorazione dei dati. Per ulteriori informazioni, consulta Modifica la configurazione di campionamento.

Interfaccia flusso di dati

Quando si importa un set di dati, il set di dati originale viene visualizzato nel flusso di dati e viene denominato Source. SageMaker Canvas deduce automaticamente i tipi di ogni colonna del set di dati e crea un nuovo dataframe denominato Tipi di dati. Puoi selezionare questo frame per aggiornare i tipi di dati dedotti.

Ogni volta che aggiungi una fase di trasformazione, crei un nuovo dataframe. Quando più fasi di trasformazione (diverse da Unisci o Concatena) vengono aggiunte allo stesso set di dati, vengono impilate.

Nell'opzione Combina dati, Join e Concatenate creano passaggi autonomi che contengono il nuovo set di dati unito o concatenato.

Per aiutarti a navigare nel flusso di dati, Data Wrangler ha le seguenti schede nel pannello di navigazione in alto:

  • Flusso di dati: questa scheda offre una visualizzazione visiva della fase del flusso di dati in cui è possibile aggiungere o rimuovere trasformazioni ed esportare dati.

  • Dati: questa scheda offre un'anteprima dei dati in modo da poter controllare i risultati delle trasformazioni. Puoi anche visualizzare un elenco ordinato delle fasi del flusso di dati e modificare o riordinare le fasi.

  • Analisi: in questa scheda, puoi visualizzare schede secondarie separate per ogni analisi che crei. Ad esempio, se crei un istogramma e un report Data Quality and Insights (DQI), Canvas crea una scheda per ciascuno.

Aggiungere una fase al flusso di dati

Seleziona + accanto a qualsiasi set di dati o fase aggiunti in precedenza, quindi seleziona una delle seguenti opzioni:

  • Modifica i tipi di dati (solo per la fase Tipi di dati): se non hai aggiunto alcuna trasformazione a una fase Tipi di dati, puoi fare doppio clic sulla fase Tipi di dati del flusso per aprire la scheda Dati e modificare i tipi di dati dedotti da Data Wrangler durante l'importazione del set di dati.

  • Aggiungi trasformazione: aggiunge una nuova fase di trasformazione. Consulta Trasforma i dati per saperne di più sulle trasformazioni dei dati che puoi aggiungere.

  • Ottieni informazioni dettagliate sui dati: aggiungi analisi, come istogrammi o visualizzazioni personalizzate. Puoi utilizzare questa opzione per analizzare i dati in qualsiasi momento del flusso di dati. Consulta Esegui un'analisi esplorativa dei dati () EDA per saperne di più sulle analisi che puoi aggiungere.

  • Unisci: trova questa opzione in Combina dati per unire due set di dati e aggiungi il set di dati risultante al flusso di dati. Per ulteriori informazioni, consulta Unire i set di dati.

  • Concatena: trova questa opzione in Combina dati per concatenare due set di dati e aggiungere il set di dati risultante al flusso di dati. Per ulteriori informazioni, consulta Concatena i set di dati.

Riordina le fasi del flusso di dati

Dopo aver aggiunto i passaggi al flusso di dati, hai la possibilità di riordinare i passaggi anziché eliminarli e aggiungerli nuovamente nell'ordine corretto. Ad esempio, potresti decidere di spostare una trasformazione per imputare i valori mancanti prima di procedere alla formattazione delle stringhe.

Nota

Non è possibile modificare l'ordine di determinati tipi di passaggi, ad esempio la definizione dell'origine dati, la modifica dei tipi di dati, l'unione, la concatenazione o la divisione. I passaggi che non possono essere riordinati sono visualizzati in grigio nell'interfaccia utente dell'applicazione Canvas.

Per riordinare i passaggi del flusso di dati, procedi come segue:

  1. Durante la modifica di un flusso di dati in Data Wrangler, scegli la scheda Dati. Un pannello laterale chiamato Steps elenca i passaggi del flusso di dati in ordine.

  2. Passa il mouse su un passaggio di trasformazione e scegli l'icona Altre opzioni ( Vertical ellipsis icon representing a menu or more options. ) accanto a quel passaggio.

  3. Dal menu contestuale, scegli Riordina.

  4. Trascina e rilascia i passaggi del flusso di dati nell'ordine desiderato.

  5. Quando hai finito, scegli Salva.

Le fasi e il grafico del flusso di dati dovrebbero ora riflettere le modifiche apportate.

Modifica la configurazione di campionamento

È possibile modificare la dimensione o il tipo di campione utilizzato nel flusso di dati modificando la configurazione di campionamento.

Per apportare modifiche alla configurazione di campionamento, procedi come segue:

  1. Nel grafico del flusso di dati, seleziona il nodo dell'origine dati.

  2. Scegli Sampling nella barra di navigazione in basso.

  3. Viene visualizzata la finestra di dialogo Sampling. Nel menu a discesa Metodo di campionamento, selezionate il metodo di campionamento desiderato.

  4. Per Dimensione massima del campione, inserisci il numero di righe da campionare.

  5. Scegli Update (Aggiorna) per salvare le modifiche.

Le modifiche alla configurazione di campionamento dovrebbero ora essere applicate.

Modifica o sostituisci un passaggio relativo all'origine dei dati

Potrebbe essere necessario apportare modifiche alla fonte di dati o al set di dati senza eliminare le trasformazioni e le fasi del flusso di dati applicate ai dati originali. In Data Wrangler, puoi modificare o sostituire la configurazione dell'origine dati mantenendo le fasi del flusso di dati. Quando si modifica una fonte di dati, è possibile modificare le impostazioni di importazione, come la dimensione o il metodo di campionamento e qualsiasi impostazione avanzata. Puoi anche aggiungere altri file con lo stesso schema oppure, per fonti di dati basate su query come Amazon Athena, puoi modificare la query. Quando sostituisci un'origine dati, hai la possibilità di selezionare un set di dati diverso o persino di importare completamente i dati da un'altra fonte di dati, purché lo schema dei nuovi dati corrisponda ai dati originali.

Per modificare la configurazione di un'origine dati, procedi come segue:

  1. Nell'applicazione Canvas, vai alla pagina Data Wrangler.

  2. Scegli il tuo flusso di dati per visualizzarlo.

  3. Nella scheda Flusso di dati che mostra le fasi del flusso di dati, trova il nodo Origine che desideri modificare.

  4. Scegli l'icona con i puntini di sospensione accanto al nodo Sorgente.

  5. Nel menu contestuale, selezionare Edit (Modifica).

  6. Per le fonti di dati Amazon S3 e il caricamento locale, hai la possibilità di selezionare o caricare più file con lo stesso schema dei dati originali. Per le fonti di dati basate su query come Amazon Athena, puoi rimuovere e selezionare diverse tabelle nel generatore di query visive oppure puoi modificare direttamente la query. SQL Al termine, selezionare Next (Successivo).

  7. Per le impostazioni di importazione, apporta le modifiche desiderate.

  8. Quando hai finito, scegli Salva modifiche.

La tua fonte di dati dovrebbe ora essere aggiornata.

Per sostituire un'origine dati, procedi come segue:

  1. Nell'applicazione Canvas, vai alla pagina Data Wrangler.

  2. Scegli il tuo flusso di dati per visualizzarlo.

  3. Nella scheda Flusso di dati che mostra le fasi del flusso di dati, trova il nodo Origine che desideri modificare.

  4. Scegli l'icona con i puntini di sospensione accanto al nodo Sorgente.

  5. Dal menu contestuale, scegliete Sostituisci.

  6. Passa all'esperienza Importa dati in un flusso di dati per selezionare un'altra fonte di dati e altri dati.

  7. Quando hai selezionato i dati e sei pronto per aggiornare il nodo sorgente, scegli Salva.

Ora dovresti vedere il nodo Sorgente aggiornato nel tuo flusso di dati.

Eliminare una fase dal flusso di dati

Per eliminare un passaggio, nella scheda Flusso di dati del flusso di dati, seleziona il + accanto al passaggio e seleziona Elimina. Se il nodo è un nodo con un solo input, si elimina solo la fase selezionata. L'eliminazione di una fase con un solo input non elimina le fasi successive. Se stai eliminando una fase per un nodo di origine, join o concatenazione, vengono eliminata anche tutte le fasi successive.

Per eliminare una fase da uno stack di fasi, seleziona lo stack e quindi seleziona la fase che desideri eliminare.

Puoi utilizzare una delle procedure seguenti per eliminare una fase senza eliminare le fasi a valle.

Delete a step in the Data Wrangler flow

Puoi eliminare una singola fase per i nodi del flusso di dati che hanno un singolo input. Non puoi eliminare singole fasi per i nodi di origine, unione e concatenazione.

Utilizza la procedura seguente per eliminare una fase nel flusso di Data Wrangler.

  1. Scegli il gruppo di fasi contenente la fase che stai eliminando.

  2. Scegli l'icona accanto alla fase.

  3. Scegli Elimina fase.

Delete a step in the table view

Utilizza la procedura riportata di seguito per eliminare una fase nella vista tabella.

Puoi eliminare una singola fase per i nodi del flusso di dati che hanno un singolo input. Non puoi eliminare singole fasi per i nodi di origine, unione e concatenazione.

  1. Scegli la fase e apri la visualizzazione della tabella relativa ala fase.

  2. Sposta il cursore sulla fase in modo che appaia l'icona con i puntini di sospensione.

  3. Scegli l'icona accanto alla fase.

  4. Scegli Elimina.