Prepara i dati ML con Amazon SageMaker Data Wrangler - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Prepara i dati ML con Amazon SageMaker Data Wrangler

Importante

Amazon SageMaker Data Wrangler è stato integrato in Amazon SageMaker Canvas. All'interno della nuova esperienza Data Wrangler in SageMaker Canvas, puoi utilizzare un'interfaccia in linguaggio naturale per esplorare e trasformare i tuoi dati oltre all'interfaccia visiva. Per ulteriori informazioni su Data Wrangler in SageMaker Canvas, consulta. Prepara i dati

Amazon SageMaker Data Wrangler (Data Wrangler) è una funzionalità di Amazon SageMaker Studio Classic che fornisce una end-to-end soluzione per importare, preparare, trasformare, personalizzare e analizzare i dati. Puoi integrare un flusso di preparazione dei dati di Data Wrangler nei flussi di lavoro di machine learning (ML) per semplificare e ottimizzare la preelaborazione dei dati e l'ingegneria delle funzionalità utilizzando poca o nessuna codifica. Puoi anche aggiungere i tuoi script e le trasformazioni Python per personalizzare i flussi di lavoro.

Data Wrangler offre le seguenti funzionalità di base per aiutarti ad analizzare e preparare i dati per le applicazioni di machine learning.

  • Importazione: connettiti e importa dati da Amazon Simple Storage Service (Amazon S3), Amazon Athena (Athena), Amazon Redshift, Snowflake e Databricks.

  • Flusso di dati: crea un flusso di dati per definire una serie di fasi di preparazione dei dati ML. Puoi utilizzare un flusso per combinare set di dati provenienti da diverse origini dati, identificare il numero e i tipi di trasformazioni che desideri applicare ai set di dati e definire un flusso di lavoro di preparazione dei dati che può essere integrato in una pipeline ML.

  • Trasforma: pulisci e trasforma il tuo set di dati utilizzando trasformazioni standard come strumenti di formattazione di dati in stringhe, vettoriali e numerici. Personalizza i tuoi dati utilizzando trasformazioni come l'incorporamento di testo e data/ora e la codifica categoriale.

  • Genera informazioni sui dati: verifica automaticamente la qualità dei dati e rileva le anomalie nei dati con Data Wrangler Data Insights e Rapporti sulla qualità.

  • Analizza: analizza le funzionalità del tuo set di dati in qualsiasi momento del flusso. Data Wrangler include strumenti integrati di visualizzazione dei dati come grafici a dispersione e istogrammi, oltre a strumenti di analisi dei dati come l'analisi delle fughe di obiettivi e la modellazione rapida per comprendere la correlazione delle funzionalità.

  • Esporta: esporta il flusso di lavoro di preparazione dei dati in una posizione diversa. Di seguito sono riportati alcuni esempi di posizioni:

    • Bucket Amazon Simple Storage Service (Amazon S3)

    • Amazon SageMaker Model Building Pipelines: usa SageMaker Pipelines per automatizzare la distribuzione dei modelli. Puoi esportare i dati che hai trasformato direttamente nelle pipeline.

    • Amazon SageMaker Feature Store: archivia le funzionalità e i relativi dati in un archivio centralizzato.

    • Script Python: archivia i dati e le loro trasformazioni in uno script Python per i tuoi flussi di lavoro personalizzati.

Per iniziare a utilizzare Data Wrangler, consulta. Inizia a usare Data Wrangler

Importante

Data Wrangler non supporta più Jupyter Lab versione 1 (JL1). Per accedere alle funzionalità e agli aggiornamenti più recenti, esegui l'aggiornamento alla versione 3 di Jupyter Lab. Per ulteriori informazioni sull'upgrade, consulta Visualizza e aggiorna la JupyterLab versione di un'applicazione dalla console.

Importante

Le informazioni e le procedure contenute in questa guida utilizzano la versione più recente di Amazon SageMaker Studio Classic. Per informazioni sull'aggiornamento di Studio Classic alla versione più recente, consultaPanoramica dell'interfaccia utente di Amazon SageMaker Studio Classic.

È necessario utilizzare Studio Classic versione 1.3.0 o successiva. Utilizza la procedura seguente per aprire Amazon SageMaker Studio Classic e vedere quale versione stai utilizzando.

Per aprire Studio Classic e verificarne la versione, consulta la procedura seguente.

  1. Segui i passaggi Prerequisiti per accedere a Data Wrangler tramite Amazon SageMaker Studio Classic.

  2. Accanto all'utente che desideri utilizzare per avviare Studio Classic, seleziona Launch app.

  3. Scegli Studio

  4. Dopo il caricamento di Studio Classic, seleziona File, quindi Nuovo e infine Terminale.

    Le opzioni del menu contestuale di Studio Classic descritte nel passaggio 4.
  5. Dopo aver avviato Studio Classic, seleziona File, Nuovo e infine Terminale.

  6. Accedi cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@" per stampare la versione della tua istanza di Studio Classic. È necessario disporre della versione 1.3.0 di Studio Classic per utilizzare Snowflake.

    Una finestra di terminale si è aperta in Studio Classic con il comando del passaggio 6 copiato e incollato.

Puoi aggiornare Amazon SageMaker Studio Classic dall'interno di AWS Management Console. Per ulteriori informazioni sull'aggiornamento di Studio Classic, consultaPanoramica dell'interfaccia utente di Amazon SageMaker Studio Classic.