Preparazione dei dati - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Preparazione dei dati

Nota

In precedenza, Amazon SageMaker Data Wrangler faceva parte dell'esperienza SageMaker Studio Classic. Ora, se esegui l'aggiornamento alla nuova esperienza Studio, devi usare SageMaker Canvas per accedere a Data Wrangler e ricevere gli ultimi aggiornamenti delle funzionalità. Se finora hai utilizzato Data Wrangler in Studio Classic e desideri migrare a Data Wrangler in Canvas, potresti dover concedere autorizzazioni aggiuntive per poter creare e utilizzare un'applicazione Canvas. Per ulteriori informazioni, consulta (Facoltativo) Esegui la migrazione da Data Wrangler in Studio Classic a Canvas SageMaker .

Per informazioni su come migrare i flussi di dati da Data Wrangler in Studio Classic, consulta. (Facoltativo) Migrazione dei dati da Studio Classic a Studio

Usa Amazon SageMaker Data Wrangler in Amazon SageMaker Canvas per preparare, personalizzare e analizzare i tuoi dati. Puoi integrare un flusso di preparazione dei dati di Data Wrangler nei flussi di lavoro di machine learning (ML) per semplificare e ottimizzare la preelaborazione dei dati e l'ingegneria delle funzionalità utilizzando poca o nessuna codifica. Puoi anche aggiungere i tuoi script e le trasformazioni Python per personalizzare i flussi di lavoro.

  • Flusso di dati: crea un flusso di dati per definire una serie di fasi di preparazione dei dati ML. Puoi utilizzare un flusso per combinare set di dati provenienti da diverse origini dati, identificare il numero e i tipi di trasformazioni che desideri applicare ai set di dati e definire un flusso di lavoro di preparazione dei dati che può essere integrato in una pipeline ML.

  • Trasforma: pulisci e trasforma il tuo set di dati utilizzando trasformazioni standard come strumenti di formattazione di dati in stringhe, vettoriali e numerici. Personalizza i tuoi dati utilizzando trasformazioni come l'incorporamento di testo e data/ora e la codifica categoriale.

  • Genera analisi dei dati: verifica automaticamente la qualità dei dati e rileva le anomalie nei dati con Data Wrangler Data Quality and Insights Report.

  • Analizza: analizza le funzionalità del tuo set di dati in qualsiasi momento del flusso. Data Wrangler include strumenti integrati di visualizzazione dei dati come grafici a dispersione e istogrammi, oltre a strumenti di analisi dei dati come l'analisi delle fughe di obiettivi e la modellazione rapida per comprendere la correlazione delle funzionalità.

  • Esporta: esporta il flusso di lavoro di preparazione dei dati in una posizione diversa. Di seguito sono riportati alcuni esempi di posizioni:

    • Bucket Amazon Simple Storage Service (Amazon S3)

    • Amazon SageMaker Feature Store: archivia le funzionalità e i relativi dati in un archivio centralizzato.

  • Automatizza la preparazione dei dati: crea flussi di lavoro di machine learning partendo dal tuo flusso di dati.

    • Amazon SageMaker Pipelines: crea flussi di lavoro che gestiscono i lavori di preparazione SageMaker dei dati, formazione dei modelli e distribuzione dei modelli.

    • Pipeline di inferenza seriale: crea una pipeline di inferenza seriale dal tuo flusso di dati. Usala per fare previsioni su nuovi dati.

    • Script Python: archivia i dati e le loro trasformazioni in uno script Python per i tuoi flussi di lavoro personalizzati.