Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Tutorial: crea un flusso di lavoro di apprendimento end-to-end automatico in SageMaker Canvas
Questo tutorial ti guida attraverso un flusso di lavoro di end-to-end machine learning (ML) utilizzando Amazon SageMaker Canvas. SageMaker Canvas è un'interfaccia visiva senza codice che puoi utilizzare per preparare dati e addestrare e distribuire modelli ML. Per il tutorial, utilizzi un set di dati sui NYC taxi per addestrare un modello che prevede l'importo della tariffa per un determinato viaggio. Acquisirai esperienza pratica con attività di machine learning chiave come la valutazione della qualità dei dati e la risoluzione dei problemi relativi ai dati, la suddivisione dei dati in set di formazione e test, la formazione e la valutazione dei modelli, la creazione di previsioni e l'implementazione del modello addestrato, il tutto all'interno dell'applicazione Canvas. SageMaker
Importante
Questo tutorial presuppone che tu o il tuo amministratore abbiate creato un account. AWS Per informazioni sulla creazione di un AWS account, vedi Guida introduttiva: sei un AWS utente per la prima volta?
Configurazione
Un SageMaker dominio Amazon è un luogo centralizzato per gestire tutti gli SageMaker ambienti e le risorse Amazon. Un dominio funge da confine virtuale per il tuo lavoro SageMaker, fornendo isolamento e controllo degli accessi alle tue risorse di machine learning (ML).
Per iniziare a usare Amazon SageMaker Canvas, tu o il tuo amministratore dovete accedere alla SageMaker console e creare un SageMaker dominio Amazon. Un dominio dispone delle risorse di archiviazione e calcolo necessarie per eseguire SageMaker Canvas. All'interno del dominio, configuri SageMaker Canvas per accedere ai bucket Amazon S3 e distribuire modelli. Utilizza la seguente procedura per configurare un dominio rapido e creare un' SageMaker applicazione Canvas.
Per configurare SageMaker Canvas
-
Passare alla console SageMaker
. -
Nella barra di navigazione a sinistra, scegli SageMaker Canvas.
-
Scegli Crea un SageMaker dominio.
-
Scegliere Set up (Configura). La configurazione del dominio può richiedere alcuni minuti.
La procedura precedente utilizzava una configurazione rapida del dominio. È possibile eseguire una configurazione avanzata per controllare tutti gli aspetti della configurazione dell'account, tra cui autorizzazioni, integrazioni e crittografia. Per ulteriori informazioni su una configurazione personalizzata, consulta. Usa una configurazione personalizzata per Amazon SageMaker
Per impostazione predefinita, la configurazione rapida del dominio fornisce le autorizzazioni per distribuire i modelli. Se disponi di autorizzazioni personalizzate configurate tramite un dominio standard e devi concedere manualmente le autorizzazioni di distribuzione del modello, consulta. Gestione delle autorizzazioni
Creazione di flussi
Amazon SageMaker Canvas è una piattaforma di apprendimento automatico che consente agli utenti di creare, addestrare e distribuire modelli di apprendimento automatico senza una vasta esperienza di programmazione o apprendimento automatico. Una delle potenti funzionalità di Amazon SageMaker Canvas è la capacità di importare e lavorare con set di dati di grandi dimensioni da varie fonti, come Amazon S3.
Per questo tutorial, utilizziamo il set di dati dei NYC taxi per prevedere l'importo della tariffa per ogni viaggio utilizzando un flusso di dati Amazon SageMaker Canvas Data Wrangler. La procedura seguente descrive i passaggi per importare una versione modificata del set di dati dei NYC taxi in un flusso di dati.
Nota
Per una migliore elaborazione, SageMaker Canvas importa un campione dei tuoi dati. Per impostazione predefinita, campiona in modo casuale 50.000 righe.
Per importare il set di dati dei taxi NYC
-
Dalla home page di SageMaker Canvas, scegli Data Wrangler.
-
Scegli Import data (Importa dati).
-
Seleziona Tabulare.
-
Scegli la casella degli strumenti accanto all'origine dati.
-
Seleziona Amazon S3 dal menu a discesa.
-
Per l'endpoint Input S3, specifica
s3://
amazon-sagemaker-data-wrangler-documentation-artifacts
/canvas-single-file-nyc-taxi-dataset
.csv -
Scegli Vai.
-
Seleziona la casella di controllo accanto al set di dati.
-
Scegli Anteprima dati.
-
Seleziona Salva.
Rapporto 1 sulla qualità e gli approfondimenti dei dati (esempio)
Dopo aver importato un set di dati in Amazon SageMaker Canvas, puoi generare un rapporto Data Quality and Insights su un campione di dati. Usalo per fornire informazioni preziose sul set di dati. Il rapporto fa quanto segue:
-
Valuta la completezza del set di dati
-
Identifica i valori mancanti e i valori anomali
Può identificare altri potenziali problemi che potrebbero influire sulle prestazioni del modello. Valuta inoltre il potere predittivo di ciascuna funzionalità rispetto alla variabile target, consentendoti di identificare le funzionalità più rilevanti per il problema che stai cercando di risolvere.
Possiamo utilizzare le informazioni del rapporto per prevedere l'importo della tariffa. Specificando la colonna «Importo della tariffa» come variabile target e selezionando Regressione come tipo di problema, il rapporto analizzerà l'idoneità del set di dati alla previsione di valori continui come i prezzi delle tariffe. Il rapporto dovrebbe rivelare che funzioni come year e hour_of_day hanno un basso potere predittivo per la variabile target scelta, il che vi fornirà informazioni preziose.
Utilizza la procedura seguente per ottenere un rapporto Data Quality and Insights su un campione di 50.000 righe dal set di dati.
Per ottenere un rapporto su un campione
-
Scegli Ottieni informazioni sui dati dalla finestra pop-up accanto al nodo Tipi di dati.
-
Per Nome dell'analisi, specifica un nome per il rapporto.
-
Per Tipo di problema, scegli Regressione.
-
Per la colonna Target, scegli Importo della tariffa.
-
Scegli Create (Crea) .
Puoi consultare il rapporto Data Quality and Insights su un campione dei tuoi dati. Il rapporto indica che le funzionalità relative all'anno e all'ora del giorno non sono predittive della variabile target, Fare amount.
Nella parte superiore della navigazione, scegli il nome del flusso di dati per tornare ad esso.
Rilascia l'anno e l'ora del giorno
Stiamo utilizzando gli approfondimenti del rapporto per eliminare le colonne relative all'anno e all'ora del giorno per semplificare lo spazio delle funzionalità e migliorare potenzialmente le prestazioni del modello.
Amazon SageMaker Canvas offre un'interfaccia e strumenti intuitivi per eseguire tali trasformazioni di dati.
Utilizza la seguente procedura per eliminare le colonne anno e ora_giorno dal set di dati del NYC taxi utilizzando lo strumento Data Wrangler in Amazon Canvas. SageMaker
-
Scegli l'icona accanto a Tipi di dati.
-
Scegli Aggiungi fase.
-
Nella barra di ricerca, scrivi la colonna Drop.
-
Scegli Gestisci colonne.
-
Scegli Drop column.
-
Per Eliminare le colonne, seleziona le colonne year e hour_of_day.
-
Scegli Anteprima per vedere come la trasformazione modifica i dati.
-
Scegli Aggiungi.
Puoi utilizzare la procedura precedente come base per aggiungere tutte le altre trasformazioni in SageMaker Canvas.
Data Quality and Insights Report 2 (set di dati completo)
Per il precedente rapporto di approfondimento, abbiamo utilizzato un campione del set di dati sui NYC taxi. Per il nostro secondo rapporto, stiamo eseguendo un'analisi completa sull'intero set di dati per identificare potenziali problemi che influiscono sulle prestazioni del modello.
Utilizza la seguente procedura per creare un rapporto Data Quality and Insights su un intero set di dati.
Per ottenere un rapporto sull'intero set di dati
-
Scegli l'icona accanto al nodo Elimina colonne.
-
Scegli Ottieni informazioni sui dati.
-
Per Nome dell'analisi, specifica un nome per il rapporto.
-
Per Tipo di problema, scegli Regressione.
-
Per la colonna Target, scegli Importo della tariffa.
-
Per Dimensione dei dati, scegli Set di dati completo.
-
Scegli Create (Crea) .
Di seguito è riportata un'immagine tratta dal rapporto Insights:
Mostra i seguenti problemi:
-
Righe duplicate
-
Obiettivo inclinato
Le righe duplicate possono portare alla perdita di dati, in quanto il modello è esposto agli stessi dati durante l'addestramento e il test. Possono portare a metriche prestazionali eccessivamente ottimistiche. La rimozione delle righe duplicate garantisce che il modello venga addestrato su istanze uniche, riducendo il rischio di perdita di dati e migliorando la capacità di generalizzazione del modello.
Una distribuzione distorta delle variabili target, in questo caso, la colonna Fare amount, può causare classi squilibrate, in cui il modello potrebbe orientarsi verso la classe maggioritaria. Ciò può portare a prestazioni scadenti nelle classi minoritarie, il che è particolarmente problematico in scenari in cui è importante prevedere con precisione i casi rari o sottorappresentati.
Risolvere i problemi di qualità dei dati
Per risolvere questi problemi e preparare il set di dati per la modellazione, puoi cercare le seguenti trasformazioni e applicarle:
-
Elimina i duplicati utilizzando la trasformazione Gestisci righe.
-
Gestisci i valori anomali nella colonna Importo della tariffa utilizzando i valori anomali numerici di deviazione standard Robust.
-
Gestisci i valori anomali nelle colonne Distanza del viaggio e Durata del viaggio utilizzando gli outlier numerici di deviazione standard.
-
Utilizza la categoria Encode per codificare le colonne Rate code id, Payment type, Extra flag e Toll flag come float.
Se non sei sicuro di come applicare una trasformazione, vedi Rilascia l'anno e l'ora del giorno
Risolvendo questi problemi di qualità dei dati e applicando le trasformazioni appropriate, puoi migliorare l'idoneità del set di dati per la modellazione.
Verifica della qualità dei dati e rapida precisione del modello
Dopo aver applicato le trasformazioni per risolvere i problemi di qualità dei dati, come la rimozione delle righe duplicate, creiamo il nostro rapporto finale sulla qualità e gli approfondimenti dei dati. Questo rapporto aiuta a verificare che le trasformazioni applicate abbiano risolto i problemi e che il set di dati sia ora in uno stato adatto per la modellazione.
Durante la revisione del rapporto finale sulla qualità e gli approfondimenti dei dati, dovresti aspettarti di non vedere segnalati problemi importanti relativi alla qualità dei dati. Il rapporto dovrebbe indicare che:
-
La variabile target non è più distorta
-
Non ci sono valori anomali o righe duplicate
Inoltre, il rapporto dovrebbe fornire un punteggio rapido del modello basato su un modello di base addestrato sul set di dati trasformato. Questo punteggio funge da indicatore iniziale della precisione e delle prestazioni potenziali del modello.
Utilizza la procedura seguente per creare il rapporto Data Quality and Insights.
Per creare il rapporto Data Quality and Insights
-
Scegli l'icona accanto al nodo Elimina colonne.
-
Scegli Ottieni informazioni sui dati.
-
Per Nome dell'analisi, specifica un nome per il rapporto.
-
Per Tipo di problema, scegli Regressione.
-
Per la colonna Target, scegli Importo della tariffa.
-
Per Dimensione dei dati, scegli Set di dati completo.
-
Scegli Create (Crea) .
Dividi i dati in set di allenamento e test
Per addestrare un modello e valutarne le prestazioni, utilizziamo Split data transform per suddividere i dati in set di addestramento e test.
Per impostazione predefinita, SageMaker Canvas utilizza una suddivisione randomizzata, ma puoi anche utilizzare i seguenti tipi di suddivisioni:
-
Ordinato
-
Stratificato
-
Diviso per chiave
È possibile modificare la percentuale di divisione o aggiungere suddivisioni.
Per questo tutorial, usa tutte le impostazioni predefinite della divisione. È necessario fare doppio clic sul set di dati per visualizzarne il nome. Il set di dati di addestramento ha il nome Dataset (Train).
Accanto al nodo di codifica ordinale, applica la trasformazione dei dati Split.
Modello di treno
Dopo aver suddiviso i dati, puoi addestrare un modello. Questo modello impara dai modelli presenti nei dati. Puoi usarlo per fare previsioni o scoprire approfondimenti.
SageMaker Canvas ha sia build rapide che build standard. Usa una build standard per addestrare il modello con le migliori prestazioni sui tuoi dati.
Prima di iniziare ad addestrare un modello, devi prima esportare il set di dati di addestramento come set di dati SageMaker Canvas.
Per esportare il tuo set di dati
-
Accanto al nodo per il set di dati di addestramento, scegli l'icona e seleziona Esporta.
-
Seleziona il set di dati SageMaker Canvas.
-
Scegli Esporta per esportare il set di dati.
Dopo aver creato un set di dati, puoi addestrare un modello sul set di dati SageMaker Canvas che hai creato. Per informazioni sul training di un modello, consulta Creazione di un modello di previsione numerico o categorico personalizzato.
Valuta il modello e fai previsioni
Dopo aver addestrato il modello di machine learning, è fondamentale valutarne le prestazioni per assicurarsi che soddisfi i requisiti e funzioni bene su dati invisibili. Amazon SageMaker Canvas offre un'interfaccia intuitiva per valutare l'accuratezza del modello, esaminarne le previsioni e ottenere informazioni sui suoi punti di forza e di debolezza. Puoi utilizzare gli approfondimenti per prendere decisioni informate sulla sua implementazione e sulle potenziali aree di miglioramento.
Utilizzate la procedura seguente per valutare un modello prima di distribuirlo.
Per valutare un modello
-
Scegliete I miei modelli.
-
Scegli il modello che hai creato.
-
In Versioni, seleziona la versione corrispondente al modello.
È ora possibile visualizzare le metriche di valutazione del modello.
Dopo aver valutato il modello, puoi fare previsioni su nuovi dati. Stiamo usando il set di dati di test che abbiamo creato.
Per utilizzare il set di dati di test per le previsioni, dobbiamo convertirlo in un SageMaker set di dati Canvas. Il set di dati SageMaker Canvas è in un formato interpretabile dal modello.
Utilizzate la seguente procedura per creare un set di dati SageMaker Canvas dal set di dati di test.
Per creare un set di dati Canvas SageMaker
-
Accanto al set di dati Dataset (Test), scegli l'icona della radio.
-
Seleziona Esporta.
-
Seleziona il set di dati SageMaker Canvas.
-
Per il nome del set di dati, specifica un nome per il set di dati.
-
Scegli Export (Esporta).
Utilizzate la procedura seguente per fare previsioni. Si presuppone che tu sia ancora nella pagina Analizza.
Per fare previsioni sul set di dati di test
-
Scegli Predict.
-
Scegli Manuale.
-
Seleziona il set di dati che hai esportato.
-
Scegli Genera previsioni.
-
Quando SageMaker Canvas ha terminato la generazione delle previsioni, seleziona l'icona a destra del set di dati.
-
Scegli Anteprima per visualizzare le previsioni.
Distribuzione di un modello
Dopo aver valutato il modello, puoi distribuirlo su un endpoint. Puoi inviare richieste all'endpoint per ottenere previsioni.
Utilizza la procedura seguente per distribuire un modello. Si presuppone che tu sia ancora nella pagina Predict.
Per distribuire un modello
-
Seleziona Deploy (Implementa).
-
Scegli Create deployment (Crea distribuzione).
-
Seleziona Deploy (Implementa).
Pulizia
Hai completato con successo il tutorial. Per evitare di incorrere in costi aggiuntivi, elimina le risorse che non utilizzi.
Utilizza la procedura seguente per eliminare l'endpoint che hai creato. Si presuppone che tu sia ancora nella pagina Deploy.
Per eliminare un endpoint
-
Scegli il pulsante di opzione a destra della distribuzione.
-
Seleziona Elimina distribuzione.
-
Scegli Elimina.
Dopo aver eliminato la distribuzione, elimina i set di dati che hai creato all'interno SageMaker di Canvas. Utilizza la seguente procedura per eliminare i set di dati.
Per eliminare i set di dati
-
Scegli Datasets nella barra di navigazione a sinistra.
-
Seleziona il set di dati che hai analizzato e il set di dati sintetico utilizzato per le previsioni.
-
Scegli Elimina.
Per evitare di incorrere in costi aggiuntivi, devi disconnetterti da Canvas. SageMaker Per ulteriori informazioni, consulta Disconnettersi da Amazon Canvas SageMaker .