Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esporta
Nel flusso di Data Wrangler, puoi esportare alcune o tutte le trasformazioni che hai apportato alle tue pipeline di elaborazione dati.
Un flusso di Data Wrangler è la serie di fasi di preparazione dei dati che hai eseguito sui dati. Nella preparazione dei dati, esegui una o più trasformazioni dei dati. Ogni trasformazione viene eseguita utilizzando una fase di trasformazione. Il flusso ha una serie di nodi che rappresentano l'importazione dei dati e le trasformazioni che hai eseguito. Per un esempio di nodi, vedere la seguente immagine.
L'immagine precedente mostra un flusso di Data Wrangler con due nodi. Il nodo Source - sampled (Origine - campionato) mostra l'origine dati da cui hai importato i dati. Il nodo Data types (Tipi di dati) indica che Data Wrangler ha eseguito una trasformazione per convertire il set di dati in un formato utilizzabile.
Ogni trasformazione che aggiungi al flusso di Data Wrangler viene visualizzata come un nodo aggiuntivo. Per ulteriori informazioni sulle trasformazioni che è possibile aggiungere, consulta Trasformazione dei dati. L'immagine seguente mostra un flusso di Data Wrangler con un nodo Rename-column (Rinomina colonna) per modificare il nome di una colonna in un set di dati.
Puoi esportare le trasformazioni dei dati nei seguenti modi:
-
Amazon S3
-
Pipeline
-
Amazon SageMaker Feature Store
-
Codice Python
Importante
Ti consigliamo di utilizzare la policy IAM AmazonSageMakerFullAccess
gestita per concedere l' AWS autorizzazione all'uso di Data Wrangler. Se non utilizzi la policy gestita, puoi utilizzare una IAM policy che consente a Data Wrangler di accedere a un bucket Amazon S3. Per ulteriori informazioni sulla policy, consulta Sicurezza e autorizzazioni.
Quando esporti il flusso di dati, ti vengono addebitati i costi per le AWS risorse che utilizzi. Puoi utilizzare i tag di allocazione dei costi per organizzare e gestire i costi di tali risorse. Quando crei questi tag per il tuo profilo utente Data Wrangler li applica automaticamente alle risorse utilizzate per esportare il flusso di dati. Per ulteriori informazioni, consulta Utilizzo dei tag per l'allocazione dei costi.
Esportazione in Amazon S3
Data Wrangler ti offre la possibilità di esportare i dati in una posizione all'interno di un bucket Amazon S3. È possibile specificare la posizione utilizzando uno dei seguenti metodi:
-
Destination node (Nodo di destinazione): dove Data Wrangler archivia i dati dopo averli elaborati.
-
Export to (Esporta in): esporta i dati risultanti da una trasformazione in Amazon S3.
-
Export data (Esporta dati): per set di dati di piccole dimensioni, puoi esportare rapidamente i dati che hai trasformato.
Per ulteriori informazioni su ciascuno di questi metodi utilizza le seguenti sezioni.
Quando esporti il flusso di dati in un bucket Amazon S3, Data Wrangler archivia una copia del file di flusso nel bucket S3. Memorizza il file di flusso con il prefisso data_wrangler_flows. Se utilizzi il bucket Amazon S3 predefinito per archiviare i tuoi file di flusso, utilizza la seguente convenzione di denominazione: sagemaker-
Ad esempio, se il numero dell'account è 111122223333 e si utilizza Studio Classic in us-east-1, i set di dati importati vengono archiviati in. region
-account
number
sagemaker-us-east-1-111122223333
In questo esempio, i tuoi file di flusso creati in us-east-1 vengono archiviati in s3://sagemaker-
. region
-account
number
/data_wrangler_flows/
Esporta in Pipelines
Se desideri creare e distribuire flussi di lavoro di machine learning (ML) su larga scala, puoi utilizzare Pipelines per creare flussi di lavoro che gestiscono e distribuiscono lavori. SageMaker Con Pipelines, puoi creare flussi di lavoro che gestiscono la preparazione dei SageMaker dati, la formazione dei modelli e i lavori di implementazione dei modelli. Puoi utilizzare gli algoritmi proprietari SageMaker offerti utilizzando Pipelines. Per ulteriori informazioni sulle pipeline, consulta Pipelines. SageMaker
Quando esporti uno o più passaggi dal flusso di dati a Pipelines, Data Wrangler crea un notebook Jupyter che puoi utilizzare per definire, istanziare, eseguire e gestire una pipeline.
Per creare una pipeline usare un notebook Jupyter
Utilizza la seguente procedura per creare un notebook Jupyter per esportare il flusso di Data Wrangler in Pipelines.
Utilizzate la seguente procedura per generare un notebook Jupyter ed eseguirlo per esportare il flusso di Data Wrangler in Pipelines.
-
Seleziona la + accanto al nodo che desideri esportare.
-
Seleziona Esporta in.
-
Scegli Pipelines (tramite Jupyter Notebook).
-
Esecuzione del notebook Jupyter
Per definire una pipeline è possibile utilizzare il notebook Jupyter prodotto da Data Wrangler. La pipeline include le fasi di elaborazione dati definite dal flusso di Data Wrangler.
Puoi aggiungere ulteriori fasi alla tua pipeline aggiungendo fasi all'elenco steps
nel seguente codice del notebook:
pipeline = Pipeline( name=pipeline_name, parameters=[instance_type, instance_count], steps=[step_process], #Add more steps to this list to run in your Pipeline )
Per ulteriori informazioni sulla definizione delle pipeline, consulta Define Pipeline. SageMaker
Esportazione in un endpoint di inferenza
Usa il tuo flusso Data Wrangler per elaborare i dati al momento dell'inferenza creando una pipeline di inferenza SageMaker seriale dal tuo flusso Data Wrangler. Una pipeline di inferenza è una serie di fasi che si traducono in un modello addestrato che effettua previsioni su nuovi dati. Una pipeline di inferenza seriale all'interno di Data Wrangler trasforma i dati grezzi e li fornisce al modello di machine learning per una previsione. Puoi creare, eseguire e gestire la pipeline di inferenza da un notebook Jupyter all'interno di Studio Classic. Per ulteriori informazioni sull’accesso al notebook, consultare Utilizza un notebook Jupyter per creare un endpoint di inferenza.
All'interno del notebook, puoi addestrare un modello di machine learning o specificarne uno che hai già addestrato. Puoi utilizzare Amazon SageMaker Autopilot o XGBoost addestrare il modello utilizzando i dati che hai trasformato nel flusso di Data Wrangler.
La pipeline offre la possibilità di eseguire inferenze in batch o in tempo reale. Puoi anche aggiungere il flusso Data Wrangler a Model Registry. SageMaker Per ulteriori informazioni sui modelli di hosting, consulta Endpoint multi-modello.
Importante
Non è possibile esportare il flusso di Data Wrangler su un endpoint di inferenza se presenta le seguenti trasformazioni:
-
Join
-
Concatenazione
-
Gruppo da
Se per preparare i dati è necessario utilizzare le trasformazioni precedenti, utilizza la procedura seguente.
Per preparare i dati per l'inferenza con trasformazioni non supportate
-
Crea un flusso di Data Wrangler.
-
Applica le trasformazioni precedenti non supportate.
-
Esporta i dati in un bucket Amazon S3.
-
Crea un flusso di Data Wrangler separato.
-
Importa i dati che hai esportato dal flusso precedente.
-
Applica le trasformazioni rimanenti.
-
Crea una pipeline di inferenza seriale utilizzando il notebook Jupyter che forniamo.
Per informazioni sull'esportazione dei dati in un bucket Amazon S3 consulta Esportazione in Amazon S3. Per informazioni sull'apertura del notebook Jupyter utilizzato per creare la pipeline di inferenza seriale, consulta Utilizza un notebook Jupyter per creare un endpoint di inferenza.
Data Wrangler ignora le trasformazioni che rimuovono i dati al momento dell'inferenza. Ad esempio, Data Wrangler ignora la trasformazione Gestisci valori mancanti se si utilizza la configurazione Drop mancante.
Se hai effettuato l'adattamento delle trasformazioni all'intero set di dati, le trasformazioni vengono trasferite alla tua pipeline di inferenza. Ad esempio, se hai utilizzato il valore mediano per imputare i valori mancanti, il valore mediano ottenuto dall'adattamento della trasformazione viene applicato alle tue richieste di inferenza. Puoi scegliere di effettuare l'adattamento delle trasformazioni dal flusso di Data Wrangler quando utilizzi il notebook Jupyter o quando esporti i dati in una pipeline di inferenza. Per informazioni sull'adattamento delle trasformazioni, consulta Adatta le trasformazioni all'intero set di dati ed esportarle.
La pipeline di inferenza seriale supporta i seguenti tipi di dati per le stringhe di input e output. Ogni tipo di dati ha una serie di requisiti.
Tipi di dati supportati
-
text/csv
— il tipo di dati per le stringhe CSV-
La stringa non può avere un'intestazione.
-
Le funzionalità utilizzate per la pipeline di inferenza devono essere nello stesso ordine delle funzionalità nel set di dati di addestramento.
-
Tra le funzionalità deve esserci una virgola come delimitatore.
-
I record devono essere delimitati da un carattere ritorno a capo.
Di seguito è riportato un esempio di CSV stringa con un formato valido che è possibile fornire in una richiesta di inferenza.
abc,0.0,"Doe, John",12345\ndef,1.1,"Doe, Jane",67890
-
-
application/json
— il tipo di dati per le stringhe JSON-
Le funzionalità utilizzate nel set di dati per la pipeline di inferenza devono essere nello stesso ordine delle funzionalità nel set di dati di addestramento.
-
I dati devono avere uno schema specifico. Lo schema viene definito come un singolo oggetto
instances
con un set difeatures
. Ogni oggettofeatures
rappresenta un'osservazione.
Di seguito è riportato un esempio di JSON stringa con un formato valido che è possibile fornire in una richiesta di inferenza.
{ "instances": [ { "features": ["abc", 0.0, "Doe, John", 12345] }, { "features": ["def", 1.1, "Doe, Jane", 67890] } ] }
-
Utilizza un notebook Jupyter per creare un endpoint di inferenza
Utilizza la seguente procedura per esportare il flusso di Data Wrangler per creare una pipeline di inferenza.
Per creare una pipeline di inferenza utilizzando un notebook Jupyter, procedi come segue.
-
Seleziona la + accanto al nodo che desideri esportare.
-
Seleziona Esporta in.
-
Scegli SageMaker Inference Pipeline (tramite Jupyter Notebook).
-
Esecuzione del notebook Jupyter
Quando si esegue il notebook Jupyter, viene creato un artefatto del flusso di inferenza. Un artefatto del flusso di inferenza è un file di flusso di Data Wrangler con metadati aggiuntivi utilizzati per creare la pipeline di inferenza seriale. Il nodo che stai esportando include tutte le trasformazioni dei nodi precedenti.
Importante
Data Wrangler ha bisogno dell'artefatto del flusso di inferenza per eseguire la pipeline di inferenza. Non puoi usare il tuo file di flusso come artefatto. È necessario crearlo utilizzando la procedura precedente.
Esportazione in codice Python
Per esportare tutte le fasi del flusso di dati in un file Python che puoi integrare manualmente in qualsiasi flusso di lavoro di elaborazione dati, usa la procedura seguente.
Utilizza la seguente procedura per generare un notebook Jupyter ed eseguirlo per esportare il flusso di Data Wrangler in codice Python.
-
Seleziona la + accanto al nodo che desideri esportare.
-
Seleziona Export to.
-
Seleziona Python Code (Codice Python).
-
Esecuzione del notebook Jupyter
Per farlo eseguire nella pipeline potrebbe essere necessario configurare lo script Python. Ad esempio, se utilizzi un ambiente Spark, assicurati di eseguire lo script da un ambiente che dispone del permesso di accedere alle risorse. AWS
Esporta su Amazon SageMaker Feature Store
Puoi utilizzare Data Wrangler per esportare le funzionalità che hai creato su Amazon SageMaker Feature Store. Una funzionalità è una colonna nel set di dati. L'archivio funzionalità è un archivio centralizzato delle funzionalità e i relativi metadati associati. Puoi utilizzare l'archivio funzionalità per creare, condividere e gestire dati curati per lo sviluppo del machine learning (ML). Gli archivi centralizzati rendono i dati più reperibili e riutilizzabili. Per ulteriori informazioni su Feature Store, consulta Amazon SageMaker Feature Store.
Un concetto fondamentale nell'archivio funzionalità è un gruppo di funzionalità. Un gruppo di funzionalità è una raccolta di funzionalità con i relativi record (osservazioni) e i metadati associati. È simile a una tabella in un database.
È possibile utilizzare Data Wrangler per eseguire una delle operazioni seguenti:
-
Aggiornare un gruppo di funzionalità esistente con nuovi record. Un record è un'osservazione nel set di dati.
-
Creare un nuovo gruppo di funzionalità da un nodo del flusso di Data Wrangler. Data Wrangler aggiunge le osservazioni dai tuoi set di dati come record nel tuo gruppo di funzionalità.
Se stai aggiornando un gruppo di funzionalità esistente, lo schema del set di dati deve corrispondere allo schema del gruppo di funzionalità. Tutti i record del gruppo di funzionalità vengono sostituiti con le osservazioni nel set di dati.
Per aggiornare il gruppo di funzionalità con le osservazioni nel set di dati è possibile utilizzare un notebook Jupyter o un nodo di destinazione.
Se i tuoi gruppi di funzionalità con il formato di tabella Iceberg dispongono di una chiave di crittografia personalizzata per l'archivio offline, assicurati di concedere a IAM quella che stai utilizzando per il job Amazon SageMaker Processing le autorizzazioni per utilizzarla. Come minimo, devi concedere le autorizzazioni per crittografare i dati che stai scrivendo in Amazon S3. Per concedere le autorizzazioni, consenti al IAM ruolo di utilizzare il. GenerateDataKey Per ulteriori informazioni sulla concessione dei permessi di utilizzo delle chiavi ai IAM ruoli, vedere AWS KMS https://docs.aws.amazon.com/kms/latest/developerguide/key-policies.html
Il notebook utilizza queste configurazioni per creare un gruppo di funzionalità, elaborare i dati su larga scala e quindi inserire i dati elaborati nell’archivio funzionalità online e offline. Per ulteriori informazioni, consulta Origine dati e inserimento.
Adatta le trasformazioni all'intero set di dati ed esportarle
Quando si importano dati, per applicare le codifiche Data Wrangler utilizza un campione di dati. Per impostazione predefinita, Data Wrangler utilizza le prime 50.000 righe come campione, ma è possibile importare l'intero set di dati o utilizzare un metodo di campionamento diverso. Per ulteriori informazioni, consulta Importa.
Le seguenti trasformazioni utilizzano i dati per creare una colonna nel set di dati:
Se per importare i dati hai usato il campionamento, per creare la colonna le trasformazioni precedenti utilizzano solo i dati del campione. La trasformazione potrebbe non aver utilizzato tutti i dati pertinenti. Ad esempio, se utilizzi la trasformazione Codifica categorica, potrebbe esserci una categoria nel set di dati che non è presente nel campione.
Per adattare le trasformazioni all'intero set di dati è possibile utilizzare un nodo di destinazione o un notebook Jupyter. Quando Data Wrangler esporta le trasformazioni nel flusso, crea un SageMaker processo di elaborazione. Al termine del processo di elaborazione, Data Wrangler salva i seguenti file nella posizione Amazon S3 predefinita o in una posizione S3 specificata dall'utente:
-
Il file di flusso di Data Wrangler che specifica le trasformazioni da adattare al set di dati
-
Il set di dati con le trasformazioni adattate ad esso
È possibile aprire un file di flusso di Data Wrangler all'interno di Data Wrangler e applicare le trasformazioni a un set di dati diverso. Ad esempio, se hai applicato le trasformazioni a un set di dati di addestramento, puoi aprire e utilizzare il file di flusso di Data Wrangler per applicare le trasformazioni a un set di dati utilizzato per l'inferenza.
Per informazioni sull'utilizzo dei nodi di destinazione per adattare le trasformazioni e l'esportazione, consulta le seguenti pagine:
Utilizza la seguente procedura per eseguire un notebook Jupyter per adattare le trasformazioni ed esportare i dati.
Per eseguire un notebook Jupyter e adattare le trasformazioni ed esportare il flusso di Data Wrangler, procedi come segue.
-
Seleziona la + accanto al nodo che desideri esportare.
-
Seleziona Esporta in.
-
Seleziona la posizione in cui esportare i dati.
-
Per l'oggetto
refit_trained_params
, impostarefit
suTrue
-
Per il campo
output_flow
, specifica il nome del file di flusso di output con le trasformazioni adattate. -
Esecuzione del notebook Jupyter
Creare una pianificazione per elaborare automaticamente i nuovi dati
Se elabori i dati periodicamente, puoi creare una pianificazione per eseguire automaticamente il processo di elaborazione. Ad esempio, è possibile creare una pianificazione che esegue automaticamente un processo di elaborazione quando si ottengono nuovi dati. Per ulteriori informazioni su questi processi di elaborazione, consulta Esportazione in Amazon S3 e Esporta su Amazon SageMaker Feature Store.
Quando si crea un lavoro, è necessario specificare un IAM ruolo con le autorizzazioni necessarie per creare il lavoro. Per impostazione predefinita, il IAM ruolo che utilizzi per accedere a Data Wrangler è il. SageMakerExecutionRole
Le seguenti autorizzazioni consentono a Data Wrangler di accedere EventBridge e di eseguire processi di EventBridge elaborazione:
-
Aggiungi la seguente policy AWS gestita al ruolo di esecuzione di Amazon SageMaker Studio Classic che fornisce a Data Wrangler le autorizzazioni per l'uso: EventBridge
arn:aws:iam::aws:policy/AmazonEventBridgeFullAccess
Per ulteriori informazioni sulla politica, consulta le politiche AWS gestite per. EventBridge
-
Aggiungi la seguente politica al IAM ruolo che specifichi quando crei un lavoro in Data Wrangler:
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "sagemaker:StartPipelineExecution", "Resource": "arn:aws:sagemaker:
Region
:AWS-account-id
:pipeline/data-wrangler-*" } ] }Se utilizzi il IAM ruolo predefinito, aggiungi la politica precedente al ruolo di esecuzione di Amazon SageMaker Studio Classic.
Aggiungi la seguente politica di fiducia al ruolo per EventBridge consentirne l'assunzione.
{ "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
Importante
Quando crei una pianificazione, Data Wrangler crea un eventRule
ingresso. EventBridge Ti vengono addebitati costi sia per le regole degli eventi che crei sia per le istanze utilizzate per eseguire il processo di elaborazione.
Per informazioni sui EventBridge prezzi, consulta la pagina EventBridge dei prezzi di Amazon
Puoi impostare una pianificazione utilizzando uno dei seguenti metodi:
-
Nota
Data Wrangler non supporta le seguenti espressioni:
-
LW#
-
Abbreviazioni per i giorni
-
Abbreviazioni per i mesi
-
-
Ricorrente: per l'esecuzione del processo Imposta un intervallo orario o giornaliero.
-
Ora specifica: per l'esecuzione del processo imposta giorni e orari specifici.
Nelle sezioni seguenti vengono descritte le procedure per creare processi.
Puoi utilizzare Amazon SageMaker Studio Classic per visualizzare i processi pianificati per l'esecuzione. I tuoi processi di elaborazione vengono eseguiti all'interno di Pipelines. Ogni processo di elaborazione ha una propria pipeline. Viene eseguito come fase di elaborazione all'interno della pipeline. All'interno di una pipeline puoi visualizzare le pianificazioni che hai creato. Per informazioni sulla visualizzazione di una pipeline, consulta Visualizza i dettagli di una pipeline.
Per visualizzare i processi pianificati utilizza la procedura seguente.
Per visualizzare i processi che hai programmato, procedi come segue.
-
Apri Amazon SageMaker Studio Classic.
-
Pipeline aperte
-
Visualizza le pipeline dei lavori che hai creato.
La pipeline che esegue il processo utilizza il nome del processo come prefisso. Ad esempio, se hai creato un processo denominato
housing-data-feature-enginnering
, il nome della pipeline saràdata-wrangler-housing-data-feature-engineering
-
Selezionare la pipeline contenente il tuo processo.
-
Visualizza lo stato delle pipeline. Le pipeline con stato Riuscito hanno eseguito correttamente il processo di elaborazione.
Per interrompere l'esecuzione del processo di elaborazione, effettua le seguenti operazioni:
Per interrompere l'esecuzione di un processo di elaborazione, elimina la regola di evento che specifica la pianificazione. L'eliminazione di una regola di evento interrompe l'esecuzione di tutti i processi associati alla pianificazione. Per informazioni sull'eliminazione di una regola, consulta Disabilitazione o eliminazione di una regola Amazon. EventBridge
Puoi anche interrompere ed eliminare le pipeline associate alle pianificazioni. Per informazioni sull'arresto di una pipeline, consulta. StopPipelineExecution Per informazioni sull'eliminazione di una pipeline, vedere. DeletePipeline