Riutilizzo dei flussi di dati per set di dati diversi - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Riutilizzo dei flussi di dati per set di dati diversi

Per le origini dati di Amazon Simple Storage Service (Amazon S3), puoi creare e utilizzare parametri. Un parametro è una variabile che hai salvato nel flusso di Data Wrangler. Il suo valore può essere qualsiasi parte del percorso di Amazon S3 della fonte di dati. Utilizza i parametri per modificare rapidamente i dati che stai importando in un flusso di Data Wrangler o esportando in un processo di elaborazione. Puoi anche utilizzare i parametri per selezionare e importare un sottoinsieme specifico di dati.

Dopo aver creato un flusso Data Wrangler, potresti aver addestrato un modello con i dati che hai trasformato. Per i set di dati che hanno lo stesso schema, puoi utilizzare i parametri per applicare le stesse trasformazioni su un set di dati diverso e addestrare un modello diverso. Puoi utilizzare i nuovi set di dati per eseguire inferenze con il tuo modello o potresti usarli per riaddestrare il modello.

In generale, i parametri hanno i seguenti attributi:

  • Nome: il nome che attribuisci al parametro

  • Tipo: il tipo di valore rappresentato dal parametro

  • Valore predefinito: il valore del parametro quando non specifichi un nuovo valore

Nota

I parametri Datetime hanno un attributo relativo all'intervallo di tempo che usano come valore predefinito.

Data Wrangler utilizza parentesi graffe {{}} per indicare che un parametro viene utilizzato nel percorso Amazon S3. Ad esempio, puoi avere un URL file come. s3://amzn-s3-demo-bucket1/{{example_parameter_name}}/example-dataset.csv

Crei un parametro quando modifichi l'origine dati di Amazon S3 che hai importato. Puoi impostare qualsiasi parte del percorso del file sul valore di un parametro. È possibile impostare il valore del parametro su un valore o un modello. Di seguito sono riportati i tipi di valore dei parametri disponibili nel flusso Data Wrangler:

  • Numero

  • Stringa

  • Pattern

  • Datetime

Nota

Non puoi creare un parametro modello o un parametro datetime per il nome del bucket nel percorso di Amazon S3.

È necessario impostare un numero come valore predefinito di un parametro numerico. È possibile modificare il valore del parametro in un numero diverso quando modifichi un parametro o quando avvii un processo di elaborazione. Ad esempio, nel percorso S3, s3://amzn-s3-demo-bucket/example-prefix/example-file-1.csv, puoi creare un parametro numerico denominato number_parameter al posto di 1. Il percorso S3 ora appare come s3://amzn-s3-demo-bucket/example-prefix/example-file-{{number_parameter}}.csv. Il percorso continua a puntare al set di dati di example-file-1.csv finché non modifichi il valore del parametro. Se modifichi il valore di number_parameter in 2 il percorso diventa s3://amzn-s3-demo-bucket/example-prefix/example-file-2.csv. Puoi importare example-file-2.csv in Data Wrangler se hai caricato il file in quella posizione Amazon S3.

Un parametro stringa memorizza una stringa come valore predefinito. Ad esempio, nel percorso S3, s3://amzn-s3-demo-bucket/example-prefix/example-file-1.csv, puoi creare un parametro stringa denominato string_parameter al posto del nome del file, example-file-1.csv. Il percorso ora appare come s3://amzn-s3-demo-bucket/example-prefix/{{string_parameter}}. Continua a corrispondere a s3://amzn-s3-demo-bucket/example-prefix/example-file-1.csv, finché non modifichi il valore del parametro.

Anziché specificare il nome del file come parametro stringa, puoi creare un parametro stringa utilizzando l'intero percorso Amazon S3. Nel parametro stringa puoi specificare un set di dati da qualsiasi posizione Amazon S3.

Un parametro pattern memorizza una stringa di espressione regolare (PythonREGEX) come valore predefinito. È possibile utilizzare un parametro pattern per importare più file di dati contemporaneamente. Per importare più di un oggetto alla volta, specifica un valore di parametro che corrisponda agli oggetti Amazon S3 che stai importando.

Puoi anche creare un parametro pattern per i seguenti set di dati:

  • s3://amzn-s3-demo-bucket1/example-prefix/example-file-1.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/example-file-2.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/example-file-10.csv

  • s3://amzn-s3-demo-bucket/example-prefix/example-file-0123.csv

Per s3://amzn-s3-demo-bucket1/example-prefix/example-file-1.csv, è possibile creare un parametro pattern al posto di 1 e impostare il valore predefinito del parametro su \d+. La \d+ REGEX stringa corrisponde a una o più cifre decimali. Se crei un parametro pattern denominato pattern_parameter, il percorso S3 appare come s3://amzn-s3-demo-bucket1/example-prefix/example-file-{{pattern_parameter}}.csv.

Puoi anche utilizzare i parametri del pattern per abbinare tutti CSV gli oggetti all'interno del bucket. Per abbinare tutti gli oggetti in un bucket, crea un parametro pattern con il valore predefinito di .* e imposta il percorso su s3://amzn-s3-demo-bucket/{{pattern_parameter}}.csv. Il carattere .* corrisponde a qualsiasi carattere della stringa nel percorso.

Il percorso s3://amzn-s3-demo-bucket/{{pattern_parameter}}.csv può corrispondere ai seguenti set di dati.

  • example-file-1.csv

  • other-example-file.csv

  • example-file-a.csv

Un parametro datetime memorizza il formato con le seguenti informazioni:

  • Un formato per l'analisi delle stringhe all'interno di un percorso Amazon S3.

  • Un intervallo di tempo relativo per limitare i valori datetime che corrispondono

Ad esempio, nel percorso del file Amazon S3, s3://amzn-s3-demo-bucket/2020/01/01/example-dataset.csv, 2020/01/01 rappresenta un valore datetime nel formato year/month/day. È possibile impostare l'intervallo di tempo del parametro su un intervallo come 1 years o 24 hours. Un intervallo di 1 years corrisponde a tutti i percorsi S3 con parametri datetime compresi tra l'ora corrente e l'ora esattamente un anno prima dell'ora corrente. L'ora corrente è l'ora in cui inizi a esportare le trasformazioni che hai apportato ai dati. Per ulteriori informazioni sull'esportazione dei dati, consulta Esporta. Se la data corrente è 2022/01/01 e l'intervallo di tempo è 1 years, il percorso S3 corrisponde a set di dati come i seguenti:

  • s3://amzn-s3-demo-bucket/2021/01/01/example-dataset.csv

  • s3://amzn-s3-demo-bucket/2021/06/30/example-dataset.csv

  • s3://amzn-s3-demo-bucket/2021/12/31/example-dataset.csv

I valori datetime in un intervallo di tempo relativo cambiano con il passare del tempo. I percorsi S3 che rientrano nell'intervallo di tempo relativo potrebbero anch'essi variare.

Per il percorso del file Amazon S3, s3://amzn-s3-demo-bucket1/20200101/example-dataset.csv, 20220101 è un esempio di percorso che può diventare un parametro datetime.

Per visualizzare una tabella di tutti i parametri che hai creato nel flusso Data Wrangler, scegli "{{}}" a destra della casella di testo contenente il percorso Amazon S3. Se non hai più bisogno di un parametro che hai creato, puoi modificarlo o eliminarlo. Per modificare o eliminare un parametro, scegli le icone a destra del parametro.

Importante

Prima di eliminare un parametro, assicurati di non averlo utilizzato in nessun punto del flusso Data Wrangler. I parametri eliminati che sono ancora all'interno di flussi causano errori.

Puoi creare parametri per qualsiasi fase del flusso Data Wrangler. Puoi modificare o eliminare qualsiasi parametro che hai creato. Se stai applicando trasformazioni a dati che non sono più pertinenti per il tuo caso d'uso, puoi modificare i valori dei parametri. La modifica dei valori dei parametri modifica i dati che stai importando.

Nelle sezioni seguenti vengono forniti esempi aggiuntivi e linee guida generali sull'utilizzo dei parametri. È possibile utilizzare le sezioni per comprendere i parametri più adatti alle proprie esigenze.

Nota

Le sezioni seguenti contengono procedure che utilizzano l'interfaccia Data Wrangler per sovrascrivere i parametri e creare un processo di elaborazione.

È inoltre possibile sovrascrivere i parametri utilizzando le seguenti procedure.

Per esportare il proprio flusso Data Wrangler e sovrascrivere il valore di un parametro, procedi come segue.

  1. Seleziona + accanto al nodo che desideri esportare.

  2. Seleziona Esporta in.

  3. Seleziona la posizione in cui esportare i dati.

  4. In parameter_overrides, specifica valori diversi per i parametri che hai creato.

  5. Esegui il notebook Jupyter

Puoi utilizzare i parametri per applicare le trasformazioni nel flusso di Data Wrangler a diversi file che corrispondono a uno schema nel percorso Amazon S3. URI Ciò ti aiuta a precisare i file nel bucket S3 che desideri trasformare con un alto grado di specificità. Ad esempio, potresti avere un set di dati con il percorso s3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv. Diversi set di dati denominati example-dataset.csv vengono memorizzati in molti prefissi di esempio diversi. I prefissi possono anche essere numerati in modo sequenziale. Puoi creare modelli per i numeri in Amazon S3URI. I parametri del pattern vengono utilizzati REGEX per selezionare un numero qualsiasi di file che corrispondono al modello dell'espressione. Di seguito sono riportati REGEX i modelli che potrebbero essere utili:

  • .*: corrisponde a zero o più caratteri qualsiasi, ad eccezione dei caratteri di nuova riga

  • .+: corrisponde a uno o più caratteri qualsiasi, ad eccezione dei caratteri di nuova riga

  • \d+: corrisponde a una o più cifre decimali qualsiasi

  • \w+: corrisponde a uno o più caratteri alfanumerici qualsiasi

  • [abc-_]{2,4}: corrisponde a una stringa di due, tre o quattro caratteri composta dal set di caratteri fornito tra parentesi

  • abc|def: corrisponde a una stringa o a un'altra. Ad esempio, l'operazione corrisponde a abc o def

È possibile sostituire ciascun numero nei percorsi seguenti con un singolo parametro avente un valore pari a \d+.

  • s3://amzn-s3-demo-bucket1/example-prefix-3/example-prefix-4/example-prefix-5/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix-8/example-prefix-12/example-prefix-13/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix-4/example-prefix-9/example-prefix-137/example-dataset.csv

La procedura seguente crea un parametro pattern per un set di dati con il percorso s3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv.

Per creare un parametro pattern, esegui le operazioni descritte di seguito.

  1. Accanto al set di dati che hai importato, seleziona Modifica set di dati.

  2. Evidenzia lo 0 in example-prefix-0.

  3. Specifica i valori per i seguenti campi:

    • Nome: un nome per il parametro

    • Tipo: pattern

    • Valore: \d+ un'espressione regolare che corrisponde a una o più cifre

  4. Scegli Create (Crea) .

  5. Sostituisci il URI percorso 1 and the 2 in S3 con il parametro. Il percorso dovrebbe essere nel formato seguente: s3://amzn-s3-demo-bucket1/example-prefix-{{example_parameter_name}}/example-prefix-{{example_parameter_name}}/example-prefix-{{example_parameter_name}}/example-dataset.csv

Di seguito è riportata una procedura generale per la creazione di un parametro pattern.

  1. Vai al flusso Data Wrangler.

  2. Accanto al set di dati che hai importato, seleziona Modifica set di dati.

  3. Evidenzia la parte di URI che stai usando come valore del parametro pattern.

  4. Seleziona Crea parametro personalizzato.

  5. Specifica i valori per i seguenti campi:

    • Nome: un nome per il parametro

    • Tipo: pattern

    • Valore: un'espressione regolare contenente il modello che desideri memorizzare.

  6. Scegli Create (Crea) .

Puoi utilizzare i parametri per applicare le trasformazioni nel flusso Data Wrangler a diversi file che hanno percorsi simili. Ad esempio, potresti avere un set di dati con il percorso s3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv.

Potresti avere le trasformazioni del flusso Data Wrangler che hai applicato ai set di dati in example-prefix-1. Potresti voler applicare le stesse trasformazioni a example-dataset.csv che rientra in example-prefix-10 o example-prefix-20.

È possibile creare un parametro che memorizza il valore 1. Se si desidera applicare le trasformazioni a diversi set di dati, è possibile creare processi di elaborazione che sostituiscono il valore del parametro con un valore diverso. Il parametro funge da segnaposto che puoi modificare quando desideri applicare le trasformazioni dal flusso Data Wrangler a nuovi dati. È possibile sovrascrivere il valore del parametro quando crei un processo di elaborazione di Data Wrangler per applicare le trasformazioni nel flusso Data Wrangler a diversi set di dati.

Per creare parametri numerici per s3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv, utilizza la procedura seguente.

Per creare parametri per il URI percorso S3 precedente, procedi come segue.

  1. Vai al flusso Data Wrangler.

  2. Accanto al set di dati che hai importato, seleziona Modifica set di dati.

  3. Evidenzia il numero in un prefisso d'esempio di example-prefix-number.

  4. Seleziona Crea parametro personalizzato.

  5. Per Nome, specificare un nome per il parametro.

  6. Per Tipo, selezionare Numero intero.

  7. Per Valore, specificare il numero.

  8. Crea i parametri per i numeri rimanenti ripetendo la procedura.

Dopo aver creato i parametri, è necessario applicare le trasformazioni al proprio set di dati e creare per loro un nodo di destinazione. Per ulteriori informazioni sui nodi di destinazione, consulta Esporta.

Segui la procedura seguente per applicare le trasformazioni del flusso Data Wrangler a un intervallo di tempo diverso. Si presuppone che tu abbia creato un nodo di destinazione per le trasformazioni nel flusso.

Per modificare il valore di un parametro numerico in un processo di elaborazione di Data Wrangler, procedi come segue.

  1. Dal flusso Data Wrangler, seleziona Crea processo

  2. Seleziona solo il nodo di destinazione che contiene le trasformazioni del set di dati contenente i parametri datetime.

  3. Seleziona Configura processo.

  4. Scegli Aggiungi parametro.

  5. Scegli il nome di un parametro precedentemente creato.

  6. Modifica il valore del parametro.

  7. Ripeti la procedura per gli altri parametri.

  8. Seleziona Esegui.

Puoi utilizzare i parametri per applicare le trasformazioni nel flusso Data Wrangler a diversi file che hanno percorsi simili. Ad esempio, potresti avere un set di dati con il percorso s3://amzn-s3-demo-bucket1/example-prefix/example-dataset.csv.

Potresti avere trasformazioni del flusso Data Wrangler che hai applicato ai set di dati in example-prefix. Potresti voler applicare le stesse trasformazioni a example-dataset.csv in another-example-prefix o example-prefix-20.

È possibile creare un parametro che memorizza il valore example-prefix. Se si desidera applicare le trasformazioni a diversi set di dati, è possibile creare processi di elaborazione che sostituiscono il valore del parametro con un valore diverso. Il parametro funge da segnaposto che puoi modificare quando desideri applicare le trasformazioni dal flusso Data Wrangler a nuovi dati. È possibile sovrascrivere il valore del parametro quando crei un processo di elaborazione di Data Wrangler per applicare le trasformazioni nel flusso Data Wrangler a diversi set di dati.

Utilizza la procedura seguente per creare un parametro stringa per s3://amzn-s3-demo-bucket1/example-prefix/example-dataset.csv.

Per creare un parametro per il URI percorso S3 precedente, procedi come segue.

  1. Vai al flusso Data Wrangler.

  2. Accanto al set di dati che hai importato, seleziona Modifica set di dati.

  3. Evidenzia il prefisso di esempio, example-prefix.

  4. Seleziona Crea parametro personalizzato.

  5. Per Nome, specificare un nome per il parametro.

  6. Per Type (Tipo), scegliere String.

  7. Per Valore, specifica il prefisso.

Dopo aver creato il parametro, è necessario applicare le trasformazioni al proprio set di dati e creare per loro un nodo di destinazione. Per ulteriori informazioni sui nodi di destinazione, consulta Esporta.

Segui la procedura seguente per applicare le trasformazioni del flusso Data Wrangler a un intervallo di tempo diverso. Si presuppone che tu abbia creato un nodo di destinazione per le trasformazioni nel flusso.

Per modificare il valore di un parametro numerico in un processo di elaborazione di Data Wrangler, procedi come segue:

  1. Dal flusso Data Wrangler, seleziona Crea processo

  2. Seleziona solo il nodo di destinazione che contiene le trasformazioni del set di dati contenente i parametri datetime.

  3. Seleziona Configura processo.

  4. Scegli Aggiungi parametro.

  5. Scegli il nome di un parametro precedentemente creato.

  6. Modifica il valore del parametro.

  7. Ripeti la procedura per gli altri parametri.

  8. Seleziona Esegui.

Utilizza i parametri datetime per applicare le trasformazioni nel flusso Data Wrangler a diversi intervalli temporali. Evidenzia la parte di Amazon S3 URI che ha un timestamp e crea un parametro per essa. Quando crei un parametro, specifica un intervallo temporale dall'ora corrente a un'ora passata. Per esempio, potresti avere un Amazon S3 URI simile al seguente:. s3://amzn-s3-demo-bucket1/example-prefix/2022/05/15/example-dataset.csv Puoi salvare 2022/05/15 come parametro datetime. Se specifichi un anno come intervallo temporale, tale intervallo include il momento in cui esegui il processo di elaborazione contenente il parametro datetime e l'ora esatta un anno prima. Se il momento in cui esegui il processo di elaborazione è il 6 settembre 2022 oppure 2022/09/06, gli intervalli temporali possono includere quanto segue:

  • s3://amzn-s3-demo-bucket1/example-prefix/2022/03/15/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/2022/01/08/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/2022/07/31/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/2021/09/07/example-dataset.csv

Le trasformazioni nel flusso Data Wrangler si applicano a tutti i prefissi precedenti. La modifica del valore del parametro nel processo di elaborazione non modifica il valore del parametro nel flusso Data Wrangler. Per applicare le trasformazioni ai set di dati in un intervallo temporale diverso, procedi come segue:

  1. Crea un nodo di destinazione contenente tutte le trasformazioni che desideri utilizzare.

  2. Crea un processo di Data Wrangler.

  3. Configura il processo per utilizzare un intervallo temporale diverso per il parametro. La modifica del valore del parametro nel processo di elaborazione non modifica il valore del parametro nel flusso Data Wrangler.

Per ulteriori informazioni sui nodi di destinazione e i processi Data Wrangler, consulta Esporta.

La seguente procedura crea un parametro datetime per il percorso Amazon S3: s3://amzn-s3-demo-bucket1/example-prefix/2022/05/15/example-dataset.csv.

Per creare un parametro datetime per il URI percorso S3 precedente, procedi come segue.

  1. Vai al flusso Data Wrangler.

  2. Accanto al set di dati che hai importato, seleziona Modifica set di dati.

  3. Evidenzia la parte di URI che stai utilizzando come valore del parametro datetime.

  4. Seleziona Crea parametro personalizzato.

  5. Per Nome, specificare un nome per il parametro.

  6. Per Tipo, seleziona Datetime.

    Nota

    Per impostazione predefinita, Data Wrangler seleziona Predefinito, che fornisce un menu a discesa per selezionare un formato di data. Tuttavia, il formato del timestamp che stai utilizzando potrebbe non essere disponibile. Invece di utilizzare Predefinito come opzione predefinita, puoi selezionare Personalizzato e specificare manualmente il formato del timestamp.

  7. Per Formato data, apri il menu a discesa selezionando Predefinito e aaaa/MM/gg. Il formato, aaaa/MM/gg, corrisponde all'anno/mese/giorno del timestamp.

  8. In Fuso orario, scegli un fuso orario.

    Nota

    I dati che stai analizzando potrebbero avere timestamp presi in un fuso orario diverso dal tuo fuso orario. Assicurati che il fuso orario selezionato corrisponda al fuso orario dei dati.

  9. Per Intervallo temporale, specifica l'intervallo temporale per il parametro.

  10. (Facoltativo) Inserisci una descrizione per descrivere come stai utilizzando il parametro.

  11. Scegli Create (Crea) .

Dopo aver creato i parametri datetime, è necessario applicare le trasformazioni al proprio set di dati e creare per loro un nodo di destinazione. Per ulteriori informazioni sui nodi di destinazione, consulta Esporta.

Segui la procedura seguente per applicare le trasformazioni del flusso Data Wrangler a un intervallo di tempo diverso. Si presuppone che tu abbia creato un nodo di destinazione per le trasformazioni nel flusso.

Per modificare il valore di un parametro datetime in un processo di elaborazione Data Wrangler, procedi come segue:

  1. Dal flusso Data Wrangler, seleziona Crea processo

  2. Seleziona solo il nodo di destinazione che contiene le trasformazioni del set di dati contenente i parametri datetime.

  3. Seleziona Configura processo.

  4. Scegli Aggiungi parametro.

  5. Scegli il nome del parametro datetime precedentemente creato.

  6. Per Intervallo temporale, modifica l'intervallo temporale per i set di dati.

  7. Seleziona Esegui.