Sintassi del file di definizione della pipeline - AWS Data Pipeline

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Sintassi del file di definizione della pipeline

Le istruzioni contenute in questa sezione sono per lavorare manualmente con i file di definizione della pipeline utilizzando l'interfaccia a riga di comando (CLI) di AWS Data Pipeline. Si tratta di un'alternativa per la progettazione interattiva di una pipeline tramite la console AWS Data Pipeline.

È possibile creare manualmente file di definizione della pipeline tramite qualsiasi editor di testo che supporta il salvataggio dei file utilizzando il formato di file UTF-8 e inviare i file utilizzando l'interfaccia a riga di comando di AWS Data Pipeline.

AWS Data Pipeline supporta anche una serie di espressioni complesse e funzioni all'interno di definizioni della pipeline. Per ulteriori informazioni, consulta Funzioni ed espressioni della pipeline.

Struttura dei file

Il primo passo nella creazione della pipeline consiste nel comporre oggetti di definizione della pipeline in un file di definizione della pipeline. L'esempio seguente illustra la struttura generale di un file di definizione della pipeline. Questo file definisce due oggetti, che sono delimitati da "{ and }" e separati da una virgola.

Nell'esempio seguente il primo oggetto definisce due coppie nome-valore, note come campi. Il secondo oggetto definisce tre campi.

{ "objects" : [ { "name1" : "value1", "name2" : "value2" }, { "name1" : "value3", "name3" : "value4", "name4" : "value5" } ] }

Quando si crea un file di definizione della pipeline, è necessario selezionare i tipi di oggetti della pipeline di cui hai bisogno, aggiungerli al file di definizione della pipeline, quindi aggiungere i campi appropriati. Per ulteriori informazioni sugli oggetti della pipeline, consulta Riferimento all'oggetto pipeline.

Ad esempio, è possibile creare un oggetto di definizione della pipeline per un nodo di dati di input e un altro per il nodo di dati di output. Quindi crea un altro oggetto di definizione della pipeline per un'attività, ad esempio l'elaborazione dei dati di input utilizzando Amazon EMR.

Campi della pipeline

Dopo aver capito quali tipi di oggetti includere nel file di definizione della pipeline, aggiungere campi alla definizione di ogni oggetto della pipeline. I nomi dei campi vengono inclusi tra virgolette e separati dai valori di campo da uno spazio, una virgola e uno spazio, come mostrato nel seguente esempio.

"name" : "value"

Il valore del campo può essere una stringa di testo, un riferimento a un altro oggetto, una chiamata di funzione, un'espressione o un elenco ordinato di uno qualsiasi dei tipi precedenti. Per ulteriori informazioni sui tipi di dati che possono essere utilizzati per i valori dei campi, vedi Tipi di dati di esempio . Per ulteriori informazioni sulle funzioni da utilizzare per valutare i valori dei campi, consulta Valutazione delle espressioni.

I campi sono limitati a 2048 caratteri. Gli oggetti possono avere una dimensione pari a 20 KB, il che significa che non è possibile aggiungere molti campi di grandi dimensioni a un oggetto.

Ogni oggetto della pipeline deve contenere i campi riportati di seguito: id e type, come mostrato nel seguente esempio. Altri campi potrebbero essere richiesti in base al tipo di oggetto. Selezionare un valore id significativo per l'utente e univoco all'interno della definizione di pipeline. Il valore per type specifica il tipo dell'oggetto. Specificare uno dei tipi di oggetto di definizione della pipeline supportati tra quelli elencati nell'argomento Riferimento all'oggetto pipeline.

{ "id": "MyCopyToS3", "type": "CopyActivity" }

Per ulteriori informazioni sui campi obbligatori e facoltativi per ogni oggetto, consulta la documentazione per l'oggetto.

Per includere campi da un oggetto in un altro oggetto, utilizzare il campo parent con un riferimento all'oggetto. Ad esempio, l'oggetto "B" include i propri campi, "B1" e "B2", più i campi dell'oggetto "A", "A1" e "A2".

{ "id" : "A", "A1" : "value", "A2" : "value" }, { "id" : "B", "parent" : {"ref" : "A"}, "B1" : "value", "B2" : "value" }

È possibile definire campi comuni in un oggetto con l'ID "Default". Questi campi vengono automaticamente inclusi in ogni oggetto nel file di definizione della pipeline che non imposta esplicitamente il campo parent di riferimento a un altro oggetto.

{ "id" : "Default", "onFail" : {"ref" : "FailureNotification"}, "maximumRetries" : "3", "workerGroup" : "myWorkerGroup" }

Campi definiti dall'utente

È possibile creare campi personalizzati o definiti dall'utente nei componenti della pipeline e fare riferimento a essi con le espressioni. L'esempio seguente mostra un campo personalizzato denominato myCustomField e my_customFieldReference aggiunto a un DataNode oggetto S3:

{ "id": "S3DataInput", "type": "S3DataNode", "schedule": {"ref": "TheSchedule"}, "filePath": "s3://bucket_name", "myCustomField": "This is a custom value in a custom field.", "my_customFieldReference": {"ref":"AnotherPipelineComponent"} },

Un campo definito dall'utente deve avere un nome con prefisso con la parola "my" in tutte lettere minuscole, seguito da una lettera maiuscola o con il carattere di sottolineatura. Inoltre, un campo definito dall'utente può essere un valore di stringa, come l'esempio precedente myCustomField o un riferimento a un altro componente della pipeline, come l'esempio precedente my_customFieldReference.

Nota

Nei campi definiti dall'utente, AWS Data Pipeline controlla solo i riferimenti validi ad altri componenti della pipeline e non i valori di stringhe di campi personalizzati aggiunti dall'utente.