HiveActivity - AWS Data Pipeline

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

HiveActivity

Esegue una query Hive su un cluster EMR. HiveActivitysemplifica la configurazione di un'attività di Amazon EMR e crea automaticamente tabelle Hive in base ai dati di input provenienti da Amazon S3 o Amazon RDS. È sufficiente specificare l'esecuzione di HiveQL sui dati di origine. AWS Data Pipeline crea automaticamente tabelle Hive con ${input1}, ${input2} e così via, in base ai campi di input dell'oggetto HiveActivity.

Per gli input di Amazon S3, il dataFormat campo viene utilizzato per creare i nomi delle colonne Hive.

Per gli input MySQL (Amazon RDS), i nomi delle colonne per la query SQL vengono utilizzati per creare i nomi delle colonne Hive.

Nota

Questa attività utilizza il CSV Serde di Hive.

Esempio

Di seguito è illustrato un esempio di questo tipo di oggetto. Questo oggetto fa riferimento a tre altri oggetti definiti nello stesso file di definizione della pipeline. MySchedule è un oggetto Schedule e MyS3Input e MyS3Output sono oggetti di nodi di dati.

{ "name" : "ProcessLogData", "id" : "MyHiveActivity", "type" : "HiveActivity", "schedule" : { "ref": "MySchedule" }, "hiveScript" : "INSERT OVERWRITE TABLE ${output1} select host,user,time,request,status,size from ${input1};", "input" : { "ref": "MyS3Input" }, "output" : { "ref": "MyS3Output" }, "runsOn" : { "ref": "MyEmrCluster" } }

Sintassi

Campi Object Invocation Description Tipo di slot
schedule Questo oggetto viene richiamato entro l'esecuzione di un intervallo di pianificazione. Specificare un riferimento alla pianificazione di un altro oggetto per impostare l'ordine di esecuzione delle dipendenze per questo oggetto. È possibile soddisfare questo requisito impostando esplicitamente una pianificazione sull'oggetto, ad esempio specificando «schedule»: {"ref»: "«}. DefaultSchedule Nella maggior parte dei casi, è meglio inserire il riferimento alla pianificazione nell'oggetto pipeline di default, in modo che tutti gli oggetti possano ereditare tale pianificazione. O, se la pipeline consiste di una struttura di pianificazioni (nidificate all'interno della pianificazione principale), è possibile creare un oggetto padre che dispone di un riferimento alla pianificazione. Per ulteriori informazioni sulle configurazioni di pianificazione opzionali di esempio, consulta https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html. Oggetto di riferimento, ad esempio «schedule»: {"ref»:» «myScheduleId}

Gruppo richiesto (uno dei seguenti è obbligatorio) Description Tipo di slot
hiveScript Lo script Hive da eseguire. Stringa
scriptUri La posizione dello script Hive da eseguire (ad esempio, s3:// scriptLocation). Stringa

Gruppo obbligatorio Description Tipo di slot
runsOn Il cluster EMR in cui viene eseguita questa HiveActivity. Oggetto di riferimento, ad esempio «runSon»: {"ref»:» myEmrCluster Id "}
workerGroup Il gruppo di lavoro. Utilizzato per le attività di routing. Se si fornisce un valore runsOn ed esiste workerGroup, workerGroup verrà ignorato. Stringa
input Origine dati di input. Oggetto di riferimento, ad esempio «input»: {"ref»:» myDataNode Id "}
output Origine dati di output. Oggetto di riferimento, ad esempio «output»: {"ref»:» myDataNode Id "}

Campi opzionali Description Tipo di slot
attemptStatus Lo stato segnalato più di recente dall'attività remota. Stringa
attemptTimeout Timeout per il completamento del lavoro in remoto. Se questo campo è impostato, un'attività remota che non viene completata entro il tempo impostato di avvio viene tentata di nuovo. Periodo
dependsOn Specifica una dipendenza su un altro oggetto eseguibile. Oggetto di riferimento, ad esempio «dependsOn»: {"ref»:» myActivityId «}
failureAndRerunModalità Descrive il comportamento del nodo consumer quando le dipendenze presentano un errore o vengono di nuovo eseguite. Enumerazione
hadoopQueue Il nome della coda del pianificatore Hadoop a cui verrà inviato il processo. Stringa
lateAfterTimeout Il tempo trascorso dopo l'inizio della pipeline entro il quale l'oggetto deve essere completato. Viene attivato solo quando il tipo di pianificazione non è impostato su. ondemand Periodo
maxActiveInstances Il numero massimo di istanze attive simultanee di un componente. Le riesecuzioni non contano ai fini del numero di istanze attive. Numero intero
maximumRetries Numero massimo di tentativi in caso di errore. Numero intero
onFail Un'azione da eseguire quando l'oggetto corrente ha esito negativo. Oggetto di riferimento, ad esempio «onFail»: {"ref»:» myActionId «}
onLateAction Azioni che devono essere attivate se un oggetto non è stato ancora pianificato o non è ancora completo. Oggetto di riferimento, ad esempio "onLateAction«: {" ref»:» myActionId «}
onSuccess Un'operazione da eseguire quando l'oggetto corrente ha esito positivo. Oggetto di riferimento, ad esempio «onSuccess»: {"ref»:» myActionId «}
parent Padre dell'oggetto corrente da cui saranno ereditati gli slot. Oggetto di riferimento, ad esempio «parent»: {"ref»:» myBaseObject Id "}
pipelineLogUri L'URI S3 (ad esempio 's3://BucketName/Key/ ') per caricare i log per la pipeline. Stringa
postActivityTaskConfig Lo script di configurazione post-attività da eseguire. Questo è composto da un URI dello script della shell in Amazon S3 e da un elenco di argomenti. Oggetto di riferimento, ad esempio "postActivityTaskConfig»: {"ref»:» myShellScript ConfigId «}
preActivityTaskConfig Lo script di configurazione pre-attività da eseguire. Questo è composto da un URI dello script della shell in Amazon S3 e da un elenco di argomenti. Oggetto di riferimento, ad esempio "preActivityTaskConfig»: {"ref»:» myShellScript ConfigId «}
precondizione Definisce eventualmente una precondizione. Un nodo dati non è contrassegnato come "READY" finché tutte le precondizioni non siano state soddisfatte. Oggetto di riferimento, ad esempio «precondition»: {"ref»:» myPreconditionId «}
reportProgressTimeout Timeout per chiamate successive di attività in remoto a reportProgress. Se impostato, le attività in remoto che non presentano avanzamenti nel periodo specificato potrebbero essere considerate bloccate e sono quindi oggetto di un altro tentativo. Periodo
resizeClusterBeforeIn esecuzione Ridimensiona il cluster prima di eseguire questa attività per adattare i nodi di dati DynamoDB specificati come input o output.
Nota

Se la tua attività utilizza una DynamoDBDataNode come nodo di dati di input o output e se imposti resizeClusterBeforeRunning su TRUE, AWS Data Pipeline viene avviata utilizzando i tipi di istanza m3.xlarge. Questo sovrascrive le tue scelte in termini di tipi di istanze con m3.xlarge, con un possibile aumento dei costi.

Booleano
resizeClusterMaxIstanze Un limite per il numero massimo di istanze che possono essere richieste dall'algoritmo di ridimensionamento. Numero intero
retryDelay La durata del timeout tra due tentativi. Periodo
scheduleType Il tipo di pianificazione consente di specificare se gli oggetti nella definizione di pipeline devono essere programmati all'inizio o alla fine dell'intervallo. Time Series Style Scheduling significa che le istanze vengono programmate al termine di ogni intervallo e Cron Style Scheduling significa che le istanze vengono programmate all'inizio di ogni intervallo. Una pianificazione on demand consente di eseguire una pipeline una sola volta, per attivazione. Questo significa che non è necessario clonare o ricreare la pipeline per eseguirla di nuovo. Se utilizzi una pianificazione on demand, devi specificarlo nell'oggetto predefinito e deve essere l'unico scheduleType specificato per gli oggetti della pipeline. Per utilizzare le pipeline su richiesta, è sufficiente chiamare l' ActivatePipeline operazione per ogni esecuzione successiva. I valori sono: cron, ondemand e timeseries. Enumerazione
scriptVariable Specifica le variabili di script per Amazon EMR da passare a Hive durante l'esecuzione di uno script. Ad esempio, le seguenti variabili di script di esempio passano le variabili SAMPLE e FILTER_DATE a Hive: SAMPLE=s3://elasticmapreduce/samples/hive-ads e FILTER_DATE=#{format(@scheduledStartTime,'YYYY-MM-dd')}%. Questo campo accetta più valori e funziona con entrambi i campi script e scriptUri. Inoltre, scriptVariable funziona indipendentemente dall'impostazione della fase di sviluppo su true o false. Il campo è particolarmente utile per inviare valori dinamici a Hive utilizzando le espressioni e le funzioni AWS Data Pipeline. Stringa
fase Stabilisce se è abilitata la gestione temporanea prima o dopo aver eseguito lo script. Non consentito con Hive 11, quindi usa un'AMI Amazon EMR versione 3.2.0 o successiva. Booleano

Campi Runtime Description Tipo di slot
@activeInstances Elenco di oggetti di istanze attive attualmente programmate. Oggetto di riferimento, ad esempio «activeInstances»: {"ref»:» Id "} myRunnableObject
@actualEndTime L'ora in cui è terminata l'esecuzione di questo oggetto. DateTime
@actualStartTime L'ora in cui è stata avviata l'esecuzione di questo oggetto. DateTime
cancellationReason CancellationReason se questo oggetto è stato annullato. Stringa
@cascadeFailedOn Descrizione della catena di dipendenza che ha generato l'errore dell'oggetto. Oggetto di riferimento, ad esempio "cascadeFailedOn«: {" ref»:» myRunnableObject Id "}
emrStepLog I log dei passaggi di Amazon EMR sono disponibili solo nei tentativi di attività EMR. Stringa
errorId ErrorId se l'oggetto non è riuscito. Stringa
errorMessage ErrorMessage se l'oggetto non è riuscito. Stringa
errorStackTrace Traccia dello stack di errore se l'oggetto non è riuscito. Stringa
@finishedTime L'ora in cui è terminata l'esecuzione di questo oggetto. DateTime
hadoopJobLog Log delle attività Hadoop disponibili per le attività basate su EMR. Stringa
@healthStatus Lo stato di integrità dell'oggetto che riflette l'esito positivo o negativo dell'ultima istanza dell'oggetto che ha raggiunto lo stato di un'istanza terminata. Stringa
@healthStatusFromInstanceId Id dell'ultimo oggetto dell'istanza che ha raggiunto lo stato terminato. Stringa
@ Ora healthStatusUpdated L'ora in cui lo stato di integrità è stato aggiornato l'ultima volta. DateTime
hostname Il nome host del client che si è aggiudicato il tentativo dell'attività. Stringa
@lastDeactivatedTime L'ora in cui l'oggetto è stato disattivato. DateTime
@ latestCompletedRun Ora L'orario dell'esecuzione più recente durante il quale l'esecuzione è stata completata. DateTime
@latestRunTime L'orario dell'esecuzione più recente durante il quale l'esecuzione è stata pianificata. DateTime
@nextRunTime L'orario dell'esecuzione da programmare come successiva. DateTime
reportProgressTime Il periodo di tempo più recente in cui l'attività remota ha segnalato un progresso. DateTime
@scheduledEndTime L'orario di termine della pianificazione per un oggetto. DateTime
@scheduledStartTime L'orario di inizio della pianificazione per un oggetto. DateTime
@status Lo stato di questo oggetto. Stringa
@version Versione della pipeline con cui l'oggetto è stato creato. Stringa
@waitingOn Descrizione dell'elenco di dipendenze per cui questo oggetto è in attesa. Oggetto di riferimento, ad esempio «waitingOn»: {"ref»:» myRunnableObject Id "}

Campi di sistema Description Tipo di slot
@error Errore che descrive il formato oggetto errato. Stringa
@pipelineId L'id della pipeline a cui appartiene questo oggetto. Stringa
@sphere La sfera di un oggetto indica la propria posizione nel ciclo di vita: i Component Objects generano Instance Objects che eseguono Attempt Objects. Stringa

Vedi anche