AWS Data Pipeline n'est plus disponible pour les nouveaux clients. Les clients existants de AWS Data Pipeline peut continuer à utiliser le service normalement. En savoir plus
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
HiveActivity
Exécute une requête Hive sur un EMR cluster. HiveActivity
facilite la configuration d'une EMR activité Amazon et crée automatiquement des tables Hive en fonction des données d'entrée provenant d'Amazon S3 ou d'AmazonRDS. Il suffit de spécifier le HiveQL à exécuter sur les données source. AWS Data Pipeline crée automatiquement des tables Hive avec ${input1}
${input2}
,, etc., en fonction des champs de saisie de l'HiveActivity
objet.
Pour les entrées Amazon S3, le dataFormat
champ est utilisé pour créer les noms des colonnes Hive.
Pour les entrées My SQL (AmazonRDS), les noms de colonne de la SQL requête sont utilisés pour créer les noms de colonnes Hive.
Note
Cette activité utilise le Hive CSVSerde
Exemple
Voici un exemple de ce type d'objet. Cet objet référence trois autres objets que vous définissez dans le même fichier de définition du pipeline. MySchedule
est un objet Schedule
. MyS3Input
et MyS3Output
sont des objets de nœud de données.
{ "name" : "ProcessLogData", "id" : "MyHiveActivity", "type" : "HiveActivity", "schedule" : { "ref": "MySchedule" }, "hiveScript" : "INSERT OVERWRITE TABLE ${output1} select host,user,time,request,status,size from ${input1};", "input" : { "ref": "MyS3Input" }, "output" : { "ref": "MyS3Output" }, "runsOn" : { "ref": "MyEmrCluster" } }
Syntaxe
Champs d'invocation de l'objet | Description | Type d'option |
---|---|---|
schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Spécifiez une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Vous pouvez satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : {"ref » : "DefaultSchedule«}. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), vous pouvez créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html. | Objet de référence, par exemple « schedule » : {"ref » : » myScheduleId «} |
Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option |
---|---|---|
hiveScript | Script Hive à exécuter. | Chaîne |
scriptUri | Emplacement du script Hive à exécuter (par exemple, s3 ://scriptLocation). | Chaîne |
Groupe obligatoire | Description | Type d'option |
---|---|---|
runsOn | Le EMR cluster sur lequel cela HiveActivity s'exécute. |
Objet de référence, par exemple "runsOn« : {" ref » : » myEmrCluster Id "} |
workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. |
Chaîne |
input | Source de données d'entrée. | Objet de référence, tel que « input » : {"ref » : » myDataNode Id "} |
output | Source de données de sortie. | Objet de référence, tel que « output » : {"ref » : » myDataNode Id "} |
Champs facultatifs | Description | Type d'option |
---|---|---|
attemptStatus | État de l'activité à distance le plus récemment rapporté. | Chaîne |
attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Période |
dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, tel que "dependsOn« : {" ref » : » myActivityId «} |
failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération |
hadoopQueue | Nom de la file d'attente du programmeur Hadoop dans laquelle la tâche sera envoyée. | Chaîne |
lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand . |
Période |
maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier |
maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier |
onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, tel que "onFail« : {" ref » : » myActionId «} |
onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, tel que "onLateAction« : {" ref » : » myActionId «} |
onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, tel que "onSuccess« : {" ref » : » myActionId «} |
parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, tel que « parent » : {"ref » : » myBaseObject Id "} |
pipelineLogUri | Le S3 URI (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | Chaîne |
postActivityTaskConfig | Script de configuration de post-activité à exécuter. Il s'agit URI d'un script shell d'Amazon S3 et d'une liste d'arguments. | Objet de référence, tel que "postActivityTaskConfig » : {"ref » : » myShellScript ConfigId «} |
preActivityTaskConfig | Script de configuration de pré-activité à exécuter. Il s'agit URI d'un script shell d'Amazon S3 et d'une liste d'arguments. | Objet de référence, tel que "preActivityTaskConfig » : {"ref » : » myShellScript ConfigId «} |
precondition | Définit une condition préalable facultative. Un nœud de données n'est marqué « READY » que lorsque toutes les conditions préalables sont remplies. | Objet de référence, tel que « précondition » : {"ref » : » myPreconditionId «} |
reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress . Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. |
Période |
resizeClusterBeforeCourir | Redimensionnez le cluster avant d'effectuer cette activité pour prendre en charge les nœuds de données DynamoDB spécifiés en entrée ou en sortie. NoteSi votre activité utilise un |
Booléen |
resizeClusterMaxInstances | Limite du nombre maximal d'instances qui peuvent être demandées par l'algorithme de redimensionnement. | Entier |
retryDelay | Délai entre deux nouvelles tentatives. | Période |
scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et doit être la seule scheduleType spécifiée pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération |
scriptVariable | Spécifie les variables de script EMR qu'Amazon doit transmettre à Hive lors de l'exécution d'un script. Par exemple, les exemples de variables de script suivants transmettraient une DATE variable SAMPLE et FILTER _ à Hive : SAMPLE=s3://elasticmapreduce/samples/hive-ads et
FILTER_DATE=#{format(@scheduledStartTime,'YYYY-MM-dd')}% . Ce champ accepte plusieurs valeurs et fonctionne avec les champs script et scriptUri . En outre, scriptVariable fonctionne que l'étape soit définie sur true ou false . Ce champ est particulièrement utile pour envoyer des valeurs dynamiques à Hive en utilisant des expressions et des fonctions
AWS Data Pipeline . |
Chaîne |
stage | Détermine si le transit est activé avant ou après l'exécution du script. Non autorisé avec Hive 11, utilisez donc une EMR AMI version Amazon 3.2.0 ou supérieure. | Booléen |
Champs liés à l'exécution | Description | Type d'option |
---|---|---|
@activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, tel que "activeInstances« : {" ref » : » myRunnableObject Id "} |
@actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime |
@actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime |
cancellationReason | cancellationReason Si cet objet a été annulé. | Chaîne |
@cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, tel que "cascadeFailedOn« : {" ref » : » myRunnableObject Id "} |
emrStepLog | Les journaux d'EMRétapes Amazon ne sont disponibles que pour les tentatives EMR d'activité. | Chaîne |
errorId | Le errorId si cet objet a échoué. | Chaîne |
errorMessage | Le errorMessage si cet objet a échoué. | Chaîne |
errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | Chaîne |
@finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime |
hadoopJobLog | Des journaux de tâches Hadoop sont disponibles sur les tentatives d'activités EMR basées. | Chaîne |
@healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | Chaîne |
@healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | Chaîne |
@ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime |
hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | Chaîne |
@lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime |
@ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime |
@latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime |
@nextRunTime | Prochaine heure d'exécution planifiée. | DateTime |
reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime |
@scheduledEndTime | Heure de fin planifiée pour un objet. | DateTime |
@scheduledStartTime | Heure de début planifiée pour un objet. | DateTime |
@État | État de l'objet. | Chaîne |
@Version | Version du pipeline avec laquelle l'objet été créé. | Chaîne |
@waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, tel que "waitingOn« : {" ref » : » myRunnableObject Id "} |
Champs système | Description | Type d'option |
---|---|---|
@error | Erreur décrivant l'objet mal formé. | Chaîne |
@pipelineId | ID du pipeline auquel l'objet appartient. | Chaîne |
@sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | Chaîne |