SqlActivity - AWS Data Pipeline

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SqlActivity

Exécute une requête SQL (script) sur une base de données.

Exemple

Voici un exemple de ce type d'objet.

{ "id" : "MySqlActivity", "type" : "SqlActivity", "database" : { "ref": "MyDatabaseID" }, "script" : "SQLQuery" | "scriptUri" : s3://scriptBucket/query.sql, "schedule" : { "ref": "MyScheduleID" }, }

Syntaxe

Champs obligatoires Description Type d'option
database Base de données sur laquelle exécuter le script SQL fourni. Objet de référence, par exemple « base de données » : {"ref » : » myDatabaseId «}

Champs d'invocation de l'objet Description Type d'option
schedule

Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Vous devez spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Vous pouvez définir explicitement une planification sur l'objet, par exemple, en spécifiant "schedule": {"ref": "DefaultSchedule"}.

Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification.

Si le pipeline dispose d'une arborescence de planifications imbriquées dans la planification maître, créez un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html.

Objet de référence, par exemple « schedule » : {"ref » : » myScheduleId «}

Groupe obligatoire (l'un des groupes suivants est obligatoire) Description Type d'option
script Script SQL à exécuter. Vous devez spécifier script ou scriptUri. Lorsque le script est stocké dans Amazon S3, le script n'est pas évalué en tant qu'expression. Spécifier plusieurs valeurs pour scriptArgument est utile lorsque le script est stocké dans Amazon S3. Chaîne
scriptUri URI spécifiant l'emplacement d'un script SQL à exécuter dans l'activité. Chaîne

Groupe obligatoire (l'un des groupes suivants est obligatoire) Description Type d'option
runsOn Ressource de calcul pour exécuter l'activité ou la commande. Par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. Objet de référence, par exemple « RunSon » : {"ref » : » myResourceId «}
workerGroup Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. Chaîne

Champs facultatifs Description Type d'option
attemptStatus État de l'activité à distance le plus récemment rapporté. Chaîne
attemptTimeout Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. Période
dependsOn Spécifie une dépendance sur un autre objet exécutable. Objet de référence, par exemple « DependsOn » : {"ref » : » myActivityId «}
failureAndRerunMode Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. Énumération
input Emplacement des données d'entrée. Objet de référence, par exemple « input » : {"ref » : » myDataNode Id "}
lateAfterTimeout Période depuis le début planifié du pipeline au sein de laquelle l'objet exécuté doit démarrer. Période
maxActiveInstances Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. Entier
maximumRetries Nombre maximal de nouvelles tentatives en cas d'échec Entier
onFail Action à exécuter en cas d'échec de l'objet actuel. Objet de référence, par exemple « onFail » : {"ref » : » myActionId «}
onLateAction Actions qui doivent être déclenchées si un objet n'a pas encore été planifié ou n'est toujours pas terminé au cours de la période écoulée depuis le début prévu du pipeline, comme spécifié par « lateAfterTimeout ». Objet de référence, par exemple "onLateAction« : {" ref » : » myActionId «}
onSuccess Action à exécuter en cas de réussite de l'objet actuel. Objet de référence, par exemple « onSuccess » : {"ref » : » myActionId «}
output Emplacement des données de sortie. Cela n'est utile que pour le référencement depuis un script (par exemple#{output.tablename}) et pour créer la table de sortie en définissant « createTableSql » dans le nœud de données de sortie. La sortie de la requête SQL n'est pas écrite dans le nœud des données de sortie. Objet de référence, par exemple « output » : {"ref » : » myDataNode Id "}
parent Parent de l'objet actuel à partir duquel les emplacements sont hérités. Objet de référence, par exemple « parent » : {"ref » : » myBaseObject Id "}
pipelineLogUri L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. Chaîne
precondition Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. Objet de référence, par exemple « précondition » : {"ref » : » myPreconditionId «}
file d’attente [Amazon Redshift uniquement] Correspond au paramètre query_group d'Amazon Redshift, qui vous permet d'attribuer et de hiérarchiser les activités simultanées en fonction de leur placement dans les files d'attente. Amazon Redshift limite le nombre de connexions simultanées à 15. Pour plus d'informations, consultez Attribution de requêtes aux files d'attente dans le manuel Amazon Redshift Developer Guide. Chaîne
reportProgressTimeout Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. Période
retryDelay Délai entre deux nouvelles tentatives. Période
scheduleType

Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques).

Une planification timeseries signifie que les instances sont programmées à la fin de chaque intervalle.

Une planification cron signifie que les instances sont programmées au début de chaque intervalle.

Une planification ondemand vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification ondemand, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType spécifié pour les objets du pipeline. Pour utiliser des pipelines ondemand, vous devez appeler l'opération ActivatePipeline pour chaque exécution suivante.

Énumération
scriptArgument Liste de variables pour le script. Vous pouvez également placer directement des expressions dans le champ script. Spécifier plusieurs valeurs pour scriptArgument est utile lorsque le script est stocké dans Amazon S3. Exemple : # {format (@scheduledStartTime, « YY-MM-DD HH:MM:SS"}\n# {format (PlusPeriod (@, « 1 jour »)scheduledStartTime, « YY-MM-DD HH:MM:SS"} Chaîne

Champs liés à l'exécution Description Type d'option
@activeInstances Liste des objets d'instances actives actuellement planifiés. Objet de référence, par exemple « ActiveInstances » : {"ref » : » myRunnableObject Id "}
@actualEndTime Heure à laquelle l'exécution de l'objet s'est terminée. DateTime
@actualStartTime Heure à laquelle l'exécution de l'objet a démarré. DateTime
cancellationReason Motif de l'annulation si l'objet a été annulé. Chaîne
@cascadeFailedOn Description de la chaîne de dépendances sur laquelle l'objet a échoué. Objet de référence, par exemple "cascadeFailedOn« : {" ref » : » myRunnableObject Id "}
emrStepLog Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR Chaîne
errorId ID de l'erreur si l'objet a échoué. Chaîne
errorMessage errorMessage si l'objet a échoué. Chaîne
errorStackTrace Suivi de la pile d'erreurs si l'objet a échoué. Chaîne
@finishedTime Heure à laquelle l'objet a terminé son exécution. DateTime
hadoopJobLog Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. Chaîne
@healthStatus État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. Chaîne
@healthStatusFromInstanceId ID du dernier objet d'instance qui atteint un état résilié. Chaîne
@ healthStatusUpdated Heure Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. DateTime
hostname Nom d'hôte du client qui a sélectionné la tentative de tâche. Chaîne
@lastDeactivatedTime Heure à laquelle l'objet a été désactivé pour la dernière fois. DateTime
@ latestCompletedRun Heure Heure de la dernière exécution pour laquelle l'exécution s'est terminée. DateTime
@latestRunTime Heure de la dernière exécution pour laquelle l'exécution a été planifiée. DateTime
@nextRunTime Prochaine heure d'exécution planifiée. DateTime
reportProgressTime Heure la plus récente pour laquelle l'activité distante a signalé une progression. DateTime
@scheduledEndTime Heure de fin planifiée pour l'objet. DateTime
@scheduledStartTime Heure de début planifiée pour l'objet. DateTime
@État État de l'objet. Chaîne
@Version Version du pipeline avec laquelle l'objet été créé. Chaîne
@waitingOn Description de la liste des dépendances sur laquelle l'objet est en attente. Objet de référence, par exemple « WaitingOn » : {"ref » : » myRunnableObject Id "}

Champs système Description Type d'option
@error Erreur décrivant l'objet mal formé. Chaîne
@pipelineId Id du pipeline auquel l'objet appartient. Chaîne
@sphere La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». Chaîne