S3DataNode - AWS Data Pipeline

S3DataNode

使用 Amazon S3 定义数据节点。默认情况下,S3DataNode 使用服务器端加密。如果您想禁止此功能,可将 s3EncryptionType 设置为 NONE。

注意

在使用 S3DataNode 作为 CopyActivity 的输入时,仅 CSV 和 TSV 数据格式受支持。

示例

以下是该对象类型的示例。该对象引用您在同一管道定义文件中定义的另一个对象。CopyPeriodSchedule 对象。

{ "id" : "OutputData", "type" : "S3DataNode", "schedule" : { "ref" : "CopyPeriod" }, "filePath" : "s3://myBucket/#{@scheduledStartTime}.csv" }

语法

对象调用字段 描述 槽类型
计划 该对象在计划间隔的执行中调用。用户必须指定对另一个对象的计划引用,以便设置该对象的依赖项执行顺序。用户可在对象上明确设置计划来满足此要求,例如,指定 "schedule": {"ref": "DefaultSchedule"}。在大多数情况下,最好将计划引用放在默认管道对象上,以便所有对象继承该计划。或者,如果管道有一个计划树 (计划位于主计划中),用户可以创建具有计划引用的父对象。有关示例可选计划配置的更多信息,请参阅 https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html 引用对象,例如,"schedule":{"ref":"myScheduleId"}

可选字段 描述 槽类型
attemptStatus 来自远程活动的最近报告的状态。 String
attemptTimeout 远程工作完成的超时时间。如果设置此字段,则可能会重试未在设定的开始时间内完成的远程活动。 周期
compression S3DataNode 所描述数据的压缩类型。“none”表示未压缩,“gzip”是使用 gzip 算法压缩。此字段仅支持用于 Amazon Redshift 并将 S3DataNode 与 CopyActivity 配合使用时。 枚举
dataFormat 此 S3DataNode 所描述数据的 DataFormat。 引用对象,例如,"dataFormat":{"ref":"myDataFormatId"}
dependsOn 指定与另一个可运行对象的依赖关系 引用对象,例如,"dependsOn":{"ref":"myActivityId"}
directoryPath 将 Amazon S3 目录路径作为 URI:s3://my-bucket/my-key-for-directory。您必须提供 filePath 或 directoryPath 值。 String
failureAndRerunMode 描述依赖项失败或重新运行时的使用者节点行为。 枚举
filePath 将 Amazon S3 中对象的路径作为 URI,例如:s3://my-bucket/my-key-for-file。您必须提供 filePath 或 directoryPath 值。它们表示一个文件夹和文件名。使用 directoryPath 值适应目录中的多个文件。 String
lateAfterTimeout 管道启动后经过的时间,在此时间内,对象必须完成。仅当计划类型未设置为 ondemand 时才会触发。 周期
manifestFilePath 使用 Amazon Redshift 支持格式的清单文件的 Amazon S3 路径。AWS Data Pipeline 使用该清单文件将指定的 Amazon S3 文件复制到表中。此字段仅在 RedShiftCopyActivity 引用 S3DataNode 时有效。 String
maxActiveInstances 组件的并发活动实例的最大数量。重新运行不计入活动实例数中。 整数
maximumRetries 失败后的最大重试次数 整数
onFail 当前对象失败时要运行的操作。 引用对象,例如,"onFail":{"ref":"myActionId"}
onLateAction 在尚未计划对象或对象仍未完成的情况下将触发的操作。 引用对象,例如,"onLateAction":{"ref":"myActionId"}
onSuccess 当前对象成功时要运行的操作。 引用对象,例如,"onSuccess":{"ref":"myActionId"}
parent 槽将继承自的当前对象的父级。 引用对象,例如,"parent":{"ref":"myBaseObjectId"}
pipelineLogUri 用于上传管道日志的 S3 URI (例如“s3://BucketName/Key/”)。 String
precondition (可选) 定义先决条件。在满足所有先决条件之前,数据节点不会标记为“READY”。 引用对象,例如,"precondition":{"ref":"myPreconditionId"}
reportProgressTimeout 远程工作对 reportProgress 的连续调用的超时时间。如果设置此字段,则未报告指定时段的进度的远程活动可能会被视为停滞且已重试。 周期
retryDelay 两次重试之间的超时时间。 周期
runsOn 运行活动或命令的计算资源。例如,Amazon EC2 实例或 Amazon EMR 集群。 引用对象,例如,"runsOn":{"ref":"myResourceId"}
s3EncryptionType 覆盖 Amazon S3 加密类型。值为 SERVER_SIDE_ENCRYPTION 或 NONE。默认情况下启用服务器端加密。 枚举
scheduleType 计划类型允许您指定应在间隔的结尾还是开头计划您管道定义中的对象。时间序列风格计划表示在每次间隔的结尾计划实例,而 Cron 风格计划表示应在每次间隔的开头计划实例。按需计划让您可以在每次激活时运行一次管道。这意味着,您不需要克隆或重新创建管道以再次运行它。如果您使用按需计划,则必须在默认对象中指定它,并且必须是在管道中为对象指定的唯一 scheduleType。要使用按需管道,您只需为每个后续运行调用 ActivatePipeline 操作。值包括:cron、ondemand 和 timeseries。 枚举
workerGroup 工作线程组。这可用于路由任务。如果您提供 runsOn 值并且存在 workerGroup,则将忽略 workerGroup。 String

运行时字段 描述 槽类型
@activeInstances 当前计划的有效实例对象的列表。 引用对象,例如,"activeInstances":{"ref":"myRunnableObjectId"}
@actualEndTime 该对象的执行完成时间。 DateTime
@actualStartTime 该对象的执行开始时间。 DateTime
cancellationReason 该对象被取消时显示的 cancellationReason。 String
@cascadeFailedOn 对象在其上失败的依赖项链的描述。 引用对象,例如,"cascadeFailedOn":{"ref":"myRunnableObjectId"}
emrStepLog 仅在尝试 EMR 活动时可用的 EMR 步骤日志 String
errorId 该对象失败时显示的 errorId。 String
errorMessage 该对象失败时显示的 errorMessage。 String
errorStackTrace 该对象失败时显示的错误堆栈跟踪。 String
@finishedTime 该对象完成其执行的时间。 DateTime
hadoopJobLog 在尝试基于 EMR 的活动时可用的 Hadoop 任务日志。 String
@healthStatus 对象的运行状况,反映进入终止状态的上个对象实例成功还是失败。 String
@healthStatusFromInstanceId 进入终止状态的上个实例对象的 ID。 String
@healthStatusUpdatedTime 上次更新运行状况的时间。 DateTime
hostname 已执行任务尝试的客户端的主机名。 String
@lastDeactivatedTime 上次停用该对象的时间。 DateTime
@latestCompletedRunTime 已完成执行的最新运行的时间。 DateTime
@latestRunTime 已计划执行的最新运行的时间。 DateTime
@nextRunTime 计划下次运行的时间。 DateTime
reportProgressTime 远程活动报告进度的最近时间。 DateTime
@scheduledEndTime 对象的计划结束时间。 DateTime
@scheduledStartTime 对象的计划开始时间。 DateTime
@status 该对象的状态。 String
@version 用来创建对象的管道版本。 String
@waitingOn 该对象在其上处于等待状态的依赖项列表的描述。 引用对象,例如,"waitingOn":{"ref":"myRunnableObjectId"}

系统字段 描述 槽类型
@error 用于描述格式不正确的对象的错误消息 String
@pipelineId 该对象所属的管道的 ID String
@sphere 对象的范围指明对象在生命周期中的位置:组件对象产生实例对象,后者执行尝试对象 String

另请参阅