Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

CopyActivity - AWS Data Pipeline

AWS Data Pipeline ya no está disponible para nuevos clientes. Clientes actuales de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. Más información

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS Data Pipeline ya no está disponible para nuevos clientes. Clientes actuales de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. Más información

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

CopyActivity

Copia los datos de una ubicación a otra. CopyActivityadmite S3 DataNode y SqlDataNode como entrada y salida y la operación de copia se realiza normalmente record-by-record. Sin embargo, CopyActivity proporciona copia de Amazon S3 a Amazon S3 de alto desempeño cuando se cumplen todas las condiciones siguientes:

  • La entrada y la salida son S3 DataNodes

  • El campo dataFormat es el mismo para la entrada y la salida

Si proporciona archivos de datos comprimidos como entrada y no lo indica mediante el campo compression en los nodos de datos de S3, es posible que CopyActivity produzca un error. En este caso, CopyActivity no detecta correctamente el carácter de fin de registro y la operación produce un error. Además, CopyActivity admite la copia de un directorio a otro y la copia de un archivo a un directorio, pero la record-by-record copia se produce al copiar un directorio a un archivo. Por último, CopyActivity no admite la copia de archivos de Amazon S3 multiparte.

CopyActivitytiene limitaciones específicas en cuanto a su CSV compatibilidad. Cuando usa un S3 DataNode como entradaCopyActivity, solo puede usar una variante de Unix/Linux del formato de archivo de CSV datos para los campos de entrada y salida de Amazon S3. La variante de Unix/Linux requiere lo siguiente:

  • El separador debe ser el carácter "," (coma).

  • Los registros no se indican entre comillas.

  • El carácter de escape predeterminado es el ASCII valor 92 (barra invertida).

  • El identificador final del registro es el ASCII valor 10 (o "\n«).

Los sistemas basados en Windows suelen utilizar una secuencia de end-of-record caracteres diferente: un tren de ida y vuelta y una línea de alimentación al mismo tiempo (ASCIIvalor 13 y ASCII valor 10). Debe adaptarse a esta diferencia con un mecanismo adicional como, por ejemplo, un script previo a la copia para modificar los datos de entrada, a fin de garantizar que CopyActivity pueda detectar correctamente el fin de un registro; de lo contrario, CopyActivity devuelve error repetidamente.

Cuando se utiliza CopyActivity para exportar desde un SQL RDS objeto Postgre a un formato de TSV datos, el NULL carácter predeterminado es\n.

Ejemplo

A continuación se muestra un ejemplo de este tipo de objeto. Este objeto hace referencia a otros tres objetos que se definirían en el mismo archivo de definición de canalización. CopyPeriod es un objeto Schedule, y InputData y OutputData son objetos del nodo de datos.

{ "id" : "S3ToS3Copy", "type" : "CopyActivity", "schedule" : { "ref" : "CopyPeriod" }, "input" : { "ref" : "InputData" }, "output" : { "ref" : "OutputData" }, "runsOn" : { "ref" : "MyEc2Resource" } }

Sintaxis

Campos de invocación de objetos Descripción Tipo de slot
schedule Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: {"ref»: "DefaultSchedule«}. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html Objeto de referencia, por ejemplo, «schedule»: {"ref»:» myScheduleId «}
Grupo obligatorio (se requiere uno de los siguientes) Descripción Tipo de slot
runsOn El recurso informático para ejecutar la actividad o comando. Por ejemplo, una EC2 instancia de Amazon o un EMR clúster de Amazon. Objeto de referencia, por ejemplo, "runsOn«: {" ref»:» myResourceId «}
workerGroup El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un runsOn valor y workerGroup existe, workerGroup se ignora. Cadena

Campos opcionales Descripción Tipo de slot
attemptStatus Estado más reciente notificado por la actividad remota. Cadena
attemptTimeout Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. Período
dependsOn Especificar la dependencia de otro objeto ejecutable. Objeto de referencia, por ejemplo, "dependsOn«: {" ref»:» myActivityId «}
failureAndRerunModo Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. Enumeración
input El origen de datos de entrada. Objeto de referencia, por ejemplo, «input»: {"ref»:» myDataNode Id "}
lateAfterTimeout El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand. Período
maxActiveInstances El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. Entero
maximumRetries Número máximo de reintentos cuando se produce un error. Entero
onFail Acción que se debe ejecutar cuando el objeto actual produzca un error. Objeto de referencia, por ejemplo, "onFail«: {" ref»:» myActionId «}
onLateAction Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. Objeto de referencia, por ejemplo, "onLateAction«: {" ref»:» myActionId «}
onSuccess Acción que se debe ejecutar cuando el objeto actual se complete correctamente. Objeto de referencia, por ejemplo, "onSuccess«: {" ref»:» myActionId «}
salida El origen de datos de salida. Objeto de referencia, por ejemplo, «output»: {"ref»:» myDataNode Id "}
parent Elemento principal del objeto actual del que se heredarán los slots. Objeto de referencia, por ejemplo, «parent»: {"ref»:» myBaseObject Id "}
pipelineLogUri El S3 URI (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. Cadena
precondition Opcionalmente, defina una condición previa. Un nodo de datos no se marca como READY "hasta que se hayan cumplido todas las condiciones previas. Objeto de referencia, por ejemplo, «condición previa»: {"ref»:» myPreconditionId «}
reportProgressTimeout Tiempo de espera para trabajar a distancia y realizar llamadas sucesivas a. reportProgress Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. Período
retryDelay Duración del tiempo de espera entre dos reintentos. Período
scheduleType El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si utiliza una programación bajo demanda, debe especificarse en el objeto predeterminado y debe ser la única scheduleType especificada para los objetos en proceso. Para utilizar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. Enumeración

Campos de tiempo de ejecución Descripción Tipo de slot
@activeInstances Lista de los objetos de instancias activas programados actualmente. Objeto de referencia, por ejemplo, "activeInstances«: {" ref»:» myRunnableObject Id "}
@actualEndTime La hora a la que finalizó la ejecución de este objeto. DateTime
@actualStartTime La hora a la que comenzó la ejecución de este objeto. DateTime
cancellationReason El cancellationReason si este objeto se ha cancelado. Cadena
@cascadeFailedOn Descripción de la cadena de dependencia en la que ha fallado el objeto. Objeto de referencia, por ejemplo, "cascadeFailedOn«: {" ref»:» myRunnableObject Id "}
emrStepLog EMRlos registros de pasos solo están disponibles en los intentos de EMR actividad Cadena
errorId El errorId si este objeto falló. Cadena
errorMessage El errorMessage si este objeto falló. Cadena
errorStackTrace El seguimiento de la pila de error si este objeto ha fallado. Cadena
@finishedTime La hora a la que este objeto finalizó su ejecución. DateTime
hadoopJobLog Los registros de trabajos de Hadoop están disponibles cuando se intenta realizar actividades EMR basadas. Cadena
@healthStatus El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. Cadena
@healthStatusFromInstanceId ID del último objeto de instancia que alcanzó un estado terminado. Cadena
@ Hora healthStatusUpdated Hora a la que el estado de salud se actualizó la última vez. DateTime
hostname El nombre de host del cliente que recogió el intento de tarea. Cadena
@lastDeactivatedTime La hora a la que este objeto se desactivó la última vez. DateTime
@ latestCompletedRun Hora Hora de la última ejecución para la que se completó la ejecución. DateTime
@latestRunTime Hora de la última ejecución para la que se programó la ejecución. DateTime
@nextRunTime Hora de ejecución que se va a programar a continuación. DateTime
reportProgressTime La hora más reciente a la que la actividad remota notificó algún progreso. DateTime
@scheduledEndTime Hora de finalización programada para el objeto. DateTime
@scheduledStartTime Hora de comienzo programada para el objeto. DateTime
@status El estado de este objeto. Cadena
@version Versión de la canalización con la que se creó el objeto. Cadena
@waitingOn Descripción de la lista de dependencias de la que este objeto está a la espera. Objeto de referencia, por ejemplo, "waitingOn«: {" ref»:» myRunnableObject Id "}

Campos del sistema Descripción Tipo de slot
@error Error al describir el objeto mal estructurado. Cadena
@pipelineId ID de la canalización a la que pertenece este objeto. Cadena
@sphere La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. Cadena

Véase también

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.