Ejecuciones de trabajo - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ejecuciones de trabajo

La API Jobs Runs describe los tipos de datos y la API relacionados con el inicio, la detención o la visualización de las ejecuciones de trabajos y el restablecimiento de los marcadores de trabajos, en. AWS Glue El historial de ejecución de trabajos está disponible durante 90 días para su flujo de trabajo y ejecución de trabajos.

Tipos de datos

JobRun estructura

Contiene información acerca de una ejecución de flujo de trabajo.

Campos
  • Id: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El ID de la ejecución de este flujo de trabajo.

  • Attempt: número (entero).

    El número del intento de ejecución de este flujo de trabajo.

  • PreviousRunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El ID de la ejecución anterior de este trabajo. Por ejemplo, elJobRunId especificado en la acción StartJobRun.

  • TriggerName: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del disparador que inició esta ejecución de flujo de trabajo.

  • JobName: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre de la definición de flujo de trabajo que se utiliza en esta ejecución.

  • JobMode: cadena UTF-8 (valores válidos: SCRIPT="" | VISUAL="" | NOTEBOOK="").

    Un modo que describe cómo se creó un trabajo. Los valores válidos son:

    • SCRIPT- El trabajo se creó con el editor de scripts de AWS Glue Studio.

    • VISUAL- El trabajo se creó con el editor visual de AWS Glue Studio.

    • NOTEBOOK: El trabajo se creó con un cuaderno de sesiones interactivo.

    Cuando el campo JobMode no aparece o es nulo, se asigna SCRIPT como valor predeterminado.

  • StartedOn: marca temporal.

    La fecha y la hora en que se inició la ejecución de este flujo de trabajo.

  • LastModifiedOn: marca temporal.

    Última modificación de la ejecución de este trabajo.

  • CompletedOn: marca temporal.

    La fecha y la hora en que se completó la ejecución de este trabajo.

  • JobRunState: Cadena UTF-8 (valores válidos: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT | ERROR | WAITING | EXPIRED).

    El estado actual de la ejecución de flujo de trabajo. Para obtener más información sobre los estados de los trabajos que han terminado de forma anormal, consulte Estados de ejecución de trabajos de AWS Glue.

  • Arguments: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8.

    Cada valor es una cadena UTF-8.

    Los argumentos de flujo de trabajo asociados a esta ejecución. En esta ejecución del trabajo, sustituyen a los argumentos predeterminados definidos en la propia definición del trabajo.

    Aquí puede especificar los argumentos que consume su propio script de ejecución de tareas, así como los argumentos que consume él AWS Glue mismo.

    Es posible que se registren los argumentos del trabajo. No utilice secretos con formato de texto no cifrado como argumentos. Recupera los secretos de una AWS Glue Conexión AWS Secrets Manager u otro mecanismo de gestión de secretos si pretendes mantenerlos en el Job.

    Para obtener información acerca de cómo especificar y utilizar sus propios argumentos de trabajo, consulte Llamadas a las API de AWS Glue en Python en la guía para desarrolladores.

    Para obtener información sobre los argumentos que puede proporcionar a este campo al configurar los trabajos de Spark, consulte el tema Parámetros especiales utilizados por AWS Glue en la guía para desarrolladores.

    Para obtener información sobre los argumentos que puede proporcionar a este campo al configurar los trabajos de Ray, consulte Utilizar parámetros de trabajo utilizados en trabajos de Ray en la guía para desarrolladores.

  • ErrorMessage: cadena UTF-8.

    Un mensaje de error asociado a la ejecución de este flujo de trabajo.

  • PredecessorRuns: matriz de objetos Predecessor.

    Una lista de predecesores a la ejecución de este flujo de trabajo.

  • AllocatedCapacity: número (entero).

    Este campo está obsoleto. En su lugar, use MaxCapacity.

    El número de unidades de procesamiento de AWS Glue datos (DPU) asignadas a esto JobRun. Se pueden asignar entre 2 y 100 DPU; el valor predeterminado es 10. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria. Para obtener más información, consulte la página de precios de AWS Glue.

  • ExecutionTime: número (entero).

    El periodo de tiempo (en segundos) que la ejecución de flujo de trabajo consumió recursos.

  • Timeout: número (entero), como mínimo 1.

    Tiempo de espera de JobRun en minutos. Es el tiempo máximo que una ejecución de trabajo puede consumir recursos antes de que se termine y cambie al estado TIMEOUT. Este valor sustituye el valor de tiempo de espera establecido en el flujo de trabajo principal.

    Los trabajos de streaming deben tener valores de tiempo de espera inferiores a 7 días o 10 080 minutos. Si el valor se deja en blanco, el trabajo se reiniciará al cabo de 7 días si no se ha configurado un período de mantenimiento. Si ha configurado un período de mantenimiento, se reiniciará durante el período de mantenimiento a los 7 días.

  • MaxCapacity: número (doble).

    Para los trabajos de Glue versión 1.0 o anteriores, utilizando el tipo de trabajador estándar, el número de unidades de procesamiento de AWS Glue datos (DPU) que se pueden asignar cuando se ejecuta este trabajo. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria. Para obtener más información, consulte la página de precios de AWS Glue.

    En los trabajos de Glue versión 2.0+, no puede especificar un Maximum capacity. En su lugar, debe especificar un Worker type y el Number of workers.

    No establezca MaxCapacity si utiliza WorkerType y NumberOfWorkers.

    El valor que se puede asignar a MaxCapacity depende de si se está ejecutando un trabajo de shell de Python, un trabajo de ETL de Apache Spark o un trabajo de ETL de streaming de Apache Spark:

    • Cuando especifica un trabajo de shell de Python (JobCommand.Name=“pythonshell”), puede asignar 0,0625 o 1 DPU. El valor predeterminado es 0,0625 DPU.

    • Cuando especifica un trabajo ETL de Apache Spark (JobCommand.Name=”glueetl”) o un trabajo de ETL de streaming de Apache Spark (JobCommand.Name=”gluestreaming”), puede asignar de 2 a 100 DPU. El valor predeterminado es 10 DPU. Este tipo de trabajo no puede tener una asignación de DPU fraccionaria.

  • WorkerType: cadena UTF-8 (valores válidos: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    El tipo de proceso de trabajo predefinido que se asigna cuando se ejecuta un trabajo. Acepta un valor de G.1X, G.2X, G.4X, G.8X o G.025X para los trabajos de Spark. Acepta el valor Z.2X para los trabajos Ray.

    • Para el tipo de trabajador G.1X, cada trabajador se asocia a 1 DPU (4 vCPU, 16 GB de memoria) con un disco de 84 GB (aproximadamente 34 GB libres) y proporciona 1 ejecutor por trabajador. Recomendamos este tipo de trabajador para cargas de trabajo como transformaciones de datos, uniones y consultas, ya que ofrece una forma escalable y rentable de ejecutar la mayoría de los trabajos.

    • Para el tipo de trabajador G.2X, cada trabajador se asocia a 2 DPU (8 vCPU, 32 GB de memoria) con un disco de 128 GB (aproximadamente 77 GB libres) y proporciona 1 ejecutor por trabajador. Recomendamos este tipo de trabajador para cargas de trabajo como transformaciones de datos, uniones y consultas, ya que ofrece una forma escalable y rentable de ejecutar la mayoría de los trabajos.

    • Para el tipo de trabajador G.4X, cada trabajador se asocia a 4 DPU (16 vCPU, 64 GB de memoria) con un disco de 256 GB (aproximadamente 235 GB libres) y proporciona 1 ejecutor por trabajador. Recomendamos este tipo de trabajador para los trabajos cuyas cargas de trabajo contengan las transformaciones, agregaciones, uniones y consultas más exigentes. Este tipo de trabajador solo está disponible para los trabajos de Spark ETL de la AWS Glue versión 3.0 o posteriores en AWS las siguientes regiones: EE.UU. Este (Ohio), EE.UU. Este (Norte de Virginia), EE.UU. Oeste (Oregón), Asia Pacífico (Singapur), Asia Pacífico (Sídney), Asia Pacífico (Tokio), Canadá (Central), Europa (Fráncfort), Europa (Irlanda) y Europa (Estocolmo).

    • Para el tipo de trabajador G.8X, cada trabajador se asocia a 8 DPU (32 GB vCPU, 128 GB de memoria) con un disco de 512 GB (aproximadamente 487 GB libres) y proporciona 1 ejecutor por trabajador. Recomendamos este tipo de trabajador para los trabajos cuyas cargas de trabajo contengan las transformaciones, agregaciones, uniones y consultas más exigentes. Este tipo de trabajador solo está disponible para los trabajos ETL de Spark de la AWS Glue versión 3.0 o posteriores, en las mismas AWS regiones compatibles con el tipo de G.4X trabajador.

    • Para el tipo de trabajador G.025X, cada trabajador se asigna a 0,25 DPU (2 vCPU, 4 GB de memoria) con un disco de 84 GB (aproximadamente 34 GB libres) y proporciona 1 ejecutor por trabajador. Le recomendamos este tipo de proceso de trabajo para trabajos de streaming de bajo volumen. Este tipo de trabajador solo está disponible para los trabajos de streaming de la AWS Glue versión 3.0.

    • Para el tipo de trabajador Z.2X, cada trabajador se asigna a 2 M-DPU (8 vCPU, 64 GB de memoria) con un disco de 128 GB (aproximadamente 120 GB libres) y proporciona hasta 8 trabajadores de Ray en función del escalador automático.

  • NumberOfWorkers: número (entero).

    El número de procesos de trabajo de workerType definido que se asignan cuando se ejecuta un trabajo.

  • SecurityConfiguration: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre de la estructura SecurityConfiguration que se va a utilizar con este trabajo.

  • LogGroupName: cadena UTF-8.

    El nombre del grupo de registros para un registro seguro que se puede cifrar en el lado del servidor en Amazon CloudWatch mediante. AWS KMS Este nombre puede ser /aws-glue/jobs/, en cuyo caso el cifrado predeterminado es NONE. Si añade un nombre de rol y el nombre SecurityConfiguration (en otras palabras, /aws-glue/jobs-yourRoleName-yourSecurityConfigurationName/), entonces dicha configuración de seguridad se utiliza para cifrar el grupo de registros.

  • NotificationProperty: un objeto NotificationProperty.

    Especifica las propiedades de configuración de una notificación de ejecución de trabajo.

  • GlueVersion: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Custom string pattern #20.

    En los trabajos de Spark, GlueVersion determina las versiones de Apache Spark y Python que AWS Glue están disponibles en un trabajo. La versión de Python indica la versión admitida para trabajos de tipo Spark.

    Los trabajos de Ray se deben configurar GlueVersion en 4.0 o superior. Sin embargo, las versiones de Ray, Python y bibliotecas adicionales que están disponibles en el trabajo de Ray están determinadas por el parámetro Runtime del comando del trabajo.

    Para obtener más información sobre las AWS Glue versiones disponibles y las correspondientes versiones de Spark y Python, consulta la versión de Glue en la guía para desarrolladores.

    Los trabajos que se crean sin especificar una versión de Glue se establecen de forma predeterminada en Glue 0.9.

  • DPUSeconds: número (doble).

    Este campo puede configurarse para ejecuciones de trabajos con clase de ejecución FLEX o cuando el escalado automático está activado, y representa el tiempo total que estuvo activo cada ejecutor durante el ciclo de vida de una ejecución de trabajo en segundos, multiplicado por un factor de DPU (1 para trabajadores G.1X, 2 para G.2X, o 0,25 para G.025X). Este valor puede ser diferente del de executionEngineRuntime * MaxCapacity, como en el caso de los trabajos de Auto Scaling, ya que el número de ejecutores que están activos en un momento determinado puede ser inferior a MaxCapacity. Por lo tanto, es posible que el valor de DPUSeconds sea menor que executionEngineRuntime * MaxCapacity.

  • ExecutionClass: cadena UTF-8 de 16 bytes de largo como máximo (valores válidos: FLEX="" | STANDARD="").

    Indica si el trabajo se ejecuta con una clase de ejecución estándar o flexible. La clase de ejecución estándar es ideal para cargas de trabajo urgentes que requieren un inicio rápido de los trabajos y recursos dedicados.

    La clase de ejecución flexible es adecuada para trabajos no urgentes cuyos momentos de inicio y finalización pueden variar.

    Solo se glueetl podrán configurar ExecutionClass los trabajos con la AWS Glue versión 3.0 o superior y el tipo de comandoFLEX. La clase de ejecución flexible está disponible para los trabajos de Spark.

  • MaintenanceWindow: cadena UTF-8 que coincide con el Custom string pattern #30.

    Este campo especifica un día de la semana y una hora para el período de mantenimiento de los trabajos de streaming. AWS Glue realiza actividades de mantenimiento periódicamente. Durante estos períodos de mantenimiento, AWS Glue tendrás que reiniciar tus trabajos de streaming.

    AWS Glue reiniciará el trabajo en un plazo de 3 horas a partir del período de mantenimiento especificado. Por ejemplo, si configura el período de mantenimiento para el lunes a las 10:00 h GMT, sus trabajos se reiniciarán entre las 10:00 h GMT y las 13:00 h GMT.

  • ProfileName: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre de un perfil de AWS Glue uso asociado a la ejecución de la tarea.

Estructura Predecessor

Una ejecución de flujo de trabajo que se usó en el predicado de un disparador condicional que activó la ejecución de este flujo de trabajo.

Campos
  • JobName: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre de la definición de flujo de trabajo que usa la ejecución de flujo de trabajo del predecesor.

  • RunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El ID de ejecución del flujo de trabajo de la ejecución de flujo de trabajo del predecesor.

JobBookmarkEntry estructura

Define un momento en el que un trabajo puede reanudar el procesamiento.

Campos
  • JobName: cadena UTF-8.

    Nombre del trabajo en cuestión.

  • Version: número (entero).

    La versión del trabajo.

  • Run: número (entero).

    El número de ID de ejecución.

  • Attempt: número (entero).

    El número de ID de intento.

  • PreviousRunId: cadena UTF-8.

    El identificador de ejecución único asociado a esta ejecución.

  • RunId: cadena UTF-8.

    El número de ID de ejecución.

  • JobBookmark: cadena UTF-8.

    El propio marcador.

BatchStopJobRunSuccessfulSubmission estructura

Registra una solicitud correcta para detener un objeto JobRun especificado.

Campos
  • JobName: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre de la definición de flujo de trabajo usada en la ejecución de flujo de trabajo que se detuvo.

  • JobRunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El JobRunId de la ejecución de trabajo que se detuvo.

BatchStopJobRunError estructura

Registra un error que se produjo al intentar detener una ejecución de flujo de trabajo especificada.

Campos
  • JobName: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre de la definición de trabajo usada en la ejecución de trabajo en cuestión.

  • JobRunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El JobRunId de la ejecución de trabajo en cuestión.

  • ErrorDetail: un objeto ErrorDetail.

    Especifica los detalles acerca del error que se encontró.

NotificationProperty estructura

Especifica las propiedades de configuración de una notificación.

Campos
  • NotifyDelayAfter: número (entero), como mínimo 1.

    Después de que comience una ejecución de flujo de trabajo, el número de minutos que se debe esperar antes de enviar una notificación de retraso de ejecución de un flujo de trabajo.

Operaciones

StartJobRun acción (Python: start_job_run)

Inicia una ejecución de flujo de trabajo con una definición de flujo de trabajo.

Solicitud
  • JobName: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre de la definición de flujo de trabajo que se va a usar.

  • JobRunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El ID de una JobRun anterior para volver a intentarlo.

  • Arguments: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8.

    Cada valor es una cadena UTF-8.

    Los argumentos de flujo de trabajo asociados a esta ejecución. En esta ejecución del trabajo, sustituyen a los argumentos predeterminados definidos en la propia definición del trabajo.

    Aquí puede especificar los argumentos que consume su propio script de ejecución de tareas, así como los argumentos que consume él mismo. AWS Glue

    Es posible que se registren los argumentos del trabajo. No utilice secretos con formato de texto no cifrado como argumentos. Recupera los secretos de una AWS Glue Conexión AWS Secrets Manager u otro mecanismo de gestión de secretos si pretendes mantenerlos en el Job.

    Para obtener información acerca de cómo especificar y utilizar sus propios argumentos de trabajo, consulte Llamadas a las API de AWS Glue en Python en la guía para desarrolladores.

    Para obtener información sobre los argumentos que puede proporcionar a este campo al configurar los trabajos de Spark, consulte el tema Parámetros especiales utilizados por AWS Glue en la guía para desarrolladores.

    Para obtener información sobre los argumentos que puede proporcionar a este campo al configurar los trabajos de Ray, consulte Utilizar parámetros de trabajo utilizados en trabajos de Ray en la guía para desarrolladores.

  • AllocatedCapacity: número (entero).

    Este campo está obsoleto. En su lugar, use MaxCapacity.

    El número de unidades de procesamiento de AWS Glue datos (DPU) que se van a asignar a esto JobRun. Puede asignar un mínimo de 2 DPU; el valor predeterminado es 10. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria. Para obtener más información, consulte la página de precios de AWS Glue.

  • Timeout: número (entero), como mínimo 1.

    Tiempo de espera de JobRun en minutos. Es el tiempo máximo que una ejecución de trabajo puede consumir recursos antes de que se termine y cambie al estado TIMEOUT. Este valor sustituye el valor de tiempo de espera establecido en el flujo de trabajo principal.

    Los trabajos de streaming deben tener valores de tiempo de espera inferiores a 7 días o 10 080 minutos. Si el valor se deja en blanco, el trabajo se reiniciará al cabo de 7 días si no se ha configurado un período de mantenimiento. Si ha configurado un período de mantenimiento, se reiniciará durante el período de mantenimiento a los 7 días.

  • MaxCapacity: número (doble).

    Para los trabajos de Glue versión 1.0 o anteriores, utilizando el tipo de trabajador estándar, el número de unidades de procesamiento de AWS Glue datos (DPU) que se pueden asignar cuando se ejecuta este trabajo. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria. Para obtener más información, consulte la página de precios de AWS Glue.

    En los trabajos de Glue versión 2.0+, no puede especificar un Maximum capacity. En su lugar, debe especificar un Worker type y el Number of workers.

    No establezca MaxCapacity si utiliza WorkerType y NumberOfWorkers.

    El valor que se puede asignar a MaxCapacity depende de si se está ejecutando un trabajo de shell de Python, un trabajo de ETL de Apache Spark o un trabajo de ETL de streaming de Apache Spark:

    • Cuando especifica un trabajo de shell de Python (JobCommand.Name=“pythonshell”), puede asignar 0,0625 o 1 DPU. El valor predeterminado es 0,0625 DPU.

    • Cuando especifica un trabajo ETL de Apache Spark (JobCommand.Name=”glueetl”) o un trabajo de ETL de streaming de Apache Spark (JobCommand.Name=”gluestreaming”), puede asignar de 2 a 100 DPU. El valor predeterminado es 10 DPU. Este tipo de trabajo no puede tener una asignación de DPU fraccionaria.

  • SecurityConfiguration: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre de la estructura SecurityConfiguration que se va a utilizar con este trabajo.

  • NotificationProperty: un objeto NotificationProperty.

    Especifica las propiedades de configuración de una notificación de ejecución de trabajo.

  • WorkerType: cadena UTF-8 (valores válidos: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    El tipo de proceso de trabajo predefinido que se asigna cuando se ejecuta un trabajo. Acepta un valor de G.1X, G.2X, G.4X, G.8X o G.025X para los trabajos de Spark. Acepta el valor Z.2X para los trabajos Ray.

    • Para el tipo de trabajador G.1X, cada trabajador se asocia a 1 DPU (4 vCPU, 16 GB de memoria) con un disco de 84 GB (aproximadamente 34 GB libres) y proporciona 1 ejecutor por trabajador. Recomendamos este tipo de trabajador para cargas de trabajo como transformaciones de datos, uniones y consultas, ya que ofrece una forma escalable y rentable de ejecutar la mayoría de los trabajos.

    • Para el tipo de trabajador G.2X, cada trabajador se asocia a 2 DPU (8 vCPU, 32 GB de memoria) con un disco de 128 GB (aproximadamente 77 GB libres) y proporciona 1 ejecutor por trabajador. Recomendamos este tipo de trabajador para cargas de trabajo como transformaciones de datos, uniones y consultas, ya que ofrece una forma escalable y rentable de ejecutar la mayoría de los trabajos.

    • Para el tipo de trabajador G.4X, cada trabajador se asocia a 4 DPU (16 vCPU, 64 GB de memoria) con un disco de 256 GB (aproximadamente 235 GB libres) y proporciona 1 ejecutor por trabajador. Recomendamos este tipo de trabajador para los trabajos cuyas cargas de trabajo contengan las transformaciones, agregaciones, uniones y consultas más exigentes. Este tipo de trabajador solo está disponible para los trabajos de Spark ETL de la AWS Glue versión 3.0 o posteriores en AWS las siguientes regiones: EE.UU. Este (Ohio), EE.UU. Este (Norte de Virginia), EE.UU. Oeste (Oregón), Asia Pacífico (Singapur), Asia Pacífico (Sídney), Asia Pacífico (Tokio), Canadá (Central), Europa (Fráncfort), Europa (Irlanda) y Europa (Estocolmo).

    • Para el tipo de trabajador G.8X, cada trabajador se asocia a 8 DPU (32 GB vCPU, 128 GB de memoria) con un disco de 512 GB (aproximadamente 487 GB libres) y proporciona 1 ejecutor por trabajador. Recomendamos este tipo de trabajador para los trabajos cuyas cargas de trabajo contengan las transformaciones, agregaciones, uniones y consultas más exigentes. Este tipo de trabajador solo está disponible para los trabajos ETL de Spark de la AWS Glue versión 3.0 o posteriores, en las mismas AWS regiones compatibles con el tipo de G.4X trabajador.

    • Para el tipo de trabajador G.025X, cada trabajador se asigna a 0,25 DPU (2 vCPU, 4 GB de memoria) con un disco de 84 GB (aproximadamente 34 GB libres) y proporciona 1 ejecutor por trabajador. Le recomendamos este tipo de proceso de trabajo para trabajos de streaming de bajo volumen. Este tipo de trabajador solo está disponible para los trabajos de streaming de la AWS Glue versión 3.0.

    • Para el tipo de trabajador Z.2X, cada trabajador se asigna a 2 M-DPU (8 vCPU, 64 GB de memoria) con un disco de 128 GB (aproximadamente 120 GB libres) y proporciona hasta 8 trabajadores de Ray en función del escalador automático.

  • NumberOfWorkers: número (entero).

    El número de procesos de trabajo de workerType definido que se asignan cuando se ejecuta un trabajo.

  • ExecutionClass: cadena UTF-8 de 16 bytes de largo como máximo (valores válidos: FLEX="" | STANDARD="").

    Indica si el trabajo se ejecuta con una clase de ejecución estándar o flexible. La clase de ejecución estándar es ideal para cargas de trabajo urgentes que requieren un inicio rápido de los trabajos y recursos dedicados.

    La clase de ejecución flexible es adecuada para trabajos no urgentes cuyos momentos de inicio y finalización pueden variar.

    Solo se permitirá configurar ExecutionClass los trabajos con la AWS Glue versión 3.0 o superior y el tipo glueetl de comandoFLEX. La clase de ejecución flexible está disponible para los trabajos de Spark.

  • ProfileName: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre de un perfil de AWS Glue uso asociado a la ejecución del trabajo.

Respuesta
  • JobRunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El ID asignado a la ejecución de este flujo de trabajo.

Errores
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ConcurrentRunsExceededException

BatchStopJobRun acción (Python: batch_stop_job_run)

Detiene una o varias ejecuciones de flujo de trabajo para una definición flujo de trabajo especificada.

Solicitud
  • JobName: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre de la definición de flujo de trabajo para la que se detienen las ejecuciones de flujo de trabajo.

  • JobRunIdsObligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y 25 cadenas como máximo.

    Una lista de los JobRunIds que se deben detener para esa definición de trabajo.

Respuesta
  • SuccessfulSubmissions: matriz de objetos BatchStopJobRunSuccessfulSubmission.

    Una lista de las que se enviaron correctamente para detenerlas JobRuns .

  • Errors: matriz de objetos BatchStopJobRunError.

    Una lista de los errores que se encontraron al intentar detener objetos JobRuns, incluidos el JobRunId para el que se encontró cada error y los detalles acerca del error.

Errores
  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

GetJobRun acción (Python: get_job_run)

Recupera los metadatos para una ejecución de flujo de trabajo especificada. El historial de ejecución de trabajos está disponible durante 90 días para su flujo de trabajo y ejecución de trabajos.

Solicitud
  • JobName: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre de la definición de flujo de trabajo que se ejecuta.

  • RunId: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El ID de la ejecución de flujo de trabajo.

  • PredecessorsIncluded: booleano.

    True si una lista de ejecuciones del predecesor debe devolverse.

Respuesta
  • JobRun: un objeto JobRun.

    Los metadatos de ejecución de flujo de trabajo solicitados.

Errores
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

GetJobRuns acción (Python: get_job_runs)

Recupera los metadatos para todas las ejecuciones de una definición de flujo de trabajo especificada.

Solicitud
  • JobName: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre de la definición de flujo de trabajo para la que se recuperarán todas las ejecuciones de flujo de trabajo.

  • NextToken: cadena UTF-8.

    Token de continuación si se trata de una llamada de continuidad.

  • MaxResults: número (entero), mayor que 1 y menor que 200.

    Tamaño máximo de la respuesta.

Respuesta
  • JobRuns: matriz de objetos JobRun.

    Una lista de objetos de metadatos de ejecución de trabajo

  • NextToken: cadena UTF-8.

    Token de continuación, si no se han devuelto todas las ejecuciones de trabajos solicitadas.

Errores
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

GetJobBookmark acción (Python: get_job_bookmark)

Devuelve información sobre una entrada de marcador de trabajo.

Para más información acerca de la habilitación y el uso de marcadores de trabajo, consulte:

Solicitud
  • JobNameObligatorio: cadena UTF-8.

    Nombre del trabajo en cuestión.

  • Version: número (entero).

    La versión del trabajo.

  • RunId: cadena UTF-8.

    El identificador de ejecución único asociado a esta ejecución.

Respuesta
  • JobBookmarkEntry: un objeto JobBookmarkEntry.

    Estructura que define un punto en el que un trabajo puede reanudar el procesamiento.

Errores
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

  • ValidationException

GetJobBookmarks acción (Python: get_job_bookmarks)

Devuelve información sobre las entradas de marcador de trabajo. La lista se ordena en números de versión decrecientes.

Para más información acerca de la habilitación y el uso de marcadores de trabajo, consulte:

Solicitud
  • JobNameObligatorio: cadena UTF-8.

    Nombre del trabajo en cuestión.

  • MaxResults: número (entero).

    Tamaño máximo de la respuesta.

  • NextToken: número (entero).

    Token de continuación si se trata de una llamada de continuidad.

Respuesta
  • JobBookmarkEntries: matriz de objetos JobBookmarkEntry.

    Una lista de entradas de marcador de trabajo que define un punto en el que un trabajo puede reanudar su procesamiento.

  • NextToken: número (entero).

    Un token de continuación, que tiene un valor de 1 si se devuelven todas las entradas, o mayor que 1 si no se han devuelto todas las ejecuciones de trabajo solicitadas.

Errores
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

ResetJobBookmark acción (Python: reset_job_bookmark)

Restablece una entrada de marcador.

Para más información acerca de la habilitación y el uso de marcadores de trabajo, consulte:

Solicitud
  • JobNameObligatorio: cadena UTF-8.

    Nombre del trabajo en cuestión.

  • RunId: cadena UTF-8.

    El identificador de ejecución único asociado a esta ejecución.

Respuesta
  • JobBookmarkEntry: un objeto JobBookmarkEntry.

    La entrada de marcador de restablecimiento.

Errores
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException