API de Visual Job - AWS Glue
 —  data types  —CodeGenConfigurationNodeJDBC ConnectorOptionsStreamingDataPreviewOptionsAthenaConnectorSourceJDBC ConnectorSourceSparkConnectorSourceCatalogSourceMySQL CatalogSourcePostgresQL CatalogSourceOracleSQL CatalogSourceMicrosoft SQL ServerCatalogSourceCatalogKinesisSourceDirectKinesisSourceKinesisStreamingSourceOptionsCatalogKafkaSourceDirectKafkaSourceKafkaStreamingSourceOptionsRedshiftSourceAmazonRedshiftSourceAmazonRedshiftNodeDataAmazonRedshiftAdvancedOptionOpciónS3 CatalogSourceS3 SourceAdditionalOptionsS3 CsvSourceDirectJDBCSourceS3 DirectSourceAdditionalOptionsS3 JsonSourceS3 ParquetSourceS3 DeltaSourceS3 CatalogDeltaSourceCatalogDeltaSourceS3 HudiSourceS3 CatalogHudiSourceCatalogHudiSourceDynamoDB CatalogSourceRelationalCatalogSourceJDBC ConnectorTargetSparkConnectorTargetBasicCatalogTargetMySQL CatalogTargetPostgresQL CatalogTargetOracleSQL CatalogTargetMicrosoft SQL ServerCatalogTargetRedshiftTargetAmazonRedshiftTargetUpsertRedshiftTargetOptionsS3 CatalogTargetS3 GlueParquetTargetCatalogSchemaChangePolicyS3 DirectTargetS3 HudiCatalogTargetS3 HudiDirectTargetS3 DeltaCatalogTargetS3 DeltaDirectTargetDirectSchemaChangePolicyApplyMappingCorrespondenciaSelectFieldsDropFieldsRenameFieldSpigotJoinJoinColumnSplitFieldsSelectFromCollectionFillMissingValuesFiltroFilterExpressionFilterValueCustomCodeSparkSQLSqlAliasDropNullFieldsNullCheckBoxListNullValueFieldTipo de datosMergeUniónPIIDetectionAgregadoDropDuplicatesGovernedCatalogTargetGovernedCatalogSourceAggregateOperationGlueSchemaGlueStudioSchemaColumnGlueStudioColumnDynamicTransformTransformConfigParameterEvaluateDataQualityDQ ResultsPublishingOptionsDQ StopJobOnFailureOptionsEvaluateDataQualityMultiFrameRecetaRecipeReferenceSnowflakeNodeDataSnowflakeSourceSnowflakeTargetConnectorDataSourceConnectorDataTarget

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

API de Visual Job

La API de trabajos visuales le permite crear trabajos de integración de datos mediante la AWS Glue API desde un objeto JSON que representa la configuración visual de un AWS Glue trabajo.

CodeGenConfigurationNodesSe proporciona una lista de las API de creación o actualización de trabajos para registrar un DAG en AWS Glue Studio para el trabajo creado y generar el código asociado.

Tipos de datos

CodeGenConfigurationNode estructura

CodeGenConfigurationNode enumera todos los tipos de nodos válidos. Se puede completar una y solo una de sus variables miembro.

Campos
  • AthenaConnectorSource: un objeto AthenaConnectorSource.

    Especifica un conector a un origen de datos de Amazon Athena.

  • JDBCConnectorSource: un objeto JDBC ConnectorSource.

    Especifica un conector a un origen de datos JDBC.

  • SparkConnectorSource: un objeto SparkConnectorSource.

    Especifica un conector a un origen de datos de Apache Spark.

  • CatalogSource: un objeto CatalogSource.

    Especifica un banco de datos en el catálogo AWS Glue de datos.

  • RedshiftSource: un objeto RedshiftSource.

    Especifica un almacén de datos de Amazon Redshift.

  • S3CatalogSource: un objeto S3 CatalogSource.

    Especifica un almacén de datos de Amazon S3 en el catálogo AWS Glue de datos.

  • S3CsvSource: un objeto S3 CsvSource.

    Especifica un almacén de datos de valores separados por comas (CSV) almacenado en Amazon S3.

  • S3JsonSource: un objeto S3 JsonSource.

    Especifica un almacén de datos JSON almacenado en Amazon S3.

  • S3ParquetSource: un objeto S3 ParquetSource.

    Especifica un almacén de datos de Apache Parquet almacenado en Amazon S3.

  • RelationalCatalogSource: un objeto RelationalCatalogSource.

    Especifica un almacén de datos del catálogo relacional en el catálogo AWS Glue de datos.

  • DynamoDBCatalogSource: un objeto DynamoDB CatalogSource.

    Especifica un banco de datos del catálogo de DynamoDBC en el AWS Glue catálogo de datos.

  • JDBCConnectorTarget: un objeto JDBC ConnectorTarget.

    Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.

  • SparkConnectorTarget: un objeto SparkConnectorTarget.

    Especifica un destino que utiliza un conector de Apache Spark.

  • CatalogTarget: un objeto BasicCatalogTarget.

    Especifica un destino que utiliza una tabla del catálogo AWS Glue de datos.

  • RedshiftTarget: un objeto RedshiftTarget.

    Especifica un destino que utiliza Amazon Redshift.

  • S3CatalogTarget: un objeto S3 CatalogTarget.

    Especifica un destino de datos que escribe en Amazon S3 mediante el catálogo AWS Glue de datos.

  • S3GlueParquetTarget: un objeto S3 GlueParquetTarget.

    Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.

  • S3DirectTarget: un objeto S3 DirectTarget.

    Especifica un destino de datos que escribe en Amazon S3.

  • ApplyMapping: un objeto ApplyMapping.

    Especifica una transformación que asigna claves de propiedad de datos en el origen de datos a claves de propiedad de datos en el destino de datos. Puede cambiar el nombre de las claves, modificar los tipos de datos de las claves y elegir las claves que desea descartar del conjunto de datos.

  • SelectFields: un objeto SelectFields.

    Especifica una transformación que elige las claves de propiedad de datos que desea conservar.

  • DropFields: un objeto DropFields.

    Especifica una transformación que elige las claves de propiedad de datos que desea eliminar.

  • RenameField: un objeto RenameField.

    Especifica una transformación que cambia el nombre de una única clave de propiedad de datos.

  • Spigot: un objeto Spigot.

    Especifica una transformación que escribe ejemplos de los datos en un bucket de Amazon S3.

  • Join: un objeto Join.

    Especifica una transformación que une dos conjuntos de datos en uno mediante una frase de comparación en las claves de propiedad de datos especificadas. Puede utilizar combinaciones interna, externa, izquierda, derecha, semicombinación izquierda y anticombinación izquierda.

  • SplitFields: un objeto SplitFields.

    Especifica una transformación que divide las claves de propiedad de datos en dos DynamicFrames. La salida es una recopilación de DynamicFrames: uno con las claves de propiedad de datos seleccionadas y el otro con las claves de propiedad de datos restantes.

  • SelectFromCollection: un objeto SelectFromCollection.

    Especifica una transformación que elige un DynamicFrame de una recopilación de DynamicFrames. El resultado es el DynamicFrame seleccionado

  • FillMissingValues: un objeto FillMissingValues.

    Especifica una transformación que localiza registros en el conjunto de datos que tienen valores faltantes y agrega un nuevo campo con un valor determinado por imputación. El conjunto de datos de entrada se utiliza para formar al modelo de machine learning que determina cuál debe ser el valor que falta.

  • Filter: un objeto Filtro.

    Especifica una transformación que divide un conjunto de datos en dos, en función de una condición de filtro.

  • CustomCode: un objeto CustomCode.

    Especifica una transformación que utiliza el código personalizado que proporciona el usuario para llevar a cabo la transformación de datos. El resultado es una colección de DynamicFrames.

  • SparkSQL: un objeto SparkSQL.

    Especifica una transformación en la que se ingresa una consulta SQL mediante la sintaxis de Spark SQL para transformar los datos. La salida es un único DynamicFrame.

  • DirectKinesisSource: un objeto DirectKinesisSource.

    Especifica un origen de datos directo de Amazon Kinesis.

  • DirectKafkaSource: un objeto DirectKafkaSource.

    Especifica un almacén de datos de Apache Kafka.

  • CatalogKinesisSource: un objeto CatalogKinesisSource.

    Especifica una fuente de datos de Kinesis en el catálogo de AWS Glue datos.

  • CatalogKafkaSource: un objeto CatalogKafkaSource.

    Especifica un almacén de datos de Apache Kafka en Data Catalog.

  • DropNullFields: un objeto DropNullFields.

    Especifica una transformación que elimina columnas del conjunto de datos si todos los valores de la columna son “nulos”. De forma predeterminada, AWS Glue Studio reconocerá los objetos nulos, pero algunos valores, como las cadenas vacías, las cadenas «nulas», los enteros -1 u otros marcadores de posición, como ceros, no se reconocen automáticamente como nulos.

  • Merge: un objeto Merge.

    Especifica una transformación que fusiona un DynamicFrame con una instancia provisional de DynamicFrame en función de las claves principales especificadas para identificar registros. Los registros duplicados (registros con las mismas claves principales) no se eliminan.

  • Union: un objeto Unión.

    Especifica una transformación que combina las filas de dos o más conjuntos de datos en un único resultado.

  • PIIDetection: un objeto PIIDetection.

    Especifica una transformación que identifica, elimina o enmascara datos PII.

  • Aggregate: un objeto Agregado.

    Especifica una transformación que agrupa las filas según los campos elegidos y calcula el valor agregado mediante una función especificada.

  • DropDuplicates: un objeto DropDuplicates.

    Especifica una transformación que elimina las filas de datos repetidos de un conjunto de datos.

  • GovernedCatalogTarget: un objeto GovernedCatalogTarget.

    Especifica un destino de datos que escribe en un catálogo gobernado.

  • GovernedCatalogSource: un objeto GovernedCatalogSource.

    Especifica un origen de datos en un Data Catalog gobernado.

  • MicrosoftSQLServerCatalogSource: un objeto Microsoft SQL ServerCatalogSource.

    Especifica un origen de datos de Microsoft SQL server en AWS Glue Data Catalog.

  • MySQLCatalogSource: un objeto MySQL CatalogSource.

    Especifica una fuente de datos MySQL en el catálogo AWS Glue de datos.

  • OracleSQLCatalogSource: un objeto OracleSQL CatalogSource.

    Especifica una fuente de datos de Oracle en el catálogo AWS Glue de datos.

  • PostgreSQLCatalogSource: un objeto PostgresQL CatalogSource.

    Especifica una fuente de datos de PostgresSQL en AWS Glue el catálogo de datos.

  • MicrosoftSQLServerCatalogTarget: un objeto Microsoft SQL ServerCatalogTarget.

    Especifica un destino que utiliza Microsoft SQL.

  • MySQLCatalogTarget: un objeto MySQL CatalogTarget.

    Especifica un destino que utiliza MySQL.

  • OracleSQLCatalogTarget: un objeto OracleSQL CatalogTarget.

    Especifica un destino que utiliza Oracle SQL.

  • PostgreSQLCatalogTarget: un objeto PostgresQL CatalogTarget.

    Especifica un destino que utiliza PostgreSQL.

  • DynamicTransform: un objeto DynamicTransform.

    Especifica una transformación visual personalizada que haya creado un usuario.

  • EvaluateDataQuality: un objeto EvaluateDataQuality.

    Especifica los criterios de evaluación de la calidad de los datos.

  • S3CatalogHudiSource: un objeto S3 CatalogHudiSource.

    Especifica una fuente de datos de Hudi que está registrada en el AWS Glue catálogo de datos. La fuente de datos debe almacenarse en Amazon S3.

  • CatalogHudiSource: un objeto CatalogHudiSource.

    Especifica una fuente de datos de Hudi que está registrada en el catálogo de AWS Glue datos.

  • S3HudiSource: un objeto S3 HudiSource.

    Especifica una fuente de datos Hudi almacenada en. Amazon S3

  • S3HudiCatalogTarget: un objeto S3 HudiCatalogTarget.

    Especifica un destino que escribe en una fuente de datos de Hudi del catálogo de AWS Glue datos.

  • S3HudiDirectTarget: un objeto S3 HudiDirectTarget.

    Especifica un destino que escribe en una fuente de datos de Hudi. Amazon S3

  • S3CatalogDeltaSource: un objeto S3 CatalogDeltaSource.

    Especifica una fuente de datos de Delta Lake que está registrada en el catálogo de AWS Glue datos. La fuente de datos debe almacenarse en Amazon S3.

  • CatalogDeltaSource: un objeto CatalogDeltaSource.

    Especifica una fuente de datos de Delta Lake que está registrada en el catálogo AWS Glue de datos.

  • S3DeltaSource: un objeto S3 DeltaSource.

    Especifica una fuente de datos de Delta Lake almacenada en Amazon S3.

  • S3DeltaCatalogTarget: un objeto S3 DeltaCatalogTarget.

    Especifica un destino que escribe en una fuente de datos de Delta Lake del catálogo AWS Glue de datos.

  • S3DeltaDirectTarget: un objeto S3 DeltaDirectTarget.

    Especifica un destino que escribe en una fuente de datos de Delta Lake Amazon S3.

  • AmazonRedshiftSource: un objeto AmazonRedshiftSource.

    Especifica un destino que escribe en un origen de datos en Amazon Redshift.

  • AmazonRedshiftTarget: un objeto AmazonRedshiftTarget.

    Especifica un destino que escribe en un destino de datos en Amazon Redshift.

  • EvaluateDataQualityMultiFrame: un objeto EvaluateDataQualityMultiFrame.

    Especifica los criterios de evaluación de la calidad de los datos. Permite múltiples datos de entrada y devuelve una colección de marcos dinámicos.

  • Recipe: un objeto Receta.

    Especifica un nodo de AWS Glue DataBrew receta.

  • SnowflakeSource: un objeto SnowflakeSource.

    Especifica un origen de datos de Snowflake.

  • SnowflakeTarget: un objeto SnowflakeTarget.

    Especifica un destino que escribe en un origen de datos de Snowflake.

  • ConnectorDataSource: un objeto ConnectorDataSource.

    Especifica una fuente generada con opciones de conexión estándar.

  • ConnectorDataTarget: un objeto ConnectorDataTarget.

    Especifica un destino generado con opciones de conexión estándar.

Estructura JDBC ConnectorOptions

Opciones de conexión adicionales para el conector.

Campos
  • FilterPredicate: cadena UTF-8 que coincide con el Custom string pattern #40.

    Cláusula de condición adicional para filtrar datos desde el origen. Por ejemplo:

    BillingCity='Mountain View'

    Cuando se utiliza una consulta en lugar de una tabla, se debe validar que la consulta funciona con el filterPredicate especificado.

  • PartitionColumn: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de una columna entera que se utiliza para particionar. Esta opción solo funciona cuando está incluida con lowerBound, upperBound y numPartitions. Esta opción funciona de la misma manera que en el lector JDBC de Spark SQL.

  • LowerBound: número (largo), cero como máximo.

    El valor mínimo de partitionColumn que se utiliza para decidir el intervalo de partición.

  • UpperBound: número (largo), cero como máximo.

    El valor máximo de partitionColumn que se utiliza para decidir el intervalo de partición.

  • NumPartitions: número (largo), cero como máximo.

    El número de particiones. Este valor, junto con lowerBound (inclusive) y upperBound (exclusivo), forma intervalos de partición para expresiones de la cláusula WHERE generadas, que se utilizan para dividir la partitionColumn.

  • JobBookmarkKeys: matriz de cadenas UTF-8.

    El nombre de las claves favoritas de trabajo en las que se ordenará.

  • JobBookmarkKeysSortOrder: cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica el orden de clasificación ascendente o descendente.

  • DataTypeMapping: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 (valores válidos: ARRAY | BIGINT | BINARY | BIT | BLOB | BOOLEAN | CHAR | CLOB | DATALINK | DATE | DECIMAL | DISTINCT | DOUBLE | FLOAT | INTEGER | JAVA_OBJECT | LONGNVARCHAR | LONGVARBINARY | LONGVARCHAR | NCHAR | NCLOB | NULL | NUMERIC | NVARCHAR | OTHER | REAL | REF | REF_CURSOR | ROWID | SMALLINT | SQLXML | STRUCT | TIME | TIME_WITH_TIMEZONE | TIMESTAMP | TIMESTAMP_WITH_TIMEZONE | TINYINT | VARBINARY | VARCHAR).

    Cada valor es una cadena UTF-8 (valores válidos: DATE | STRING | TIMESTAMP | INT | FLOAT | LONG | BIGDECIMAL | BYTE | SHORT | DOUBLE).

    Asignación de tipos de datos personalizada, que crea una asignación a partir de un tipo de datos JDBC a un tipo de datos de AWS Glue . Por ejemplo, la opción "dataTypeMapping":{"FLOAT":"STRING"} asigna campos de datos de tipo JDBC FLOAT al String tipo Java llamando al ResultSet.getString() método del controlador y lo usa para crear el registro. AWS Glue Cada controlador implementa el objeto ResultSet, por lo que el comportamiento es específico del controlador que se utiliza. Consulte la documentación del controlador JDBC para comprender cómo el controlador realiza las conversiones.

StreamingDataPreviewOptions estructura

Especifica las opciones relacionadas con la versión preliminar de datos para ver una muestra de los datos.

Campos
  • PollingTime: número (largo), como mínimo 10.

    El tiempo de sondeo en milisegundos.

  • RecordPollingLimit: número (largo), como mínimo 1.

    El límite del número de registros sondeados.

AthenaConnectorSource estructura

Especifica un conector a un origen de datos de Amazon Athena.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del origen de datos.

  • ConnectionName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la conexión asociada al conector.

  • ConnectorName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de un conector que ayuda a acceder al almacén de datos de AWS Glue Studio.

  • ConnectionType: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El tipo de conexión, como marketplace.athena o custom.athena, que designa una conexión a un almacén de datos de Amazon Athena.

  • ConnectionTable: cadena UTF-8 que coincide con el Custom string pattern #41.

    El nombre de la tabla en el origen de datos.

  • SchemaName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre del grupo de registro de CloudWatch de lectura. Por ejemplo, /aws-glue/jobs/output.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos del origen de Athena personalizado.

Estructura JDBC ConnectorSource

Especifica un conector a un origen de datos JDBC.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del origen de datos.

  • ConnectionName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la conexión asociada al conector.

  • ConnectorName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de un conector que ayuda a acceder al almacén de datos de Studio. AWS Glue

  • ConnectionType: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El tipo de conexión, como marketplace.jdbc o custom.jdbc, que designa una conexión a un almacén de datos JDBC.

  • AdditionalOptions: un objeto JDBC ConnectorOptions.

    Opciones de conexión adicionales para el conector.

  • ConnectionTable: cadena UTF-8 que coincide con el Custom string pattern #41.

    El nombre de la tabla en el origen de datos.

  • Query: cadena UTF-8 que coincide con el Custom string pattern #42.

    La tabla o consulta SQL de la que se obtienen los datos. Puede especificar ConnectionTable o query, pero no ambos.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos del origen de JDBC personalizado.

SparkConnectorSource estructura

Especifica un conector a un origen de datos de Apache Spark.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del origen de datos.

  • ConnectionName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la conexión asociada al conector.

  • ConnectorName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de un conector que ayuda a acceder al almacén de datos de AWS Glue Studio.

  • ConnectionType: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El tipo de conexión, como marketplace.spark o custom.spark, que designa una conexión a un almacén de datos de Apache Spark.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Opciones de conexión adicionales para el conector.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos del origen de spark personalizado.

CatalogSource estructura

Especifica un banco de datos en el catálogo AWS Glue de datos.

Campos

CatalogSource Estructura de MySQL

Especifica una fuente de datos MySQL en el catálogo AWS Glue de datos.

Campos

Estructura de PostgreSQL CatalogSource

Especifica una fuente de datos de PostgresSQL en AWS Glue el catálogo de datos.

Campos

Estructura de OracleSQL CatalogSource

Especifica una fuente de datos de Oracle en el AWS Glue catálogo de datos.

Campos

Estructura de MicrosoftSQL ServerCatalogSource

Especifica un origen de datos de Microsoft SQL server en AWS Glue Data Catalog.

Campos

CatalogKinesisSource estructura

Especifica una fuente de datos de Kinesis en el catálogo de AWS Glue datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del origen de datos.

  • WindowSize: número (entero), cero como máximo.

    La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.

  • DetectSchema: booleano.

    Si se debe determinar automáticamente el esquema a partir de los datos entrantes.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla en la base de datos de lectura.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de lectura.

  • StreamingOptions: un objeto KinesisStreamingSourceOptions.

    Opciones adicionales para el origen de datos de streaming de Kinesis.

  • DataPreviewOptions: un objeto StreamingDataPreviewOptions.

    Opciones adicionales para la versión preliminar de datos.

DirectKinesisSource estructura

Especifica un origen de datos directo de Amazon Kinesis.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del origen de datos.

  • WindowSize: número (entero), cero como máximo.

    La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.

  • DetectSchema: booleano.

    Si se debe determinar automáticamente el esquema a partir de los datos entrantes.

  • StreamingOptions: un objeto KinesisStreamingSourceOptions.

    Opciones adicionales para el origen de datos de streaming de Kinesis.

  • DataPreviewOptions: un objeto StreamingDataPreviewOptions.

    Opciones adicionales para la versión preliminar de datos.

KinesisStreamingSourceOptions estructura

Opciones adicionales para el origen de datos de streaming de Amazon Kinesis.

Campos
  • EndpointUrl: cadena UTF-8 que coincide con el Custom string pattern #40.

    La URL del punto de conexión de Kinesis.

  • StreamName: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre del flujo de datos de Kinesis.

  • Classification: cadena UTF-8 que coincide con el Custom string pattern #40.

    Una clasificación opcional.

  • Delimiter: cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica el carácter delimitador.

  • StartingPosition: cadena UTF-8 (valores válidos: latest="LATEST" | trim_horizon="TRIM_HORIZON" | earliest="EARLIEST" | timestamp="TIMESTAMP").

    La posición inicial en el flujo de datos de Kinesis para leer los datos. Los valores posibles son "latest", "trim_horizon", "earliest" o una cadena de marca de tiempo en formato UTC en el patrón yyyy-mm-ddTHH:MM:SSZ (donde Z representa un desplazamiento de zona horaria UTC con un +/-. Por ejemplo, “04-04-2023 T 08:00:00-04:00”). El valor predeterminado es "latest".

    Nota: El uso de un valor que sea una cadena de marca de tiempo en formato UTC para «StartingPosition» solo se admite en la AWS Glue versión 4.0 o posterior.

  • MaxFetchTimeInMs: número (largo), cero como máximo.

    El tiempo máximo que le tomó al ejecutor del trabajo leer los registros del lote actual en el flujo de datos de Kinesis, especificado en milisegundos (ms). Pueden realizarse varias llamadas a la API de GetRecords durante este tiempo. El valor predeterminado es 1000.

  • MaxFetchRecordsPerShard: número (largo), cero como máximo.

    El número máximo de registros que se recuperará por partición en el flujo de datos de Kinesis por microlote. Nota: El cliente puede exceder este límite si el trabajo de streaming ya leyó registros adicionales de Kinesis (en la misma llamada de obtención de registros). Si MaxFetchRecordsPerShard tiene que ser preciso, entonces tiene que ser un múltiplo de MaxRecordPerRead. El valor predeterminado es 100000.

  • MaxRecordPerRead: número (largo), cero como máximo.

    El número máximo de registros que se recuperará del flujo de datos de Kinesis en cada operación getRecords. El valor predeterminado es 10000.

  • AddIdleTimeBetweenReads: booleano.

    Agrega un retardo de tiempo entre dos operaciones getRecords consecutivas. El valor predeterminado es "False". Esta opción sólo se puede configurar para Glue versión 2.0 y superior.

  • IdleTimeBetweenReadsInMs: número (largo), cero como máximo.

    El retardo de tiempo mínimo entre dos operaciones getRecords consecutivas, especificado en ms. El valor predeterminado es 1000. Esta opción sólo se puede configurar para Glue versión 2.0 y superior.

  • DescribeShardInterval: número (largo), cero como máximo.

    El intervalo de tiempo mínimo entre dos llamadas a la ListShards API para que el script considere la posibilidad de repartirlo. El valor predeterminado es 1s.

  • NumRetries: número (entero), cero como máximo.

    El número máximo de reintentos para las solicitudes de la API de Kinesis Data Streams. El valor predeterminado es 3.

  • RetryIntervalMs: número (largo), cero como máximo.

    El periodo de enfriamiento (especificado en ms) antes de volver a intentar la llamada a la API de Kinesis Data Streams. El valor predeterminado es 1000.

  • MaxRetryIntervalMs: número (largo), cero como máximo.

    El periodo de enfriamiento máximo (especificado en ms) entre dos intentos de llamada a la API de Kinesis Data Streams. El valor predeterminado es 10000.

  • AvoidEmptyBatches: booleano.

    Evita crear un trabajo de microlotes vacío al comprobar si hay datos no leídos en el flujo de datos de Kinesis antes de que se inicie el lote. El valor predeterminado es "False".

  • StreamArn: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de recurso de Amazon (ARN) del flujo de datos de Kinesis.

  • RoleArn: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de recurso de Amazon (ARN) del rol que se va a asumir mediante AWS Security Token Service (AWS STS). Este rol debe tener permisos para describir o leer operaciones de registros del flujo de datos de Kinesis. Debe utilizar este parámetro para acceder a un flujo de datos de otra cuenta. Se utiliza junto con "awsSTSSessionName".

  • RoleSessionName: cadena UTF-8 que coincide con el Custom string pattern #40.

    Un identificador para la sesión que asume el rol mediante AWS STS. Debe utilizar este parámetro para acceder a un flujo de datos de otra cuenta. Se utiliza junto con "awsSTSRoleARN".

  • AddRecordTimestamp: cadena UTF-8 que coincide con el Custom string pattern #40.

    Cuando esta opción se establece en “true”, la salida de datos contendrá una columna adicional denominada “__src_timestamp” que indica la hora en la que el flujo recibió el registro correspondiente. El valor predeterminado es "false". Esta opción se admite en la AWS Glue versión 4.0 o posterior.

  • EmitConsumerLagMetrics: cadena UTF-8 que coincide con el Custom string pattern #40.

    Si esta opción se establece en «true», para cada lote, emitirá las métricas correspondientes al período comprendido entre el registro más antiguo recibido por la transmisión y el momento en AWS Glue que llegue CloudWatch. El nombre de la métrica es «glue.driver.streaming». maxConsumerLagInMs». El valor predeterminado es "false". Esta opción es compatible con la versión 4.0 o posterior de AWS Glue .

  • StartingTimestamp: cadena UTF-8.

    La marca de tiempo del registro del flujo de datos de Kinesis desde la que empezar a leer los datos. Los valores posibles son una cadena de marca de tiempo en formato UTC en el patrón yyyy-mm-ddTHH:MM:SSZ (donde Z representa un desplazamiento de zona horaria UTC con un +/-. Por ejemplo, “2023-04-04T08:00:00+08:00”).

CatalogKafkaSource estructura

Especifica un almacén de datos de Apache Kafka en Data Catalog.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del almacén de datos.

  • WindowSize: número (entero), cero como máximo.

    La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.

  • DetectSchema: booleano.

    Si se debe determinar automáticamente el esquema a partir de los datos entrantes.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla en la base de datos de lectura.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de lectura.

  • StreamingOptions: un objeto KafkaStreamingSourceOptions.

    Especifica las opciones de streaming.

  • DataPreviewOptions: un objeto StreamingDataPreviewOptions.

    Especifica las opciones relacionadas con la versión preliminar de datos para ver una muestra de los datos.

DirectKafkaSource estructura

Especifica un almacén de datos de Apache Kafka.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del almacén de datos.

  • StreamingOptions: un objeto KafkaStreamingSourceOptions.

    Especifica las opciones de streaming.

  • WindowSize: número (entero), cero como máximo.

    La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.

  • DetectSchema: booleano.

    Si se debe determinar automáticamente el esquema a partir de los datos entrantes.

  • DataPreviewOptions: un objeto StreamingDataPreviewOptions.

    Especifica las opciones relacionadas con la versión preliminar de datos para ver una muestra de los datos.

KafkaStreamingSourceOptions estructura

Opciones adicionales para streaming.

Campos
  • BootstrapServers: cadena UTF-8 que coincide con el Custom string pattern #40.

    Una lista de direcciones URL de servidor Bootstrap, por ejemplo, como b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094. Esta opción debe especificarse en la llamada a la API o definirse en los metadatos de la tabla en el Data Catalog.

  • SecurityProtocol: cadena UTF-8 que coincide con el Custom string pattern #40.

    El protocolo utilizado para la comunicación con los agentes. Los valores posibles son "SSL" o."PLAINTEXT"

  • ConnectionName: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la conexión.

  • TopicName: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre del tema como se especifica en Apache Kafka. Debe especificar al menos una opción entre "topicName", "assign" o "subscribePattern".

  • Assign: cadena UTF-8 que coincide con el Custom string pattern #40.

    Las TopicPartitions específicas que se utilizarán. Debe especificar al menos una opción entre "topicName", "assign" o "subscribePattern".

  • SubscribePattern: cadena UTF-8 que coincide con el Custom string pattern #40.

    Una cadena de expresiones regulares de Java que identifica la lista de temas a la que desea suscribirse. Debe especificar al menos una opción entre "topicName", "assign" o "subscribePattern".

  • Classification: cadena UTF-8 que coincide con el Custom string pattern #40.

    Una clasificación opcional.

  • Delimiter: cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica el carácter delimitador.

  • StartingOffsets: cadena UTF-8 que coincide con el Custom string pattern #40.

    La posición inicial en el tema de Kafka para leer los datos. Los valores posibles son "earliest" o."latest" El valor predeterminado es "latest".

  • EndingOffsets: cadena UTF-8 que coincide con el Custom string pattern #40.

    El punto de conexión cuando finaliza una consulta por lotes. Los valores posibles son "latest" o una cadena JSON que especifica una compensación final para cada TopicPartition.

  • PollTimeoutMs: número (largo), cero como máximo.

    El tiempo de espera en milisegundos para sondear datos de Kafka en ejecutores de trabajos de Spark. El valor predeterminado es 512.

  • NumRetries: número (entero), cero como máximo.

    El número de veces que se reintenta antes de no obtener las compensaciones de Kafka. El valor predeterminado es 3.

  • RetryIntervalMs: número (largo), cero como máximo.

    El tiempo en milisegundos para esperar antes de volver a intentar obtener compensaciones Kafka. El valor predeterminado es 10.

  • MaxOffsetsPerTrigger: número (largo), cero como máximo.

    El límite de velocidad en el número máximo de compensaciones que se procesan por intervalo de desencadenador. El número total de compensaciones especificado se divide de forma proporcional entre topicPartitions de diferentes volúmenes. El valor predeterminado es nulo, lo que significa que el consumidor lee todos las compensaciones hasta la última compensación conocida.

  • MinPartitions: número (entero), cero como máximo.

    El número mínimo deseado de particiones para leer desde Kafka. El valor predeterminado es nulo, lo que significa que el número de particiones de Spark es igual al número de particiones de Kafka.

  • IncludeHeaders: booleano.

    Si se incluyen los encabezados de Kafka. Cuando la opción se establece en “true”, la salida de datos contendrá una columna adicional denominada “glue_streaming_kafka_headers” con el tipo Array[Struct(key: String, value: String)]. El valor predeterminado es “falso”. Esta opción solo está disponible en AWS Glue la versión 3.0 o posterior.

  • AddRecordTimestamp: cadena UTF-8 que coincide con el Custom string pattern #40.

    Cuando esta opción se establece en “true”, la salida de datos contendrá una columna adicional denominada “__src_timestamp” que indica la hora en la que el tema recibió el registro correspondiente. El valor predeterminado es "false". Esta opción es compatible con la AWS Glue versión 4.0 o posterior.

  • EmitConsumerLagMetrics: cadena UTF-8 que coincide con el Custom string pattern #40.

    Si esta opción se establece en «true», para cada lote, emitirá las métricas correspondientes al período comprendido entre el registro más antiguo recibido por el tema y el momento en AWS Glue que llegue CloudWatch. El nombre de la métrica es «glue.driver.streaming». maxConsumerLagInMs». El valor predeterminado es "false". Esta opción es compatible con la versión 4.0 o posterior de AWS Glue .

  • StartingTimestamp: cadena UTF-8.

    La marca de tiempo del registro en el tema de Kafka desde el que empezar a leer los datos. Los valores posibles son una cadena de marca de tiempo en formato UTC en el patrón yyyy-mm-ddTHH:MM:SSZ (donde Z representa un desplazamiento de zona horaria UTC con un +/-. Por ejemplo, “2023-04-04T08:00:00+08:00”).

    Solo se debe configurar una de StartingTimestamp o StartingOffsets.

RedshiftSource estructura

Especifica un almacén de datos de Amazon Redshift.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del almacén de datos de Amazon Redshift.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    La base de datos de lectura.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    La tabla de base de datos de lectura.

  • RedshiftTmpDir: cadena UTF-8 que coincide con el Custom string pattern #40.

    La ruta de Amazon S3 donde se pueden almacenar datos temporales al copiar desde la base de datos.

  • TmpDirIAMRole: cadena UTF-8 que coincide con el Custom string pattern #40.

    El rol de IAM con permisos.

AmazonRedshiftSource estructura

Especifica el origen de Amazon Redshift.

Campos

AmazonRedshiftNodeData estructura

Especifica un nodo de Amazon Redshift.

Campos
  • AccessType: cadena UTF-8 que coincide con el Custom string pattern #39.

    El tipo de acceso para la conexión de Redshift. Puede ser una conexión directa o una conexión de catálogo.

  • SourceType: cadena UTF-8 que coincide con el Custom string pattern #39.

    El tipo de origen para especificar si una tabla específica es el origen o una consulta personalizada.

  • Connection: un objeto Opción.

    La AWS Glue conexión al clúster de Redshift.

  • Schema: un objeto Opción.

    El nombre del esquema de Redshift cuando se trabaja con una conexión directa.

  • Table: un objeto Opción.

    El nombre de la tabla de Redshift cuando se trabaja con una conexión directa.

  • CatalogDatabase: un objeto Opción.

    El nombre de la base de AWS Glue datos del catálogo de datos cuando se trabaja con un catálogo de datos.

  • CatalogTable: un objeto Opción.

    El nombre de la tabla del catálogo de AWS Glue datos cuando se trabaja con un catálogo de datos.

  • CatalogRedshiftSchema: cadena UTF-8.

    El nombre del esquema de Redshift cuando se trabaja con un catálogo de datos.

  • CatalogRedshiftTable: cadena UTF-8.

    La tabla de base de datos de lectura.

  • TempDir: cadena UTF-8 que coincide con el Custom string pattern #40.

    La ruta de Amazon S3 donde se pueden almacenar datos temporales al copiar desde la base de datos.

  • IamRole: un objeto Opción.

    Opcional. El nombre del rol que se utiliza al conectarse a S3. El rol de IAM será la función del trabajo de forma predeterminada si se deja en blanco.

  • AdvancedOptions: matriz de objetos AmazonRedshiftAdvancedOption.

    Valores opcionales al conectarse al clúster de Redshift.

  • SampleQuery: cadena UTF-8.

    El SQL que se utiliza para obtener los datos de una fuente de Redshift cuando se SourceType trata de una «consulta».

  • PreAction: cadena UTF-8.

    El SQL utilizado antes de ejecutar un comando MERGE o APPEND con upsert.

  • PostAction: cadena UTF-8.

    El SQL utilizado antes de ejecutar un comando MERGE o APPEND con upsert.

  • Action: cadena UTF-8.

    Especifica cómo se escribirá en un clúster de Redshift.

  • TablePrefix: cadena UTF-8 que coincide con el Custom string pattern #39.

    Especifica el prefijo a una tabla.

  • Upsert: booleano.

    La acción utilizada en Redshift se hunde al realizar un APPEND.

  • MergeAction: cadena UTF-8 que coincide con el Custom string pattern #39.

    La acción que se utiliza para determinar cómo se gestionará un MERGE en un receptor de Redshift.

  • MergeWhenMatched: cadena UTF-8 que coincide con el Custom string pattern #39.

    La acción que se utiliza para determinar cómo se gestionará un MERGE en un receptor de Redshift cuando un registro existente coincida con un registro nuevo.

  • MergeWhenNotMatched: cadena UTF-8 que coincide con el Custom string pattern #39.

    La acción que se utiliza para determinar cómo se gestionará un MERGE en un receptor de Redshift cuando un registro existente no coincida con un registro nuevo.

  • MergeClause: cadena UTF-8.

    El SQL utilizado en una combinación personalizada para tratar los registros coincidentes.

  • CrawlerConnection: cadena UTF-8.

    Especifica el nombre de la conexión asociada con la tabla de catálogo utilizada.

  • TableSchema: matriz de objetos Opción.

    La matriz de salida del esquema para un nodo determinado.

  • StagingTable: cadena UTF-8.

    El nombre de la tabla provisional temporal que se utiliza al realizar MERGE o APPEND con upsert.

  • SelectedColumns: matriz de objetos Opción.

    La lista de nombres de columnas que se utiliza para determinar un registro coincidente al realizar un MERGE o APPEND con upsert.

AmazonRedshiftAdvancedOption estructura

Especifica un valor opcional al conectarse al clúster de Redshift.

Campos
  • Key: cadena UTF-8.

    La clave de la opción de conexión adicional.

  • Value: cadena UTF-8.

    El valor de la opción de conexión adicional.

Estructura de opción

Especifica un valor de opción.

Campos

CatalogSource estructura S3

Especifica un almacén de datos de Amazon S3 en el catálogo AWS Glue de datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del almacén de datos.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    La base de datos de lectura.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    La tabla de base de datos de lectura.

  • PartitionPredicate: cadena UTF-8 que coincide con el Custom string pattern #40.

    Se eliminan las particiones que cumplen con este predicado. Los archivos comprendidos en el período de retención de estas particiones no se eliminan. Configurar en "", valor vacío de forma predeterminada.

  • AdditionalOptions: un objeto S3 SourceAdditionalOptions.

    Especifica opciones de conexión adicionales.

SourceAdditionalOptions Estructura de S3

Especifica opciones de conexión adicionales para el almacén de datos de Amazon S3.

Campos
  • BoundedSize: número (largo).

    Establece el límite superior del tamaño objetivo del conjunto de datos en bytes que se procesará.

  • BoundedFiles: número (largo).

    Establece el límite superior del número objetivo de archivos que se procesarán.

CsvSource Estructura S3

Especifica un almacén de datos de valores separados por comas (CSV) almacenado en Amazon S3.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del almacén de datos.

  • Paths: obligatorio: una matriz de cadenas UTF-8.

    Una lista de las rutas de Amazon S3 desde las que se leerá.

  • CompressionType: cadena UTF-8 (valores válidos: gzip="GZIP" | bzip2="BZIP2").

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • Exclusions: matriz de cadenas UTF-8.

    Una cadena que contiene una lista JSON de patrones glob de estilo Unix para excluir. Por ejemplo, "[\"**.pdf \"]" excluye todos los archivos PDF.

  • GroupSize: cadena UTF-8 que coincide con el Custom string pattern #40.

    El tamaño del grupo de destino en bytes. El valor predeterminado se calcula en función del tamaño de los datos de entrada y el tamaño de su clúster. Cuando hay menos de 50 000 archivos de entrada, "groupFiles" debe establecerse en "inPartition" para que este valor surta efecto.

  • GroupFiles: cadena UTF-8 que coincide con el Custom string pattern #40.

    La agrupación de archivos se habilita de forma predeterminada cuando la entrada contiene más de 50 000 archivos. Para habilitar las agrupaciones con menos de 50 000 archivos, establezca este parámetro en “inPartition”. Para deshabilitar las agrupaciones con más de 50 000 archivos, establezca este parámetro en "none".

  • Recurse: booleano.

    Si se establece en verdadero, lee recursivamente archivos en todos los subdirectorios de las rutas especificadas.

  • MaxBand: número (entero), cero como máximo.

    Esta opción controla la duración en milisegundos después de la que es probable que el listado de s3 sea coherente. Los archivos con marcas de tiempo de modificación que se encuentran dentro de los últimos milisegundos de MaxBand se rastrean especialmente cuando se utilizan JobBookmarks para tener en cuenta la coherencia eventual de Amazon S3. La mayoría de los usuarios no tienen que establecer esta opción. El valor predeterminado es 900 000 milisegundos, o 15 minutos.

  • MaxFilesInBand: número (entero), cero como máximo.

    Esta opción especifica el número máximo de archivos que deben guardarse desde los últimos segundos de maxBand. Si se supera este número, los archivos adicionales se omiten y solo se procesarán en la siguiente ejecución del flujo de trabajo.

  • AdditionalOptions: un objeto S3 DirectSourceAdditionalOptions.

    Especifica opciones de conexión adicionales.

  • Separator: obligatorio: cadena de UTF-8 (valores válidos: comma="COMMA" | ctrla="CTRLA" | pipe="PIPE" | semicolon="SEMICOLON" | tab="TAB").

    Especifica el carácter delimitador. El valor predeterminado es una coma: “,”; pero puede especificarse cualquier otro carácter.

  • Escaper: cadena UTF-8 que coincide con el Custom string pattern #41.

    Especifica un carácter que se usar para aplicar escape. Esta opción solo se usa cuando se leen archivos CSV. El valor predeterminado es none. Si se habilita, el carácter que va inmediatamente después se usa tal cual, excepto un pequeño conjunto de escapes conocidos (\n, \r, \t y \0).

  • QuoteChar: obligatorio: cadena UTF-8 (valores válidos: quote="QUOTE" | quillemet="QUILLEMET" | single_quote="SINGLE_QUOTE" | disabled="DISABLED").

    Especifica el carácter que se usar para aplicar comillas. El carácter predeterminado es una comilla doble: '"'. Establezca esta opción en -1 para desactivar las comillas por completo.

  • Multiline: booleano.

    Un valor booleano que especifica si un solo registro puede abarcar varias líneas. Esto puede suceder cuando un campo contiene un carácter de nueva línea entre comillas. Debe configurar esta opción en verdadero si un registro abarca varias líneas. El valor predeterminado es False, que permite una división de archivo más dinámica durante el análisis.

  • WithHeader: booleano.

    Un valor booleano que especifica si la primera línea se debe tratar como un encabezado. El valor predeterminado es False.

  • WriteHeader: booleano.

    Un valor booleano que especifica si se debe escribir el encabezado en la salida. El valor predeterminado es True.

  • SkipFirst: booleano.

    Un valor booleano que especifica si se debe omitir la primera línea de datos. El valor predeterminado es False.

  • OptimizePerformance: booleano.

    Un valor booleano que especifica si se debe utilizar el lector CSV SIMD avanzado junto con los formatos de memoria columnar con base en Apache Arrow. Solo disponible en AWS Glue la versión 3.0.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos del origen de S3 con formato CSV.

Estructura DirectJDBCSource

Especifica la conexión de origen JDBC directa.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre de la conexión de origen de JDBC.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    La base de datos de la conexión de origen de JDBC.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    La tabla de la conexión de origen de JDBC.

  • ConnectionName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la conexión del origen de JDBC.

  • ConnectionType: obligatorio: cadena de UTF-8 (valores válidos: sqlserver | mysql | oracle | postgresql | redshift).

    El tipo de conexión del origen de JDBC.

  • RedshiftTmpDir: cadena UTF-8 que coincide con el Custom string pattern #40.

    El directorio temporal del origen de JDBC Redshift.

DirectSourceAdditionalOptions Estructura S3

Especifica opciones de conexión adicionales para el almacén de datos de Amazon S3.

Campos
  • BoundedSize: número (largo).

    Establece el límite superior del tamaño objetivo del conjunto de datos en bytes que se procesará.

  • BoundedFiles: número (largo).

    Establece el límite superior del número objetivo de archivos que se procesarán.

  • EnableSamplePath: booleano.

    Establece la opción para habilitar una ruta de ejemplo.

  • SamplePath: cadena UTF-8 que coincide con el Custom string pattern #40.

    Si está habilitado, especifica la ruta de ejemplo.

JsonSource Estructura S3

Especifica un almacén de datos JSON almacenado en Amazon S3.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del almacén de datos.

  • Paths: obligatorio: una matriz de cadenas UTF-8.

    Una lista de las rutas de Amazon S3 desde las que se leerá.

  • CompressionType: cadena UTF-8 (valores válidos: gzip="GZIP" | bzip2="BZIP2").

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • Exclusions: matriz de cadenas UTF-8.

    Una cadena que contiene una lista JSON de patrones glob de estilo Unix para excluir. Por ejemplo, "[\"**.pdf \"]" excluye todos los archivos PDF.

  • GroupSize: cadena UTF-8 que coincide con el Custom string pattern #40.

    El tamaño del grupo de destino en bytes. El valor predeterminado se calcula en función del tamaño de los datos de entrada y el tamaño de su clúster. Cuando hay menos de 50 000 archivos de entrada, "groupFiles" debe establecerse en "inPartition" para que este valor surta efecto.

  • GroupFiles: cadena UTF-8 que coincide con el Custom string pattern #40.

    La agrupación de archivos se habilita de forma predeterminada cuando la entrada contiene más de 50 000 archivos. Para habilitar las agrupaciones con menos de 50 000 archivos, establezca este parámetro en “inPartition”. Para deshabilitar las agrupaciones con más de 50 000 archivos, establezca este parámetro en "none".

  • Recurse: booleano.

    Si se establece en verdadero, lee recursivamente archivos en todos los subdirectorios de las rutas especificadas.

  • MaxBand: número (entero), cero como máximo.

    Esta opción controla la duración en milisegundos después de la que es probable que el listado de s3 sea coherente. Los archivos con marcas de tiempo de modificación que se encuentran dentro de los últimos milisegundos de MaxBand se rastrean especialmente cuando se utilizan JobBookmarks para tener en cuenta la coherencia eventual de Amazon S3. La mayoría de los usuarios no tienen que establecer esta opción. El valor predeterminado es 900 000 milisegundos, o 15 minutos.

  • MaxFilesInBand: número (entero), cero como máximo.

    Esta opción especifica el número máximo de archivos que deben guardarse desde los últimos segundos de maxBand. Si se supera este número, los archivos adicionales se omiten y solo se procesarán en la siguiente ejecución del flujo de trabajo.

  • AdditionalOptions: un objeto S3 DirectSourceAdditionalOptions.

    Especifica opciones de conexión adicionales.

  • JsonPath: cadena UTF-8 que coincide con el Custom string pattern #40.

    Una JsonPath cadena que define los datos de JSON.

  • Multiline: booleano.

    Un valor booleano que especifica si un solo registro puede abarcar varias líneas. Esto puede suceder cuando un campo contiene un carácter de nueva línea entre comillas. Debe configurar esta opción en verdadero si un registro abarca varias líneas. El valor predeterminado es False, que permite una división de archivo más dinámica durante el análisis.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos del origen de S3 con formato JSON.

ParquetSource Estructura S3

Especifica un almacén de datos de Apache Parquet almacenado en Amazon S3.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del almacén de datos.

  • Paths: obligatorio: una matriz de cadenas UTF-8.

    Una lista de las rutas de Amazon S3 desde las que se leerá.

  • CompressionType: cadena UTF-8 (valores válidos: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE").

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • Exclusions: matriz de cadenas UTF-8.

    Una cadena que contiene una lista JSON de patrones glob de estilo Unix para excluir. Por ejemplo, "[\"**.pdf \"]" excluye todos los archivos PDF.

  • GroupSize: cadena UTF-8 que coincide con el Custom string pattern #40.

    El tamaño del grupo de destino en bytes. El valor predeterminado se calcula en función del tamaño de los datos de entrada y el tamaño de su clúster. Cuando hay menos de 50 000 archivos de entrada, "groupFiles" debe establecerse en "inPartition" para que este valor surta efecto.

  • GroupFiles: cadena UTF-8 que coincide con el Custom string pattern #40.

    La agrupación de archivos se habilita de forma predeterminada cuando la entrada contiene más de 50 000 archivos. Para habilitar las agrupaciones con menos de 50 000 archivos, establezca este parámetro en “inPartition”. Para deshabilitar las agrupaciones con más de 50 000 archivos, establezca este parámetro en "none".

  • Recurse: booleano.

    Si se establece en verdadero, lee recursivamente archivos en todos los subdirectorios de las rutas especificadas.

  • MaxBand: número (entero), cero como máximo.

    Esta opción controla la duración en milisegundos después de la que es probable que el listado de s3 sea coherente. Los archivos con marcas de tiempo de modificación que se encuentran dentro de los últimos milisegundos de MaxBand se rastrean especialmente cuando se utilizan JobBookmarks para tener en cuenta la coherencia eventual de Amazon S3. La mayoría de los usuarios no tienen que establecer esta opción. El valor predeterminado es 900 000 milisegundos, o 15 minutos.

  • MaxFilesInBand: número (entero), cero como máximo.

    Esta opción especifica el número máximo de archivos que deben guardarse desde los últimos segundos de maxBand. Si se supera este número, los archivos adicionales se omiten y solo se procesarán en la siguiente ejecución del flujo de trabajo.

  • AdditionalOptions: un objeto S3 DirectSourceAdditionalOptions.

    Especifica opciones de conexión adicionales.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos del origen de S3 con formato Parquet.

Estructura de S3 DeltaSource

Especifica una fuente de datos de Delta Lake almacenada en Amazon S3.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del origen del Delta Lake.

  • Paths: obligatorio: una matriz de cadenas UTF-8.

    Una lista de las rutas de Amazon S3 desde las que se leerá.

  • AdditionalDeltaOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica opciones de conexión adicionales.

  • AdditionalOptions: un objeto S3 DirectSourceAdditionalOptions.

    Especifica las opciones adicionales para el conector.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para el origen de Delta Lake.

CatalogDeltaSource Estructura S3

Especifica una fuente de datos de Delta Lake que está registrada en el catálogo AWS Glue de datos. La fuente de datos debe almacenarse en Amazon S3.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del origen de datos de Delta Lake.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de lectura.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla en la base de datos de lectura.

  • AdditionalDeltaOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica opciones de conexión adicionales.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para el origen de Delta Lake.

CatalogDeltaSource estructura

Especifica una fuente de datos de Delta Lake que está registrada en el catálogo AWS Glue de datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del origen de datos de Delta Lake.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de lectura.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla en la base de datos de lectura.

  • AdditionalDeltaOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica opciones de conexión adicionales.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para el origen de Delta Lake.

HudiSource Estructura S3

Especifica una fuente de datos de Hudi almacenada en Amazon S3.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del origen de Hudi.

  • Paths: obligatorio: una matriz de cadenas UTF-8.

    Una lista de las rutas de Amazon S3 desde las que se leerá.

  • AdditionalHudiOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica opciones de conexión adicionales.

  • AdditionalOptions: un objeto S3 DirectSourceAdditionalOptions.

    Especifica las opciones adicionales para el conector.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para el origen de Hudi.

Estructura S3 CatalogHudiSource

Especifica una fuente de datos de Hudi que está registrada en el catálogo de AWS Glue datos. La fuente de datos de Hudi debe almacenarse en. Amazon S3

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del origen de datos de Hudi.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de lectura.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla en la base de datos de lectura.

  • AdditionalHudiOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica opciones de conexión adicionales.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para el origen de Hudi.

CatalogHudiSource estructura

Especifica una fuente de datos de Hudi que está registrada en el catálogo de AWS Glue datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del origen de datos de Hudi.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de lectura.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla en la base de datos de lectura.

  • AdditionalHudiOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica opciones de conexión adicionales.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para el origen de Hudi.

Estructura de DynamoDB CatalogSource

Especifica una fuente de datos de DynamoDB en AWS Glue el catálogo de datos.

Campos

RelationalCatalogSource estructura

Especifica un origen de datos de base de datos relacional en AWS Glue Data Catalog.

Campos

estructura JDBC ConnectorTarget

Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • ConnectionName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la conexión asociada al conector.

  • ConnectionTable: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #41.

    El nombre de la tabla en el destino de datos.

  • ConnectorName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de un conector que se utilizará.

  • ConnectionType: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El tipo de conexión, como marketplace.jdbc o custom.jdbc, que designa una conexión a un destino de datos JDBC.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Opciones de conexión adicionales para el conector.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos del destino de JDBC.

SparkConnectorTarget estructura

Especifica un destino que utiliza un conector de Apache Spark.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • ConnectionName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de una conexión de un conector de Apache Spark.

  • ConnectorName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de un conector de Apache Spark.

  • ConnectionType: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El tipo de conexión, como marketplace.spark o custom.spark, que designa una conexión a un almacén de datos de Apache Spark.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Opciones de conexión adicionales para el conector.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos del destino de spark personalizado.

BasicCatalogTarget estructura

Especifica un destino que utiliza una tabla AWS Glue de catálogo de datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    La base de datos que contiene la tabla que desea utilizar como destino. Esta base de datos ya debe existir en el Catálogo de datos.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    La tabla que define el esquema de los datos de salida. Esta tabla ya debe existir en el Catálogo de datos.

CatalogTarget Estructura de MySQL

Especifica un destino que utiliza MySQL.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de escritura.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla de la base de datos de escritura.

Estructura de PostgreSQL CatalogTarget

Especifica un destino que utiliza PostgreSQL.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de escritura.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla de la base de datos de escritura.

Estructura de OracleSQL CatalogTarget

Especifica un destino que utiliza Oracle SQL.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de escritura.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla de la base de datos de escritura.

Estructura de Microsoft SQL ServerCatalogTarget

Especifica un destino que utiliza Microsoft SQL.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de escritura.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla de la base de datos de escritura.

RedshiftTarget estructura

Especifica un destino que utiliza Amazon Redshift.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de escritura.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla de la base de datos de escritura.

  • RedshiftTmpDir: cadena UTF-8 que coincide con el Custom string pattern #40.

    La ruta de Amazon S3 donde se pueden almacenar datos temporales al copiar desde la base de datos.

  • TmpDirIAMRole: cadena UTF-8 que coincide con el Custom string pattern #40.

    El rol de IAM con permisos.

  • UpsertRedshiftOptions: un objeto UpsertRedshiftTargetOptions.

    Conjunto de opciones para configurar una operación upsert al escribir en un destino de Redshift.

AmazonRedshiftTarget estructura

Especifica un destino de Amazon Redshift.

Campos
  • Name: cadena UTF-8 que coincide con el Custom string pattern #43.

    Nombre del destino de Amazon Redshift.

  • Data: un objeto AmazonRedshiftNodeData.

    Especifica los datos del nodo de destino de Amazon Redshift.

  • Inputs: matriz de cadenas UTF-8, no menos de una cadena o más de una.

    Los nodos que son entradas para el destino de datos.

UpsertRedshiftTargetOptions estructura

Opciones para configurar una operación upsert al escribir en un destino de Redshift.

Campos
  • TableLocation: cadena UTF-8 que coincide con el Custom string pattern #40.

    Ubicación física de la tabla de Redshift.

  • ConnectionName: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la conexión que se utilizará para escribir en Redshift.

  • UpsertKeys: matriz de cadenas UTF-8.

    Claves utilizadas para determinar si se debe realizar una actualización o una inserción.

CatalogTarget estructura S3

Especifica un destino de datos que escribe en Amazon S3 mediante el catálogo AWS Glue de datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys: matriz de cadenas UTF-8.

    Especifica la partición nativa mediante una secuencia de claves.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla de la base de datos de escritura.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de escritura.

  • SchemaChangePolicy: un objeto CatalogSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

GlueParquetTarget Estructura de S3

Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys: matriz de cadenas UTF-8.

    Especifica la partición nativa mediante una secuencia de claves.

  • Path: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    Una única ruta de Amazon S3 de escritura.

  • Compression: cadena UTF-8 (valores válidos: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE").

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • SchemaChangePolicy: un objeto DirectSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

CatalogSchemaChangePolicy estructura

Una política que especifica los comportamientos de actualización del rastreador.

Campos
  • EnableUpdateCatalog: booleano.

    Si utilizar o no el comportamiento de actualización especificado cuando el rastreador encuentra un esquema cambiado.

  • UpdateBehavior: cadena UTF-8 (valores válidos: UPDATE_IN_DATABASE | LOG).

    Comportamiento de actualización cuando el rastreador encuentra un esquema cambiado.

DirectTarget estructura S3

Especifica un destino de datos que escribe en Amazon S3.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys: matriz de cadenas UTF-8.

    Especifica la partición nativa mediante una secuencia de claves.

  • Path: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    Una única ruta de Amazon S3 de escritura.

  • Compression: cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • FormatObligatorio: cadena UTF-8 (valores válidos: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    Especifica el formato de salida de datos para el destino.

  • SchemaChangePolicy: un objeto DirectSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

HudiCatalogTarget Estructura S3

Especifica un destino que escribe en una fuente de datos de Hudi del catálogo de AWS Glue datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys: matriz de cadenas UTF-8.

    Especifica la partición nativa mediante una secuencia de claves.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla de la base de datos de escritura.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de escritura.

  • AdditionalOptionsObligatorio: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica opciones de conexión adicionales para el conector.

  • SchemaChangePolicy: un objeto CatalogSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

Estructura S3 HudiDirectTarget

Especifica un destino que escribe en una fuente de datos de Hudi. Amazon S3

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • Path: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    La ruta de Amazon S3 del origen de datos de Hudi en la que desea escribir.

  • Compression: obligatorio: cadena UTF-8 (valores válidos: gzip="GZIP" | lzo="LZO" | uncompressed="UNCOMPRESSED" | snappy="SNAPPY").

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • PartitionKeys: matriz de cadenas UTF-8.

    Especifica la partición nativa mediante una secuencia de claves.

  • FormatObligatorio: cadena UTF-8 (valores válidos: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    Especifica el formato de salida de datos para el destino.

  • AdditionalOptionsObligatorio: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica opciones de conexión adicionales para el conector.

  • SchemaChangePolicy: un objeto DirectSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

Estructura S3 DeltaCatalogTarget

Especifica un destino que escribe en una fuente de datos de Delta Lake del catálogo AWS Glue de datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys: matriz de cadenas UTF-8.

    Especifica la partición nativa mediante una secuencia de claves.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla de la base de datos de escritura.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de escritura.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica opciones de conexión adicionales para el conector.

  • SchemaChangePolicy: un objeto CatalogSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

DeltaDirectTarget Estructura S3

Especifica un destino que escribe en una fuente de datos de Delta Lake en Amazon S3.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys: matriz de cadenas UTF-8.

    Especifica la partición nativa mediante una secuencia de claves.

  • Path: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    La ruta de Amazon S3 del origen de datos de Delta Lake en la que desea escribir.

  • Compression: obligatorio: cadena UTF-8 (valores válidos: uncompressed="UNCOMPRESSED" | snappy="SNAPPY").

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • FormatObligatorio: cadena UTF-8 (valores válidos: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    Especifica el formato de salida de datos para el destino.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica opciones de conexión adicionales para el conector.

  • SchemaChangePolicy: un objeto DirectSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

DirectSchemaChangePolicy estructura

Una política que especifica los comportamientos de actualización del rastreador.

Campos
  • EnableUpdateCatalog: booleano.

    Si utilizar o no el comportamiento de actualización especificado cuando el rastreador encuentra un esquema cambiado.

  • UpdateBehavior: cadena UTF-8 (valores válidos: UPDATE_IN_DATABASE | LOG).

    Comportamiento de actualización cuando el rastreador encuentra un esquema cambiado.

  • Table: cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica la tabla de la base de datos a la que se aplica la política de cambio de esquema.

  • Database: cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica la base de datos a la que se aplica la política de cambio de esquema.

ApplyMapping estructura

Especifica una transformación que asigna claves de propiedad de datos en el origen de datos a claves de propiedad de datos en el destino de datos. Puede cambiar el nombre de las claves, modificar los tipos de datos de las claves y elegir las claves que desea descartar del conjunto de datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • Mapping (obligatorio): una matriz de objetos Correspondencia.

    Especifica la asignación de claves de propiedad de datos en el origen de datos a claves de propiedad de datos en el destino de datos.

Estructura de asignación

Especifica la asignación de claves de propiedad de datos.

Campos
  • ToKey: cadena UTF-8 que coincide con el Custom string pattern #40.

    Después de aplicar la asignación, cuál debe ser el nombre de la columna. Puede ser igual que FromPath.

  • FromPath: matriz de cadenas UTF-8.

    La tabla o columna que se va a modificar.

  • FromType: cadena UTF-8 que coincide con el Custom string pattern #40.

    El tipo de datos que se van a modificar.

  • ToType: cadena UTF-8 que coincide con el Custom string pattern #40.

    El tipo de datos al que se van a modificar los datos.

  • Dropped: booleano.

    Si se establece en verdadero, se quita la columna.

  • Children: matriz de objetos Correspondencia.

    Solo aplicable a estructuras de datos anidadas. Si desea cambiar la estructura principal, pero también una de las secundarias, puede rellenar esta estructura de datos. También es Mapping, pero su FromPath será el FromPath de la principal más el FromPath de esta estructura.

    Para las partes secundarias, suponga que tiene la estructura:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

    Puede especificar una Mapping que tiene este aspecto:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

SelectFields estructura

Especifica una transformación que elige las claves de propiedad de datos que desea conservar.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • Paths: obligatorio: una matriz de cadenas UTF-8.

    Una ruta JSON a una variable de la estructura de datos.

DropFields estructura

Especifica una transformación que elige las claves de propiedad de datos que desea eliminar.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • Paths: obligatorio: una matriz de cadenas UTF-8.

    Una ruta JSON a una variable de la estructura de datos.

RenameField estructura

Especifica una transformación que cambia el nombre de una única clave de propiedad de datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • SourcePath: obligatorio: una matriz de cadenas UTF-8.

    Una ruta JSON a una variable de la estructura de datos de los datos de origen.

  • TargetPath: obligatorio: una matriz de cadenas UTF-8.

    Una ruta JSON a una variable de la estructura de datos de los datos de destino.

Estructura Spigot

Especifica una transformación que escribe ejemplos de los datos en un bucket de Amazon S3.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • Path: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    Una ruta en Amazon S3 donde la transformación escribe un subconjunto de registros del conjunto de datos en un archivo JSON en un bucket de Amazon S3.

  • Topk: número (entero), 100 como máximo.

    Especifica un número de registros que se escribirán a partir del principio del conjunto de datos.

  • Prob: número (doble), 1 como máximo.

    La probabilidad (un valor decimal con un valor máximo de 1) de seleccionar un registro determinado. Un valor 1 indica que cada fila leída del conjunto de datos debe incluirse en la salida de ejemplo.

Estructura Join

Especifica una transformación que une dos conjuntos de datos en uno mediante una frase de comparación en las claves de propiedad de datos especificadas. Puede utilizar combinaciones interna, externa, izquierda, derecha, semicombinación izquierda y anticombinación izquierda.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con 2 cadenas como mínimo y 2 cadenas como máximo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • JoinType Obligatorio: cadena UTF-8 (valores válidos: equijoin="EQUIJOIN" | left="LEFT" | right="RIGHT" | outer="OUTER" | leftsemi="LEFT_SEMI" | leftanti="LEFT_ANTI").

    Especifica el tipo de unión que se va a realizar en los conjuntos de datos.

  • Columns: Obligatorio: una matriz de objetos JoinColumn, con 2 estructuras como mínimo y 2 estructuras como máximo.

    Una lista de las dos columnas que se van a unir.

JoinColumn estructura

Especifica una columna que se va a unir.

Campos
  • From: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    La columna que se va a unir.

  • Keys: obligatorio: una matriz de cadenas UTF-8.

    La clave de la columna que se va a unir.

SplitFields estructura

Especifica una transformación que divide las claves de propiedad de datos en dos DynamicFrames. La salida es una recopilación de DynamicFrames: uno con las claves de propiedad de datos seleccionadas y el otro con las claves de propiedad de datos restantes.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • Paths: obligatorio: una matriz de cadenas UTF-8.

    Una ruta JSON a una variable de la estructura de datos.

SelectFromCollection estructura

Especifica una transformación que elige un DynamicFrame de una recopilación de DynamicFrames. El resultado es el DynamicFrame seleccionado

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • IndexObligatorio: número (entero), cero como máximo.

    El índice del DynamicFrame que se va a seleccionar.

FillMissingValues estructura

Especifica una transformación que localiza registros en el conjunto de datos que tienen valores faltantes y agrega un nuevo campo con un valor determinado por imputación. El conjunto de datos de entrada se utiliza para formar al modelo de machine learning que determina cuál debe ser el valor que falta.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • ImputedPath: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    Una ruta JSON a una variable de la estructura de datos del conjunto de datos que se imputa.

  • FilledPath: cadena UTF-8 que coincide con el Custom string pattern #40.

    Una ruta JSON a una variable de la estructura de datos del conjunto de datos que se rellena.

Estructura Filter

Especifica una transformación que divide un conjunto de datos en dos, en función de una condición de filtro.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • LogicalOperator: obligatorio: cadena UTF-8 (valores válidos: AND | OR).

    El operador utilizado para filtrar filas mediante la comparación del valor de clave con un valor especificado.

  • Filters (obligatorio): una matriz de objetos FilterExpression.

    Especifica una expresión de filtro.

FilterExpression estructura

Especifica una expresión de filtro.

Campos
  • OperationObligatorio: cadena UTF-8 (valores válidos: EQ | LT | GT | LTE | GTE | REGEX | ISNULL).

    El tipo de operación que se va a realizar en la expresión.

  • Negated: booleano.

    Si se va a negar la expresión.

  • Values (obligatorio): una matriz de objetos FilterValue.

    Una lista de valores de filtro.

FilterValue estructura

Representa una única entrada en la lista de valores de una FilterExpression.

Campos
  • Type: obligatorio: cadena UTF-8 (valores válidos: COLUMNEXTRACTED | CONSTANT).

    El tipo de valor de filtro.

  • Value: obligatorio: una matriz de cadenas UTF-8.

    El valor que se va a asociar.

CustomCode estructura

Especifica una transformación que utiliza el código personalizado que proporciona el usuario para llevar a cabo la transformación de datos. La salida es una colección de DynamicFrames.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • Code: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #35.

    El código personalizado que se utiliza para llevar a cabo la transformación de datos.

  • ClassName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre definido para la clase de nodo de código personalizado.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para la transformación de código personalizada.

Estructura SparkSQL

Especifica una transformación en la que se ingresa una consulta SQL mediante la sintaxis de Spark SQL para transformar los datos. La salida es un único DynamicFrame.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo.

    Las entradas de datos identificadas por los nombres de sus nodos. Puede asociar un nombre de tabla a cada nodo de entrada para utilizarlo en la consulta SQL. El nombre que elija debe cumplir las restricciones de nomenclatura de Spark SQL.

  • SqlQuery: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #42.

    Una consulta SQL que debe utilizar la sintaxis de Spark SQL y devolver un único conjunto de datos.

  • SqlAliases (obligatorio): una matriz de objetos SqlAlias.

    Una lista de alias. Un alias permite especificar qué nombre se va a utilizar en SQL para una entrada determinada. Por ejemplo, tiene una fuente de datos llamada "»MyDataSource. Si especificas From como y Alias como MyDataSource SqlName, entonces en tu SQL puedes hacer lo siguiente:

    select * from SqlName

    y eso obtiene datos de MyDataSource.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para la transformación de SparkSQL.

SqlAlias estructura

Representa una única entrada en la lista de valores de SqlAliases.

Campos
  • From: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #39.

    Una tabla o columna de una tabla.

  • Alias: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #41.

    Un nombre temporal dado a una tabla o a una columna de una tabla.

DropNullFields estructura

Especifica una transformación que elimina columnas del conjunto de datos si todos los valores de la columna son “nulos”. De forma predeterminada, AWS Glue Studio reconocerá los objetos nulos, pero algunos valores, como las cadenas vacías, las cadenas «nulas», los enteros -1 u otros marcadores de posición, como ceros, no se reconocen automáticamente como nulos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • NullCheckBoxList: un objeto NullCheckBoxList.

    Una estructura que representa si ciertos valores se reconocen como valores nulos para su eliminación.

  • NullTextList: matriz de objetos NullValueField, con 50 estructuras como máximo.

    Estructura que especifica una lista de NullValueField estructuras que representan un valor nulo personalizado, como cero u otro valor, que se utiliza como marcador de posición nulo exclusivo del conjunto de datos.

    La transformación DropNullFields elimina los valores nulos personalizados solo si tanto el valor del marcador de posición nulo como el tipo de datos coinciden con los datos.

NullCheckBoxList estructura

Representa si ciertos valores se reconocen como valores nulos para su eliminación.

Campos
  • IsEmpty: booleano.

    Especifica que una cadena vacía se considera un valor nulo.

  • IsNullString: booleano.

    Especifica que un valor que deletrea la palabra “nulo” se considera un valor nulo.

  • IsNegOne: booleano.

    Especifica que un valor entero de -1 se considera un valor nulo.

NullValueField estructura

Representa un valor nulo personalizado, como ceros u otro valor que se utiliza como marcador de posición nulo exclusivo del conjunto de datos.

Campos
  • Value: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El valor del marcador de posición nulo.

  • Datatype: obligatorio: objeto Tipo de datos.

    El tipo de datos del valor.

Estructura Datatype

Una estructura que representa el tipo de datos del valor.

Campos

Estructura Merge

Especifica una transformación que fusiona un DynamicFrame con una instancia provisional de DynamicFrame en función de las claves principales especificadas para identificar registros. Los registros duplicados (registros con las mismas claves principales) no se eliminan.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con 2 cadenas como mínimo y 2 cadenas como máximo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • Source: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #39.

    El DynamicFrame de origen que se fusionará con un DynamicFrame de instancia provisional.

  • PrimaryKeys: obligatorio: una matriz de cadenas UTF-8.

    La lista de campos de clave principal para hacer coincidir los registros de los marcos dinámicos de origen y provisionales.

Estructura Union

Especifica una transformación que combina las filas de dos o más conjuntos de datos en un único resultado.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con 2 cadenas como mínimo y 2 cadenas como máximo.

    Las entradas del ID de nodo a la transformación.

  • UnionType: obligatorio: cadena UTF-8 (valores válidos: ALL | DISTINCT).

    Indica el tipo de transformación de combinación.

    Especifique ALL unir todas las filas de las fuentes de datos a las resultantes DynamicFrame. La combinación resultante no elimina las filas duplicadas.

    Especifique DISTINCT si desea eliminar las filas duplicadas del resultado DynamicFrame.

Estructura PIIDetection

Especifica una transformación que identifica, elimina o enmascara datos PII.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Las entradas del ID de nodo a la transformación.

  • PiiType: obligatorio: cadena UTF-8 (valores válidos: RowAudit | RowMasking | ColumnAudit | ColumnMasking).

    Indica el tipo de transformación PIIDDetection.

  • EntityTypesToDetect: obligatorio: una matriz de cadenas UTF-8.

    Indica los tipos de entidades que la transformación PIIDProtection identificará como datos PII.

    Las entidades de tipo PII incluyen: PERSON_NAME, DATE, USA_SNN, EMAIL, USA_ITIN, USA_PASSPORT_NUMBER, PHONE_NUMBER, BANK_ACCOUNT, IP_ADDRESS, MAC_ADDRESS, USA_CPT_CODE, USA_HCPCS_CODE, USA_NATIONAL_DRUG_CODE, USA_MEDICARE_BENEFICIARY_IDENTIFIER, USA_HEALTH_INSURANCE_CLAIM_NUMBER,CREDIT_CARD,USA_NATIONAL_PROVIDER_IDENTIFIER,USA_DEA_NUMBER,USA_DRIVING_LICENSE

  • OutputColumnName: cadena UTF-8 que coincide con el Custom string pattern #40.

    Indica el nombre de columna de salida que contendrá cualquier tipo de entidad detectado en esa fila.

  • SampleFraction: número (doble), 1 como máximo.

    Indica la fracción de los datos que se van a muestrear al buscar entidades PII.

  • ThresholdFraction: número (doble), 1 como máximo.

    Indica la fracción de los datos que deben cumplirse para que una columna se identifique como datos de PII.

  • MaskValue: cadena UTF-8, de 256 bytes de largo como máximo, que coincide con Custom string pattern #37.

    Indica el valor que sustituirá a la entidad detectada.

Estructura Aggregate

Especifica una transformación que agrupa las filas según los campos elegidos y calcula el valor agregado mediante una función especificada.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Especifica los campos y filas que se utilizarán como entradas para la transformación agregada.

  • Groups: obligatorio: una matriz de cadenas UTF-8.

    Especifica los campos para agrupar.

  • Aggs: obligatorio: una matriz de objetos AggregateOperation, con 1 estructura como mínimo y 30 estructuras como máximo.

    Especifica las funciones agregadas que se van a realizar en campos especificados.

DropDuplicates estructura

Especifica una transformación que elimina las filas de datos repetidos de un conjunto de datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de transformación.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • Columns: matriz de cadenas UTF-8.

    Nombre de las columnas que se van a fusionar o eliminar si se repiten.

GovernedCatalogTarget estructura

Especifica un destino de datos que escribe en Amazon S3 mediante el catálogo AWS Glue de datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys: matriz de cadenas UTF-8.

    Especifica la partición nativa mediante una secuencia de claves.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la tabla de la base de datos de escritura.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El nombre de la base de datos de escritura.

  • SchemaChangePolicy: un objeto CatalogSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del catálogo gobernado.

GovernedCatalogSource estructura

Especifica el banco de datos del catálogo AWS Glue de datos regulado.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del almacén de datos.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    La base de datos de lectura.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    La tabla de base de datos de lectura.

  • PartitionPredicate: cadena UTF-8 que coincide con el Custom string pattern #40.

    Se eliminan las particiones que cumplen con este predicado. Los archivos comprendidos en el período de retención de estas particiones no se eliminan. Configurar en "", valor vacío de forma predeterminada.

  • AdditionalOptions: un objeto S3 SourceAdditionalOptions.

    Especifica opciones de conexión adicionales.

AggregateOperation estructura

Especifica el conjunto de parámetros necesarios para llevar a cabo la agregación en la transformación de agregación.

Campos
  • Column: obligatorio: una matriz de cadenas UTF-8.

    Especifica la columna del conjunto de datos en la que se aplicará la función de agregación.

  • AggFunc: obligatorio: cadena UTF-8 (valores válidos: avg | countDistinct | count | first | last | kurtosis | max | min | skewness | stddev_samp | stddev_pop | sum | sumDistinct | var_samp | var_pop).

    Especifica la función de agregación que se aplicará.

    Las posibles funciones de agregación incluyen: avg countDistinct, count, first, last, kurtosis, max, min, skewness, stddev_samp, stddev_pop, sum, sumDistinct, var_samp, var_pop

GlueSchema estructura

Especifica un esquema definido por el usuario cuando un esquema no puede determinarse mediante AWS Glue.

Campos
  • Columns: matriz de objetos GlueStudioSchemaColumn.

    Especifica las definiciones de columnas que componen un AWS Glue esquema.

GlueStudioSchemaColumn estructura

Especifica una sola columna en una definición AWS Glue de esquema.

Campos
  • NameObligatorio: cadena UTF-8, de 1024 bytes de largo como máximo, que coincide con Single-line string pattern.

    El nombre de la columna en el esquema de AWS Glue Studio.

  • Type: cadena UTF-8 con un máximo de 131072 bytes de largo, que coincide con el Single-line string pattern.

    El tipo de colmena de esta columna en el esquema de AWS Glue Studio.

GlueStudioColumn estructura

Especifica una sola columna en AWS Glue Studio.

Campos
  • Key: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #41.

    La clave de la columna en AWS Glue Studio.

  • FullPath: obligatorio: una matriz de cadenas UTF-8.

    La URL completa de la columna en AWS Glue Studio.

  • TypeObligatorio: matriz UTF-8 (valores válidos: array="ARRAY" | bigint="BIGINT" | bigint array="BIGINT_ARRAY" | binary="BINARY" | binary array="BINARY_ARRAY" | boolean="BOOLEAN" | boolean array="BOOLEAN_ARRAY" | byte="BYTE" | byte array="BYTE_ARRAY" | char="CHAR" | char array="CHAR_ARRAY" | choice="CHOICE" | choice array="CHOICE_ARRAY" | date="DATE" | date array="DATE_ARRAY" | decimal="DECIMAL" | decimal array="DECIMAL_ARRAY" | double="DOUBLE" | double array="DOUBLE_ARRAY" | enum="ENUM" | enum array="ENUM_ARRAY" | float="FLOAT" | float array="FLOAT_ARRAY" | int="INT" | int array="INT_ARRAY" | interval="INTERVAL" | interval array="INTERVAL_ARRAY" | long="LONG" | long array="LONG_ARRAY" | object="OBJECT" | short="SHORT" | short array="SHORT_ARRAY" | smallint="SMALLINT" | smallint array="SMALLINT_ARRAY" | string="STRING" | string array="STRING_ARRAY" | timestamp="TIMESTAMP" | timestamp array="TIMESTAMP_ARRAY" | tinyint="TINYINT" | tinyint array="TINYINT_ARRAY" | varchar="VARCHAR" | varchar array="VARCHAR_ARRAY" | null="NULL" | unknown="UNKNOWN" | unknown array="UNKNOWN_ARRAY").

    El tipo de columna en AWS Glue Studio.

  • Children: un conjunto de estructuras.

    Los hijos de la columna principal en AWS Glue Studio.

DynamicTransform estructura

Especifica el conjunto de parámetros necesarios para hacer la transformación dinámica.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica el nombre de la transformación dinámica.

  • TransformName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica el nombre de la transformación dinámica tal como aparece en el editor visual de AWS Glue Studio.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Especifica las entradas necesarias para la transformación dinámica.

  • Parameters: matriz de objetos TransformConfigParameter.

    Especifica los parámetros de la transformación dinámica.

  • FunctionName: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica el nombre de la función de la transformación dinámica.

  • Path: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica la ruta de los archivos de origen y de configuración de la transformación dinámica.

  • Version: cadena UTF-8 que coincide con el Custom string pattern #40.

    Este campo no se utiliza y quedará en desuso en la versión futura.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para la transformación dinámica.

TransformConfigParameter estructura

Especifica los parámetros de la transformación dinámica en el archivo de configuración.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica el nombre del parámetro de la transformación dinámica en el archivo de configuración.

  • TypeObligatorio: cadena UTF-8 (valores válidos: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL").

    Especifica el tipo de parámetro de la transformación dinámica en el archivo de configuración.

  • ValidationRule: cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica la regla de validación de la transformación dinámica en el archivo de configuración.

  • ValidationMessage: cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica el mensaje de validación de la transformación dinámica en el archivo de configuración.

  • Value: matriz de cadenas UTF-8.

    Especifica el valor del parámetro de la transformación dinámica en el archivo de configuración.

  • ListType: cadena UTF-8 (valores válidos: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL").

    Especifica el tipo de lista del parámetro de la transformación dinámica en el archivo de configuración.

  • IsOptional: booleano.

    Especifica si es opcional o no el parámetro de la transformación dinámica en el archivo de configuración.

EvaluateDataQuality estructura

Especifica los criterios de evaluación de la calidad de los datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre de la evaluación de la calidad de los datos.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Las entradas de la evaluación de la calidad de los datos.

  • Ruleset: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 65 536 bytes de largo como máximo, que coincide con Custom string pattern #38.

    El conjunto de reglas para la evaluación de la calidad de los datos.

  • Output: cadena UTF-8 (valores válidos: PrimaryInput | EvaluationResults).

    La salida de la evaluación de la calidad de los datos.

  • PublishingOptions: un objeto DQ ResultsPublishingOptions.

    Opciones para configurar cómo se publican los resultados.

  • StopJobOnFailureOptions: un objeto DQ StopJobOnFailureOptions.

    Opciones para configurar la forma en que se detendrá el trabajo si se produce un error en la evaluación de la calidad de los datos.

estructura DQ ResultsPublishingOptions

Opciones para configurar cómo se publican los resultados de la evaluación de la calidad de los datos.

Campos
  • EvaluationContext: cadena UTF-8 que coincide con el Custom string pattern #39.

    El contexto de la evaluación.

  • ResultsS3Prefix: cadena UTF-8 que coincide con el Custom string pattern #40.

    El prefijo de Amazon S3 se antepuso a los resultados.

  • CloudWatchMetricsEnabled: booleano.

    Habilite las métricas de los resultados de la calidad de datos.

  • ResultsPublishingEnabled: booleano.

    Habilite la publicación de los resultados de la calidad de datos.

Estructura DQ StopJobOnFailureOptions

Opciones para configurar la forma en que se detendrá el trabajo si se produce un error en la evaluación de la calidad de los datos.

Campos
  • StopJobOnFailureTiming: cadena UTF-8 (valores válidos: Immediate | AfterDataLoad).

    Cuándo detener el trabajo si se produce un error en la evaluación de la calidad de los datos. Las opciones son inmediatas o. AfterDataLoad

EvaluateDataQualityMultiFrame estructura

Especifica los criterios de evaluación de la calidad de los datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre de la evaluación de la calidad de los datos.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo.

    Las entradas de la evaluación de la calidad de los datos. La primera entrada en esta lista es el origen de datos principal.

  • AdditionalDataSources: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #43.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Los alias de todas los orígenes de datos excepto las principales.

  • Ruleset: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 65 536 bytes de largo como máximo, que coincide con Custom string pattern #38.

    El conjunto de reglas para la evaluación de la calidad de los datos.

  • PublishingOptions: un objeto DQ ResultsPublishingOptions.

    Opciones para configurar cómo se publican los resultados.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 (valores válidos: performanceTuning.caching="CacheOption" | observations.scope="ObservationsOption").

    Cada valor es una cadena UTF-8.

    Opciones para configurar el comportamiento de la transformación en tiempo de ejecución.

  • StopJobOnFailureOptions: un objeto DQ StopJobOnFailureOptions.

    Opciones para configurar la forma en que se detendrá el trabajo si se produce un error en la evaluación de la calidad de los datos.

Estructura de receta

Un nodo de AWS Glue Studio que usa una AWS Glue DataBrew receta en los AWS Glue trabajos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del nodo de AWS Glue Studio.

  • Inputs: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos de entrada al nodo de la receta, identificados mediante el ID.

  • RecipeReference: obligatorio: objeto RecipeReference.

    Una referencia a la DataBrew receta utilizada por el nodo.

RecipeReference estructura

Referencia a una AWS Glue DataBrew receta.

Campos
  • RecipeArn: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    El ARN de la DataBrew receta.

  • RecipeVersion - Obligatorio: cadena UTF-8, con no menos de 1 byte de largo o más de 16.

    El RecipeVersion de la DataBrew receta.

SnowflakeNodeData estructura

Especifica la configuración de los nodos de Snowflake en AWS Glue Studio.

Campos
  • SourceType: cadena UTF-8 que coincide con el Custom string pattern #39.

    Especifica cómo se especifican los datos recuperados. Valores válidos: "table", "query".

  • Connection: un objeto Opción.

    Especifica una conexión del catálogo AWS Glue de datos a un punto final de Snowflake.

  • Schema: cadena UTF-8.

    Especifica un esquema de base de datos de Snowflake para que lo utilice el nodo.

  • Table: cadena UTF-8.

    Especifica una tabla de Snowflake para que lo utilice el nodo.

  • Database: cadena UTF-8.

    Especifica una base de datos de Snowflake para que lo utilice el nodo.

  • TempDir: cadena UTF-8 que coincide con el Custom string pattern #40.

    En la actualidad no se utiliza.

  • IamRole: un objeto Opción.

    En la actualidad no se utiliza.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #40.

    Especifica opciones adicionales que se pasan al conector de Snowflake. Si las opciones se especifican en otra parte de este nodo, esto tendrá prioridad.

  • SampleQuery: cadena UTF-8.

    Una cadena de SQL que se utiliza para recuperar datos con el sourcetype query.

  • PreAction: cadena UTF-8.

    Una cadena de SQL que se ejecuta antes de que el conector Snowflake lleve a cabo sus acciones estándar.

  • PostAction: cadena UTF-8.

    Una cadena SQL que se ejecuta después de que el conector Snowflake lleve a cabo sus acciones estándar.

  • Action: cadena UTF-8.

    Especifica qué acción se debe realizar al escribir en una tabla con datos preexistentes. Valores válidos: append, merge, truncate, drop.

  • Upsert: booleano.

    Se utiliza cuando Action es append. Especifica el comportamiento de la resolución cuando ya existe una fila. Si es verdadero, se actualizarán las filas preexistentes. Si es falso, se insertarán esas filas.

  • MergeAction: cadena UTF-8 que coincide con el Custom string pattern #39.

    Especifica una acción de combinación. Valores válidos: simple, custom. Si es simple, el comportamiento de combinación se define mediante MergeWhenMatched y MergeWhenNotMatched. Si es personalizado, se define mediante MergeClause.

  • MergeWhenMatched: cadena UTF-8 que coincide con el Custom string pattern #39.

    Especifica cómo resolver los registros que coinciden con datos preexistentes al combinarlos. Valores válidos: update, delete.

  • MergeWhenNotMatched: cadena UTF-8 que coincide con el Custom string pattern #39.

    Especifica cómo procesar los registros que no coinciden con los datos preexistentes al combinarlos. Valores válidos: insert, none.

  • MergeClause: cadena UTF-8.

    Una instrucción de SQL que especifica un comportamiento de combinación personalizado.

  • StagingTable: cadena UTF-8.

    El nombre de una tabla de preparación que se utiliza al realizar acciones merge o upsert append. Los datos se escriben en esta tabla y, a continuación, se mueven a table mediante una acción posterior generada.

  • SelectedColumns: matriz de objetos Opción.

    Especifica las columnas combinadas para identificar un registro al detectar coincidencias de combinaciones y alteraciones. Una lista de estructuras con claves value, label y description. Cada estructura describe una columna.

  • AutoPushdown: booleano.

    Especifica si está habilitada la función automática de consultas pushdown. Si la función pushdown está habilitada, cuando se ejecuta una consulta en Spark, si parte de la consulta se puede “enviar” al servidor de Snowflake, se empuja hacia abajo. Esto mejora el rendimiento de algunas consultas.

  • TableSchema: matriz de objetos Opción.

    Define manualmente el esquema de destino del nodo. Una lista de estructuras con claves value, label y description. Cada estructura describe una columna.

SnowflakeSource estructura

Especifica un origen de datos de Snowflake.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del origen de datos de Snowflake.

  • Data: obligatorio: objeto SnowflakeNodeData.

    Configuración del origen de datos de Snowflake.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica los esquemas definidos por el usuario para los datos de salida.

SnowflakeTarget estructura

Especifica un destino de Snowflake.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre del origen de Snowflake.

  • Data: obligatorio: objeto SnowflakeNodeData.

    Especifica los datos del nodo de destino de Snowflake.

  • Inputs: matriz de cadenas UTF-8, no menos de una cadena o más de una.

    Los nodos que son entradas para el destino de datos.

ConnectorDataSource estructura

Especifica una fuente generada con opciones de conexión estándar.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre de este nodo de origen.

  • ConnectionType: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    ElconnectionType, tal como se proporciona a la AWS Glue biblioteca subyacente. Este tipo de nodo admite los siguientes tipos de conexión:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • DataObligatorio: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8.

    Cada valor es una cadena UTF-8.

    Un mapa que especifica opciones de conexión para el nodo. Puede encontrar las opciones de conexión estándar para el tipo de conexión correspondiente en la sección Parámetros de conexión de la AWS Glue documentación.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para este origen.

ConnectorDataTarget estructura

Especifica un destino generado con opciones de conexión estándar.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #43.

    El nombre de este nodo de destino.

  • ConnectionType: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #40.

    ElconnectionType, tal como se proporciona a la AWS Glue biblioteca subyacente. Este tipo de nodo admite los siguientes tipos de conexión:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • DataObligatorio: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8.

    Cada valor es una cadena UTF-8.

    Un mapa que especifica opciones de conexión para el nodo. Puede encontrar las opciones de conexión estándar para el tipo de conexión correspondiente en la sección Parámetros de conexión de la AWS Glue documentación.

  • Inputs: matriz de cadenas UTF-8, no menos de una cadena o más de una.

    Los nodos que son entradas para el destino de datos.