Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
API de Visual Job
La API de Visual Job le permite crear trabajos de integración de datos mediante la API de AWS Glue a partir de un objeto JSON que representa una configuración visual de un trabajo de AWS Glue.
Se proporciona una lista de CodeGenConfigurationNodes
a una API de creación o actualización de trabajos a fin de registrar un DAG en AWS Glue Studio para el trabajo creado y generar el código asociado.
Tipos de datos
CodeGenConfigurationNode estructura
CodeGenConfigurationNode
enumera todos los tipos de nodos válidos. Se puede completar una y solo una de sus variables miembro.
Campos
-
AthenaConnectorSource
: objeto AthenaConnectorSource.Especifica un conector a un origen de datos de Amazon Athena.
-
JDBCConnectorSource
: objeto JDBCConnectorSource.Especifica un conector a un origen de datos JDBC.
-
SparkConnectorSource
: objeto SparkConnectorSource.Especifica un conector a un origen de datos de Apache Spark.
-
CatalogSource
: objeto CatalogSource.Especifica un almacén de datos en AWS Glue Data Catalog.
-
RedshiftSource
: objeto RedshiftSource.Especifica un almacén de datos de Amazon Redshift.
-
S3CatalogSource
: objeto S3CatalogSource.Especifica un almacén de datos de Amazon S3 en AWS Glue Data Catalog.
-
S3CsvSource
: objeto S3CsvSource.Especifica un almacén de datos de valores separados por comas (CSV) almacenado en Amazon S3.
-
S3JsonSource
: objeto S3JsonSource.Especifica un almacén de datos JSON almacenado en Amazon S3.
-
S3ParquetSource
: objeto S3ParquetSource.Especifica un almacén de datos de Apache Parquet almacenado en Amazon S3.
-
RelationalCatalogSource
: objeto RelationalCatalogSource.Especifica un almacén de datos de catálogo relacional en el Catálogo de datos de AWS Glue.
-
DynamoDBCatalogSource
: objeto DynamoDBCatalogSource.Especifica un almacén de datos del catálogo de DynamoDBC en el Catálogo de datos de AWS Glue.
-
JDBCConnectorTarget
: objeto JDBCConnectorTarget.Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.
-
SparkConnectorTarget
: objeto SparkConnectorTarget.Especifica un destino que utiliza un conector de Apache Spark.
-
CatalogTarget
: objeto BasicCatalogTarget.Especifica un destino que utiliza una tabla de AWS Glue Data Catalog.
-
RedshiftTarget
: objeto RedshiftTarget.Especifica un destino que utiliza Amazon Redshift.
-
S3CatalogTarget
: objeto S3CatalogTarget.Especifica un destino de datos que escribe en Amazon S3 mediante AWS Glue Data Catalog.
-
S3GlueParquetTarget
: objeto S3GlueParquetTarget.Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.
-
S3DirectTarget
: objeto S3DirectTarget.Especifica un destino de datos que escribe en Amazon S3.
-
ApplyMapping
: objeto ApplyMapping.Especifica una transformación que asigna claves de propiedad de datos en el origen de datos a claves de propiedad de datos en el destino de datos. Puede cambiar el nombre de las claves, modificar los tipos de datos de las claves y elegir las claves que desea descartar del conjunto de datos.
-
SelectFields
: objeto SelectFields.Especifica una transformación que elige las claves de propiedad de datos que desea conservar.
-
DropFields
: objeto DropFields.Especifica una transformación que elige las claves de propiedad de datos que desea eliminar.
-
RenameField
: objeto RenameField.Especifica una transformación que cambia el nombre de una única clave de propiedad de datos.
-
Spigot
: objeto Spigot.Especifica una transformación que escribe ejemplos de los datos en un bucket de Amazon S3.
-
Join
: objeto Join.Especifica una transformación que une dos conjuntos de datos en uno mediante una frase de comparación en las claves de propiedad de datos especificadas. Puede utilizar combinaciones interna, externa, izquierda, derecha, semicombinación izquierda y anticombinación izquierda.
-
SplitFields
: objeto SplitFields.Especifica una transformación que divide las claves de propiedad de datos en dos
DynamicFrames
. La salida es una recopilación deDynamicFrames
: uno con las claves de propiedad de datos seleccionadas y el otro con las claves de propiedad de datos restantes. -
SelectFromCollection
: objeto SelectFromCollection.Especifica una transformación que elige un
DynamicFrame
de una recopilación deDynamicFrames
. El resultado es elDynamicFrame
seleccionado -
FillMissingValues
: objeto FillMissingValues.Especifica una transformación que localiza registros en el conjunto de datos que tienen valores faltantes y agrega un nuevo campo con un valor determinado por imputación. El conjunto de datos de entrada se utiliza para formar al modelo de machine learning que determina cuál debe ser el valor que falta.
-
Filter
: objeto Filtro.Especifica una transformación que divide un conjunto de datos en dos, en función de una condición de filtro.
-
CustomCode
: objeto CustomCode.Especifica una transformación que utiliza el código personalizado que proporciona el usuario para llevar a cabo la transformación de datos. La salida es una recopilación de DynamicFrames.
-
SparkSQL
: objeto SparkSQL.Especifica una transformación en la que se ingresa una consulta SQL mediante la sintaxis de Spark SQL para transformar los datos. La salida es un único
DynamicFrame
. -
DirectKinesisSource
: objeto DirectKinesisSource.Especifica un origen de datos directo de Amazon Kinesis.
-
DirectKafkaSource
: objeto DirectKafkaSource.Especifica un almacén de datos de Apache Kafka.
-
CatalogKinesisSource
: objeto CatalogKinesisSource.Especifica un origen de datos de Kinesis en AWS Glue Data Catalog.
-
CatalogKafkaSource
: objeto CatalogKafkaSource.Especifica un almacén de datos de Apache Kafka en Data Catalog.
-
DropNullFields
: objeto DropNullFields.Especifica una transformación que elimina columnas del conjunto de datos si todos los valores de la columna son “nulos”. De forma predeterminada, AWS Glue Studio reconocerá los objetos nulos, pero algunos valores, como las cadenas vacías, las cadenas que son “nulas”, los enteros -1 u otros marcadores de posición, como los ceros, no se reconocen de manera automática como nulos.
-
Merge
: objeto Merge.Especifica una transformación que fusiona un
DynamicFrame
con una instancia provisional deDynamicFrame
en función de las claves principales especificadas para identificar registros. Los registros duplicados (registros con las mismas claves principales) no se eliminan. -
Union
: objeto Unión.Especifica una transformación que combina las filas de dos o más conjuntos de datos en un único resultado.
-
PIIDetection
: objeto PIIDetection.Especifica una transformación que identifica, elimina o enmascara datos PII.
-
Aggregate
: objeto Aggregate.Especifica una transformación que agrupa las filas según los campos elegidos y calcula el valor agregado mediante una función especificada.
-
DropDuplicates
: objeto DropDuplicates.Especifica una transformación que elimina las filas de datos repetidos de un conjunto de datos.
-
GovernedCatalogTarget
: objeto GovernedCatalogTarget.Especifica un destino de datos que escribe en un catálogo gobernado.
-
GovernedCatalogSource
: objeto GovernedCatalogSource.Especifica un origen de datos en un Data Catalog gobernado.
-
MicrosoftSQLServerCatalogSource
: objeto Microsoft SQLServerCatalogSource.Especifica un origen de datos de Microsoft SQL server en AWS Glue Data Catalog.
-
MySQLCatalogSource
: objeto MySQLCatalogSource.Especifica un origen de datos de MySQL en AWS Glue Data Catalog.
-
OracleSQLCatalogSource
: objeto Oracle SQLCatalogSource.Especifica un origen de datos de Oracle en AWS Glue Data Catalog.
-
PostgreSQLCatalogSource
: objeto PostgreSQLCatalogSource.Especifica un origen de datos de PostgreSQL en AWS Glue Data Catalog.
-
MicrosoftSQLServerCatalogTarget
: objeto Microsoft SQLServerCatalogTarget.Especifica un destino que utiliza Microsoft SQL.
-
MySQLCatalogTarget
: objeto MySQLCatalogTarget.Especifica un destino que utiliza MySQL.
-
OracleSQLCatalogTarget
: objeto Oracle SQLCatalogTarget.Especifica un destino que utiliza Oracle SQL.
-
PostgreSQLCatalogTarget
: objeto PostgreSQLCatalogTarget.Especifica un destino que utiliza PostgreSQL.
-
DynamicTransform
: objeto DynamicTransform.Especifica una transformación visual personalizada que haya creado un usuario.
-
EvaluateDataQuality
: objeto EvaluateDataQuality.Especifica los criterios de evaluación de la calidad de los datos.
-
S3CatalogHudiSource
: objeto S3CatalogHudiSource.Especifica un origen de datos de Hudi que está registrado en el Catálogo de datos de AWS Glue. El origen de datos debe almacenarse enAmazon S3.
-
CatalogHudiSource
: objeto CatalogHudiSource.Especifica un origen de datos de Hudi que está registrado en el Catálogo de datos de AWS Glue.
-
S3HudiSource
: objeto S3HudiSource.Especifica un origen de datos de Hudi almacenado en Amazon S3.
-
S3HudiCatalogTarget
: objeto S3HudiCatalogTarget.Especifica un destino que escribe en un origen de datos de Hudi en el Catálogo de datos de AWS Glue.
-
S3HudiDirectTarget
: objeto S3HudiDirectTarget.Especifica un destino que escribe en un origen de datos de Hudi en Amazon S3.
-
S3CatalogDeltaSource
: objeto S3CatalogDeltaSource.Especifica un origen de datos de Delta Lake que está registrado en el CatálogoAWS Glue de datos de. El origen de datos debe almacenarse enAmazon S3.
-
CatalogDeltaSource
: objeto CatalogDeltaSource.Especifica un origen de datos de Delta Lake que está registrado en el CatálogoAWS Glue de datos de.
-
S3DeltaSource
: objeto S3DeltaSource.Especifica un origen de datos de Delta Lake almacenado enAmazon S3.
-
S3DeltaCatalogTarget
: objeto S3DeltaCatalogTarget.Especifica un destino que escribe en un origen de datos de Delta Lake en el CatálogoAWS Glue de datos de.
-
S3DeltaDirectTarget
: objeto S3DeltaDirectTarget.Especifica un destino que escribe en un origen de datos de Delta Lake enAmazon S3.
ConnectorOptions Estructura JDBC
Opciones de conexión adicionales para el conector.
Campos
-
FilterPredicate
: cadena UTF-8 que coincide con el Custom string pattern #31.Cláusula de condición adicional para filtrar datos desde el origen. Por ejemplo:
BillingCity='Mountain View'
Cuando se utiliza una consulta en lugar de una tabla, se debe validar que la consulta funciona con el
filterPredicate
especificado. -
PartitionColumn
: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de una columna entera que se utiliza para particionar. Esta opción solo funciona cuando está incluida con
lowerBound
,upperBound
ynumPartitions
. Esta opción funciona de la misma manera que en el lector JDBC de Spark SQL. -
LowerBound
: número (largo), cero como máximo.El valor mínimo de
partitionColumn
que se utiliza para decidir el intervalo de partición. -
UpperBound
: número (largo), cero como máximo.El valor máximo de
partitionColumn
que se utiliza para decidir el intervalo de partición. -
NumPartitions
: número (largo), cero como máximo.El número de particiones. Este valor, junto con
lowerBound
(inclusive) yupperBound
(exclusivo), forma intervalos de partición para expresiones de la cláusulaWHERE
generadas, que se utilizan para dividir lapartitionColumn
. -
JobBookmarkKeys
: matriz de cadenas UTF-8.El nombre de las claves favoritas de trabajo en las que se ordenará.
-
JobBookmarkKeysSortOrder
: cadena UTF-8 que coincide con el Custom string pattern #31.Especifica el orden de clasificación ascendente o descendente.
-
DataTypeMapping
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 (valores válidos:
ARRAY
|BIGINT
|BINARY
|BIT
|BLOB
|BOOLEAN
|CHAR
|CLOB
|DATALINK
|DATE
|DECIMAL
|DISTINCT
|DOUBLE
|FLOAT
|INTEGER
|JAVA_OBJECT
|LONGNVARCHAR
|LONGVARBINARY
|LONGVARCHAR
|NCHAR
|NCLOB
|NULL
|NUMERIC
|NVARCHAR
|OTHER
|REAL
|REF
|REF_CURSOR
|ROWID
|SMALLINT
|SQLXML
|STRUCT
|TIME
|TIME_WITH_TIMEZONE
|TIMESTAMP
|TIMESTAMP_WITH_TIMEZONE
|TINYINT
|VARBINARY
|VARCHAR
).Cada valor es una cadena UTF-8 (valores válidos:
DATE
|STRING
|TIMESTAMP
|INT
|FLOAT
|LONG
|BIGDECIMAL
|BYTE
|SHORT
|DOUBLE
).Asignación de tipos de datos personalizada, que crea una asignación a partir de un tipo de datos JDBC a un tipo de datos de AWS Glue. Por ejemplo, la opción
"dataTypeMapping":{"FLOAT":"STRING"}
asigna campos de datos de tipo JDBCFLOAT
al tipo JavaString
al invocar el métodoResultSet.getString()
del controlador y lo utiliza para crear registros de AWS Glue. Cada controlador implementa el objetoResultSet
, por lo que el comportamiento es específico del controlador que se utiliza. Consulte la documentación del controlador JDBC para comprender cómo el controlador realiza las conversiones.
StreamingDataPreviewOptions estructura
Especifica las opciones relacionadas con la versión preliminar de datos para ver una muestra de los datos.
Campos
AthenaConnectorSource estructura
Especifica un conector a un origen de datos de Amazon Athena.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de datos.
-
ConnectionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la conexión asociada al conector.
-
ConnectorName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de un conector que ayuda a acceder al almacén de datos en AWS Glue Studio.
-
ConnectionType
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El tipo de conexión, como marketplace.athena o custom.athena, que designa una conexión a un almacén de datos de Amazon Athena.
-
ConnectionTable
: cadena UTF-8 que coincide con el Custom string pattern #32.El nombre de la tabla en el origen de datos.
-
SchemaName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre del grupo de registro de CloudWatch de lectura. Por ejemplo,
/aws-glue/jobs/output
. -
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de Athena personalizado.
ConnectorSource Estructura JDBC
Especifica un conector a un origen de datos JDBC.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de datos.
-
ConnectionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la conexión asociada al conector.
-
ConnectorName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de un conector que ayuda a acceder al almacén de datos en AWS Glue Studio.
-
ConnectionType
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El tipo de conexión, como marketplace.jdbc o custom.jdbc, que designa una conexión a un almacén de datos JDBC.
-
AdditionalOptions
: objeto JDBCConnectorOptions.Opciones de conexión adicionales para el conector.
-
ConnectionTable
: cadena UTF-8 que coincide con el Custom string pattern #32.El nombre de la tabla en el origen de datos.
-
Query
: cadena UTF-8 que coincide con el Custom string pattern #33.La tabla o consulta SQL de la que se obtienen los datos. Puede especificar
ConnectionTable
oquery
, pero no ambos. -
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de JDBC personalizado.
SparkConnectorSource estructura
Especifica un conector a un origen de datos de Apache Spark.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de datos.
-
ConnectionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la conexión asociada al conector.
-
ConnectorName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de un conector que ayuda a acceder al almacén de datos en AWS Glue Studio.
-
ConnectionType
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El tipo de conexión, como marketplace.spark o custom.spark, que designa una conexión a un almacén de datos de Apache Spark.
-
AdditionalOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #31.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #31.
Opciones de conexión adicionales para el conector.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de spark personalizado.
CatalogSource estructura
Especifica un almacén de datos en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del almacén de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla en la base de datos de lectura.
CatalogSource Estructura de MySQL
Especifica un origen de datos de MySQL en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla en la base de datos de lectura.
CatalogSource Estructura de PostgreSQL
Especifica un origen de datos de PostgreSQL en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla en la base de datos de lectura.
CatalogSource Estructura de OracleSQL
Especifica un origen de datos de Oracle en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla en la base de datos de lectura.
ServerCatalogSource Estructura de Microsoft SQL
Especifica un origen de datos de Microsoft SQL server en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla en la base de datos de lectura.
CatalogKinesisSource estructura
Especifica un origen de datos de Kinesis en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de datos.
-
WindowSize
: número (entero), cero como máximo.La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.
-
Si se debe determinar automáticamente el esquema a partir de los datos entrantes.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla en la base de datos de lectura.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de lectura.
-
StreamingOptions
: objeto KinesisStreamingSourceOptions.Opciones adicionales para el origen de datos de streaming de Kinesis.
-
DataPreviewOptions
: objeto StreamingDataPreviewOptions.Opciones adicionales para la versión preliminar de datos.
DirectKinesisSource estructura
Especifica un origen de datos directo de Amazon Kinesis.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de datos.
-
WindowSize
: número (entero), cero como máximo.La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.
-
Si se debe determinar automáticamente el esquema a partir de los datos entrantes.
-
StreamingOptions
: objeto KinesisStreamingSourceOptions.Opciones adicionales para el origen de datos de streaming de Kinesis.
-
DataPreviewOptions
: objeto StreamingDataPreviewOptions.Opciones adicionales para la versión preliminar de datos.
KinesisStreamingSourceOptions estructura
Opciones adicionales para el origen de datos de streaming de Amazon Kinesis.
Campos
-
EndpointUrl
: cadena UTF-8 que coincide con el Custom string pattern #31.La URL del punto de conexión de Kinesis.
-
StreamName
: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre del flujo de datos de Kinesis.
-
Classification
: cadena UTF-8 que coincide con el Custom string pattern #31.Una clasificación opcional.
-
Delimiter
: cadena UTF-8 que coincide con el Custom string pattern #31.Especifica el carácter delimitador.
-
StartingPosition
: cadena UTF-8 (valores válidos:latest="LATEST"
|trim_horizon="TRIM_HORIZON"
|earliest="EARLIEST"
).La posición inicial en el flujo de datos de Kinesis para leer los datos. Los valores posibles son
"latest"
,"trim_horizon"
, o"earliest"
. El valor predeterminado es"latest"
. -
MaxFetchTimeInMs
: número (largo), cero como máximo.El tiempo máximo empleado en el ejecutor de trabajos para obtener un registro del flujo de datos de Kinesis por partición, especificado en milisegundos (ms). El valor predeterminado es
1000
. -
MaxFetchRecordsPerShard
: número (largo), cero como máximo.El número máximo de registros que se recuperará por partición en el flujo de datos de Kinesis. El valor predeterminado es
100000
. -
MaxRecordPerRead
: número (largo), cero como máximo.El número máximo de registros que se recuperará del flujo de datos de Kinesis en cada operación getRecords. El valor predeterminado es
10000
. -
AddIdleTimeBetweenReads
: booleano.Agrega un retardo de tiempo entre dos operaciones getRecords consecutivas. El valor predeterminado es
"False"
. Esta opción sólo se puede configurar para Glue versión 2.0 y superior. -
IdleTimeBetweenReadsInMs
: número (largo), cero como máximo.El retardo de tiempo mínimo entre dos operaciones getRecords consecutivas, especificado en ms. El valor predeterminado es
1000
. Esta opción sólo se puede configurar para Glue versión 2.0 y superior. -
DescribeShardInterval
: número (largo), cero como máximo.El intervalo de tiempo entre dos llamadas a la ListShards API para que su script considere cambios en las particiones. El valor predeterminado es
1s
. -
NumRetries
: número (entero), cero como máximo.El número máximo de reintentos para las solicitudes de la API de Kinesis Data Streams. El valor predeterminado es
3
. -
RetryIntervalMs
: número (largo), cero como máximo.El periodo de enfriamiento (especificado en ms) antes de volver a intentar la llamada a la API de Kinesis Data Streams. El valor predeterminado es
1000
. -
MaxRetryIntervalMs
: número (largo), cero como máximo.El periodo de enfriamiento máximo (especificado en ms) entre dos intentos de llamada a la API de Kinesis Data Streams. El valor predeterminado es
10000
. -
Evita crear un trabajo de microlotes vacío al comprobar si hay datos no leídos en el flujo de datos de Kinesis antes de que se inicie el lote. El valor predeterminado es
"False"
. -
StreamArn
: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de recurso de Amazon (ARN) del flujo de datos de Kinesis.
-
RoleArn
: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de recurso de Amazon (ARN) del rol que se va a asumir mediante AWS Security Token Service (AWS STS). Este rol debe tener permisos para describir o leer operaciones de registros del flujo de datos de Kinesis. Debe utilizar este parámetro para acceder a un flujo de datos de otra cuenta. Se utiliza junto con
"awsSTSSessionName"
. -
RoleSessionName
: cadena UTF-8 que coincide con el Custom string pattern #31.Un identificador para la sesión que asume el rol mediante AWS STS. Debe utilizar este parámetro para acceder a un flujo de datos de otra cuenta. Se utiliza junto con
"awsSTSRoleARN"
. -
AddRecordTimestamp
: cadena UTF-8 que coincide con el Custom string pattern #31.Cuando esta opción se establece en “true”, la salida de datos contendrá una columna adicional denominada “__src_timestamp” que indica la hora en la que el flujo recibió el registro correspondiente. El valor predeterminado es "false". Esta opción es compatible con la versión 4.0 o posterior de AWS Glue.
-
EmitConsumerLagMetrics
: cadena UTF-8 que coincide con el Custom string pattern #31.Cuando esta opción se establece en «verdadera», para cada lote, emitirá las métricas correspondientes al período comprendido entre el registro más antiguo recibido por el flujo y el momento en que llegueAWS Glue a en CloudWatch. El nombre de la métrica es «glue.driver.flujo. maxConsumerLagInMs». El valor predeterminado es "false". Esta opción es compatible con la versión 4.0 o posterior de AWS Glue.
CatalogKafkaSource estructura
Especifica un almacén de datos de Apache Kafka en Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del almacén de datos.
-
WindowSize
: número (entero), cero como máximo.La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.
-
Si se debe determinar automáticamente el esquema a partir de los datos entrantes.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla en la base de datos de lectura.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de lectura.
-
StreamingOptions
: objeto KafkaStreamingSourceOptions.Especifica las opciones de streaming.
-
DataPreviewOptions
: objeto StreamingDataPreviewOptions.Especifica las opciones relacionadas con la versión preliminar de datos para ver una muestra de los datos.
DirectKafkaSource estructura
Especifica un almacén de datos de Apache Kafka.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del almacén de datos.
-
StreamingOptions
: objeto KafkaStreamingSourceOptions.Especifica las opciones de streaming.
-
WindowSize
: número (entero), cero como máximo.La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.
-
Si se debe determinar automáticamente el esquema a partir de los datos entrantes.
-
DataPreviewOptions
: objeto StreamingDataPreviewOptions.Especifica las opciones relacionadas con la versión preliminar de datos para ver una muestra de los datos.
KafkaStreamingSourceOptions estructura
Opciones adicionales para streaming.
Campos
-
BootstrapServers
: cadena UTF-8 que coincide con el Custom string pattern #31.Una lista de direcciones URL de servidor Bootstrap, por ejemplo, como
b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094
. Esta opción debe especificarse en la llamada a la API o definirse en los metadatos de la tabla en el Data Catalog. -
SecurityProtocol
: cadena UTF-8 que coincide con el Custom string pattern #31.El protocolo utilizado para la comunicación con los agentes. Los valores posibles son
"SSL"
o"PLAINTEXT"
. -
ConnectionName
: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la conexión.
-
TopicName
: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre del tema como se especifica en Apache Kafka. Debe especificar al menos una opción entre
"topicName"
,"assign"
o"subscribePattern"
. -
Assign
: cadena UTF-8 que coincide con el Custom string pattern #31.Las
TopicPartitions
específicas que se utilizarán. Debe especificar al menos una opción entre"topicName"
,"assign"
o"subscribePattern"
. -
SubscribePattern
: cadena UTF-8 que coincide con el Custom string pattern #31.Una cadena de expresiones regulares de Java que identifica la lista de temas a la que desea suscribirse. Debe especificar al menos una opción entre
"topicName"
,"assign"
o"subscribePattern"
. -
Classification
: cadena UTF-8 que coincide con el Custom string pattern #31.Una clasificación opcional.
-
Delimiter
: cadena UTF-8 que coincide con el Custom string pattern #31.Especifica el carácter delimitador.
-
StartingOffsets
: cadena UTF-8 que coincide con el Custom string pattern #31.La posición inicial en el tema de Kafka para leer los datos. Los valores posibles son
"earliest"
o"latest"
. El valor predeterminado es"latest"
. -
EndingOffsets
: cadena UTF-8 que coincide con el Custom string pattern #31.El punto de conexión cuando finaliza una consulta por lotes. Los valores posibles son
"latest"
o una cadena JSON que especifica una compensación final para cadaTopicPartition
. -
PollTimeoutMs
: número (largo), cero como máximo.El tiempo de espera en milisegundos para sondear datos de Kafka en ejecutores de trabajos de Spark. El valor predeterminado es
512
. -
NumRetries
: número (entero), cero como máximo.El número de veces que se reintenta antes de no obtener las compensaciones de Kafka. El valor predeterminado es
3
. -
RetryIntervalMs
: número (largo), cero como máximo.El tiempo en milisegundos para esperar antes de volver a intentar obtener compensaciones Kafka. El valor predeterminado es
10
. -
MaxOffsetsPerTrigger
: número (largo), cero como máximo.El límite de velocidad en el número máximo de compensaciones que se procesan por intervalo de desencadenador. El número total de compensaciones especificado se divide de forma proporcional entre
topicPartitions
de diferentes volúmenes. El valor predeterminado es nulo, lo que significa que el consumidor lee todos las compensaciones hasta la última compensación conocida. -
MinPartitions
: número (entero), cero como máximo.El número mínimo deseado de particiones para leer desde Kafka. El valor predeterminado es nulo, lo que significa que el número de particiones de Spark es igual al número de particiones de Kafka.
-
Si se incluyen los encabezados de Kafka. Cuando la opción se establece en “true”, la salida de datos contendrá una columna adicional denominada “glue_streaming_kafka_headers” con el tipo
Array[Struct(key: String, value: String)]
. El valor predeterminado es “falso”. Esta opción solo se encuentra disponible en la versión 3.0 o posterior de AWS Glue. -
AddRecordTimestamp
: cadena UTF-8 que coincide con el Custom string pattern #31.Cuando esta opción se establece en “true”, la salida de datos contendrá una columna adicional denominada “__src_timestamp” que indica la hora en la que el tema recibió el registro correspondiente. El valor predeterminado es "false". Esta opción es compatible con la versión 4.0 o posterior de AWS Glue.
-
EmitConsumerLagMetrics
: cadena UTF-8 que coincide con el Custom string pattern #31.Cuando esta opción se establece en «verdadera», para cada lote, emitirá las métricas correspondientes al período comprendido entre el registro más antiguo recibido por el tema y el momento en que llegueAWS Glue a en CloudWatch. El nombre de la métrica es «glue.driver.flujo. maxConsumerLagInMs». El valor predeterminado es "false". Esta opción es compatible con la versión 4.0 o posterior de AWS Glue.
RedshiftSource estructura
Especifica un almacén de datos de Amazon Redshift.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del almacén de datos de Amazon Redshift.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.La base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.La tabla de base de datos de lectura.
-
RedshiftTmpDir
: cadena UTF-8 que coincide con el Custom string pattern #31.La ruta de Amazon S3 donde se pueden almacenar datos temporales al copiar desde la base de datos.
-
TmpDirIAMRole
: cadena UTF-8 que coincide con el Custom string pattern #31.El rol de IAM con permisos.
CatalogSource Estructura S3
Especifica un almacén de datos de Amazon S3 en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del almacén de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.La base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.La tabla de base de datos de lectura.
-
PartitionPredicate
: cadena UTF-8 que coincide con el Custom string pattern #31.Se eliminan las particiones que cumplen con este predicado. Los archivos comprendidos en el período de retención de estas particiones no se eliminan. Configurar en
""
, valor vacío de forma predeterminada. -
AdditionalOptions
: objeto S3SourceAdditionalOptions.Especifica opciones de conexión adicionales.
SourceAdditionalOptions Estructura S3
Especifica opciones de conexión adicionales para el almacén de datos de Amazon S3.
Campos
CsvSource Estructura S3
Especifica un almacén de datos de valores separados por comas (CSV) almacenado en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del almacén de datos.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una lista de las rutas de Amazon S3 desde las que se leerá.
-
CompressionType
: cadena UTF-8 (valores válidos:gzip="GZIP"
|bzip2="BZIP2"
).Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son
"gzip"
y"bzip"
). -
Exclusions
: matriz de cadenas UTF-8.Una cadena que contiene una lista JSON de patrones glob de estilo Unix para excluir. Por ejemplo, "[\"**.pdf \"]" excluye todos los archivos PDF.
-
GroupSize
: cadena UTF-8 que coincide con el Custom string pattern #31.El tamaño del grupo de destino en bytes. El valor predeterminado se calcula en función del tamaño de los datos de entrada y el tamaño de su clúster. Cuando hay menos de 50 000 archivos de entrada,
"groupFiles"
debe establecerse en"inPartition"
para que este valor surta efecto. -
GroupFiles
: cadena UTF-8 que coincide con el Custom string pattern #31.La agrupación de archivos se habilita de forma predeterminada cuando la entrada contiene más de 50 000 archivos. Para habilitar las agrupaciones con menos de 50 000 archivos, establezca este parámetro en “inPartition”. Para deshabilitar las agrupaciones con más de 50 000 archivos, establezca este parámetro en
"none"
. -
Si se establece en verdadero, lee recursivamente archivos en todos los subdirectorios de las rutas especificadas.
-
MaxBand
: número (entero), cero como máximo.Esta opción controla la duración en milisegundos después de la que es probable que el listado de s3 sea coherente. Se realiza un seguimiento de los archivos cuyas marcas de tiempo de modificación estén comprendidas en los últimos milisegundos de maxBand, en especial cuando se utilizan JobBookmarks para obtener coherencia final de Amazon S3. La mayoría de los usuarios no tienen que establecer esta opción. El valor predeterminado es 900 000 milisegundos, o 15 minutos.
-
MaxFilesInBand
: número (entero), cero como máximo.Esta opción especifica el número máximo de archivos que deben guardarse desde los últimos segundos de maxBand. Si se supera este número, los archivos adicionales se omiten y solo se procesarán en la siguiente ejecución del flujo de trabajo.
-
AdditionalOptions
: objeto S3DirectSourceAdditionalOptions.Especifica opciones de conexión adicionales.
-
Separator
: obligatorio: cadena de UTF-8 (valores válidos:comma="COMMA"
|ctrla="CTRLA"
|pipe="PIPE"
|semicolon="SEMICOLON"
|tab="TAB"
).Especifica el carácter delimitador. El valor predeterminado es una coma: “,”; pero puede especificarse cualquier otro carácter.
-
Escaper
: cadena UTF-8 que coincide con el Custom string pattern #32.Especifica un carácter que se usar para aplicar escape. Esta opción solo se usa cuando se leen archivos CSV. El valor predeterminado es
none
. Si se habilita, el carácter que va inmediatamente después se usa tal cual, excepto un pequeño conjunto de escapes conocidos (\n
,\r
,\t
y\0
). -
QuoteChar
: obligatorio: cadena UTF-8 (valores válidos:quote="QUOTE"
|quillemet="QUILLEMET"
|single_quote="SINGLE_QUOTE"
|disabled="DISABLED"
).Especifica el carácter que se usar para aplicar comillas. El carácter predeterminado es una comilla doble:
'"'
. Establezca esta opción en-1
para desactivar las comillas por completo. -
Un valor booleano que especifica si un solo registro puede abarcar varias líneas. Esto puede suceder cuando un campo contiene un carácter de nueva línea entre comillas. Debe configurar esta opción en verdadero si un registro abarca varias líneas. El valor predeterminado es
False
, que permite una división de archivo más dinámica durante el análisis. -
Un valor booleano que especifica si la primera línea se debe tratar como un encabezado. El valor predeterminado es
False
. -
Un valor booleano que especifica si se debe escribir el encabezado en la salida. El valor predeterminado es
True
. -
Un valor booleano que especifica si se debe omitir la primera línea de datos. El valor predeterminado es
False
. -
OptimizePerformance
: booleano.Un valor booleano que especifica si se debe utilizar el lector CSV SIMD avanzado junto con los formatos de memoria columnar con base en Apache Arrow. Disponible únicamente en la versión 3.0 de AWS Glue.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de S3 con formato CSV.
Estructura DirectJDBCSource
Especifica la conexión de origen JDBC directa.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre de la conexión de origen de JDBC.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.La base de datos de la conexión de origen de JDBC.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.La tabla de la conexión de origen de JDBC.
-
ConnectionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la conexión del origen de JDBC.
-
ConnectionType
: obligatorio: cadena de UTF-8 (valores válidos:sqlserver
|mysql
|oracle
|postgresql
|redshift
).El tipo de conexión del origen de JDBC.
-
RedshiftTmpDir
: cadena UTF-8 que coincide con el Custom string pattern #31.El directorio temporal del origen de JDBC Redshift.
DirectSourceAdditionalOptions Estructura S3
Especifica opciones de conexión adicionales para el almacén de datos de Amazon S3.
Campos
-
Establece el límite superior del tamaño objetivo del conjunto de datos en bytes que se procesará.
-
Establece el límite superior del número objetivo de archivos que se procesarán.
-
Establece la opción para habilitar una ruta de ejemplo.
-
SamplePath
: cadena UTF-8 que coincide con el Custom string pattern #31.Si está habilitado, especifica la ruta de ejemplo.
JsonSource Estructura S3
Especifica un almacén de datos JSON almacenado en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del almacén de datos.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una lista de las rutas de Amazon S3 desde las que se leerá.
-
CompressionType
: cadena UTF-8 (valores válidos:gzip="GZIP"
|bzip2="BZIP2"
).Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son
"gzip"
y"bzip"
). -
Exclusions
: matriz de cadenas UTF-8.Una cadena que contiene una lista JSON de patrones glob de estilo Unix para excluir. Por ejemplo, "[\"**.pdf \"]" excluye todos los archivos PDF.
-
GroupSize
: cadena UTF-8 que coincide con el Custom string pattern #31.El tamaño del grupo de destino en bytes. El valor predeterminado se calcula en función del tamaño de los datos de entrada y el tamaño de su clúster. Cuando hay menos de 50 000 archivos de entrada,
"groupFiles"
debe establecerse en"inPartition"
para que este valor surta efecto. -
GroupFiles
: cadena UTF-8 que coincide con el Custom string pattern #31.La agrupación de archivos se habilita de forma predeterminada cuando la entrada contiene más de 50 000 archivos. Para habilitar las agrupaciones con menos de 50 000 archivos, establezca este parámetro en “inPartition”. Para deshabilitar las agrupaciones con más de 50 000 archivos, establezca este parámetro en
"none"
. -
Si se establece en verdadero, lee recursivamente archivos en todos los subdirectorios de las rutas especificadas.
-
MaxBand
: número (entero), cero como máximo.Esta opción controla la duración en milisegundos después de la que es probable que el listado de s3 sea coherente. Se realiza un seguimiento de los archivos cuyas marcas de tiempo de modificación estén comprendidas en los últimos milisegundos de maxBand, en especial cuando se utilizan JobBookmarks para obtener coherencia final de Amazon S3. La mayoría de los usuarios no tienen que establecer esta opción. El valor predeterminado es 900 000 milisegundos, o 15 minutos.
-
MaxFilesInBand
: número (entero), cero como máximo.Esta opción especifica el número máximo de archivos que deben guardarse desde los últimos segundos de maxBand. Si se supera este número, los archivos adicionales se omiten y solo se procesarán en la siguiente ejecución del flujo de trabajo.
-
AdditionalOptions
: objeto S3DirectSourceAdditionalOptions.Especifica opciones de conexión adicionales.
-
JsonPath
: cadena UTF-8 que coincide con el Custom string pattern #31.Una JsonPath cadena que define los datos JSON.
-
Un valor booleano que especifica si un solo registro puede abarcar varias líneas. Esto puede suceder cuando un campo contiene un carácter de nueva línea entre comillas. Debe configurar esta opción en verdadero si un registro abarca varias líneas. El valor predeterminado es
False
, que permite una división de archivo más dinámica durante el análisis. -
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de S3 con formato JSON.
ParquetSource Estructura S3
Especifica un almacén de datos de Apache Parquet almacenado en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del almacén de datos.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una lista de las rutas de Amazon S3 desde las que se leerá.
-
CompressionType
: cadena UTF-8 (valores válidos:snappy="SNAPPY"
|lzo="LZO"
|gzip="GZIP"
|uncompressed="UNCOMPRESSED"
|none="NONE"
).Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son
"gzip"
y"bzip"
). -
Exclusions
: matriz de cadenas UTF-8.Una cadena que contiene una lista JSON de patrones glob de estilo Unix para excluir. Por ejemplo, "[\"**.pdf \"]" excluye todos los archivos PDF.
-
GroupSize
: cadena UTF-8 que coincide con el Custom string pattern #31.El tamaño del grupo de destino en bytes. El valor predeterminado se calcula en función del tamaño de los datos de entrada y el tamaño de su clúster. Cuando hay menos de 50 000 archivos de entrada,
"groupFiles"
debe establecerse en"inPartition"
para que este valor surta efecto. -
GroupFiles
: cadena UTF-8 que coincide con el Custom string pattern #31.La agrupación de archivos se habilita de forma predeterminada cuando la entrada contiene más de 50 000 archivos. Para habilitar las agrupaciones con menos de 50 000 archivos, establezca este parámetro en “inPartition”. Para deshabilitar las agrupaciones con más de 50 000 archivos, establezca este parámetro en
"none"
. -
Si se establece en verdadero, lee recursivamente archivos en todos los subdirectorios de las rutas especificadas.
-
MaxBand
: número (entero), cero como máximo.Esta opción controla la duración en milisegundos después de la que es probable que el listado de s3 sea coherente. Se realiza un seguimiento de los archivos cuyas marcas de tiempo de modificación estén comprendidas en los últimos milisegundos de maxBand, en especial cuando se utilizan JobBookmarks para obtener coherencia final de Amazon S3. La mayoría de los usuarios no tienen que establecer esta opción. El valor predeterminado es 900 000 milisegundos, o 15 minutos.
-
MaxFilesInBand
: número (entero), cero como máximo.Esta opción especifica el número máximo de archivos que deben guardarse desde los últimos segundos de maxBand. Si se supera este número, los archivos adicionales se omiten y solo se procesarán en la siguiente ejecución del flujo de trabajo.
-
AdditionalOptions
: objeto S3DirectSourceAdditionalOptions.Especifica opciones de conexión adicionales.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de S3 con formato Parquet.
DeltaSource Estructura S3
Especifica un origen de datos de Delta Lake almacenado enAmazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre de la fuente del lago Delta.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una lista de las rutas de Amazon S3 desde las que se leerá.
-
AdditionalDeltaOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #31.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #31.
Especifica opciones de conexión adicionales.
-
AdditionalOptions
: objeto S3DirectSourceAdditionalOptions.Especifica las opciones adicionales para el conector.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de Delta Lake.
CatalogDeltaSource Estructura S3
Especifica un origen de datos de Delta Lake que está registrado en el CatálogoAWS Glue de datos de. El origen de datos debe almacenarse enAmazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre de la fuente de datos de Delta Lake.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla en la base de datos de lectura.
-
AdditionalDeltaOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #31.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #31.
Especifica opciones de conexión adicionales.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de Delta Lake.
CatalogDeltaSource estructura
Especifica un origen de datos de Delta Lake que está registrado en el CatálogoAWS Glue de datos de.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre de la fuente de datos de Delta Lake.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla en la base de datos de lectura.
-
AdditionalDeltaOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #31.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #31.
Especifica opciones de conexión adicionales.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de Delta Lake.
CatalogSource Estructura de DynamoDB
Especifica un origen de datos de DynamoDB en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla en la base de datos de lectura.
RelationalCatalogSource estructura
Especifica un origen de datos de base de datos relacional en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla en la base de datos de lectura.
ConnectorTarget Estructura JDBC
Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
ConnectionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la conexión asociada al conector.
-
ConnectionTable
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #32.El nombre de la tabla en el destino de datos.
-
ConnectorName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de un conector que se utilizará.
-
ConnectionType
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El tipo de conexión, como marketplace.jdbc o custom.jdbc, que designa una conexión a un destino de datos JDBC.
-
AdditionalOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #31.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #31.
Opciones de conexión adicionales para el conector.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del destino de JDBC.
SparkConnectorTarget estructura
Especifica un destino que utiliza un conector de Apache Spark.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
ConnectionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de una conexión de un conector de Apache Spark.
-
ConnectorName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de un conector de Apache Spark.
-
ConnectionType
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El tipo de conexión, como marketplace.spark o custom.spark, que designa una conexión a un almacén de datos de Apache Spark.
-
AdditionalOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #31.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #31.
Opciones de conexión adicionales para el conector.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del destino de spark personalizado.
BasicCatalogTarget estructura
Especifica un destino que utiliza una tabla de AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.La base de datos que contiene la tabla que desea utilizar como destino. Esta base de datos ya debe existir en el Catálogo de datos.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.La tabla que define el esquema de los datos de salida. Esta tabla ya debe existir en el Catálogo de datos.
CatalogTarget Estructura de MySQL
Especifica un destino que utiliza MySQL.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de escritura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla de la base de datos de escritura.
CatalogTarget Estructura de PostgreSQL
Especifica un destino que utiliza PostgreSQL.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de escritura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla de la base de datos de escritura.
CatalogTarget Estructura de OracleSQL
Especifica un destino que utiliza Oracle SQL.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de escritura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla de la base de datos de escritura.
ServerCatalogTarget Estructura de Microsoft SQL
Especifica un destino que utiliza Microsoft SQL.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de escritura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla de la base de datos de escritura.
RedshiftTarget estructura
Especifica un destino que utiliza Amazon Redshift.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de escritura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla de la base de datos de escritura.
-
RedshiftTmpDir
: cadena UTF-8 que coincide con el Custom string pattern #31.La ruta de Amazon S3 donde se pueden almacenar datos temporales al copiar desde la base de datos.
-
TmpDirIAMRole
: cadena UTF-8 que coincide con el Custom string pattern #31.El rol de IAM con permisos.
-
UpsertRedshiftOptions
: objeto UpsertRedshiftTargetOptions.Conjunto de opciones para configurar una operación upsert al escribir en un destino de Redshift.
UpsertRedshiftTargetOptions estructura
Opciones para configurar una operación upsert al escribir en un destino de Redshift.
Campos
-
TableLocation
: cadena UTF-8 que coincide con el Custom string pattern #31.Ubicación física de la tabla de Redshift.
-
ConnectionName
: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la conexión que se utilizará para escribir en Redshift.
-
UpsertKeys
: matriz de cadenas UTF-8.Claves utilizadas para determinar si se debe realizar una actualización o una inserción.
CatalogTarget Estructura S3
Especifica un destino de datos que escribe en Amazon S3 mediante AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla de la base de datos de escritura.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de escritura.
-
SchemaChangePolicy
: objeto CatalogSchemaChangePolicy.Una política que especifica los comportamientos de actualización del rastreador.
GlueParquetTarget Estructura S3
Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Path
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.Una única ruta de Amazon S3 de escritura.
-
Compression
: cadena UTF-8 (valores válidos:snappy="SNAPPY"
|lzo="LZO"
|gzip="GZIP"
|uncompressed="UNCOMPRESSED"
|none="NONE"
).Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son
"gzip"
y"bzip"
). -
SchemaChangePolicy
: objeto DirectSchemaChangePolicy.Una política que especifica los comportamientos de actualización del rastreador.
CatalogSchemaChangePolicy estructura
Una política que especifica los comportamientos de actualización del rastreador.
Campos
-
EnableUpdateCatalog
: booleano.Si utilizar o no el comportamiento de actualización especificado cuando el rastreador encuentra un esquema cambiado.
-
UpdateBehavior
: cadena UTF-8 (valores válidos:UPDATE_IN_DATABASE
|LOG
).Comportamiento de actualización cuando el rastreador encuentra un esquema cambiado.
DirectTarget Estructura S3
Especifica un destino de datos que escribe en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Path
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.Una única ruta de Amazon S3 de escritura.
-
Compression
: cadena UTF-8 que coincide con el Custom string pattern #31.Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son
"gzip"
y"bzip"
). -
Format
– Obligatorio: cadena UTF-8 (valores válidos:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
).Especifica el formato de salida de datos para el destino.
-
SchemaChangePolicy
: objeto DirectSchemaChangePolicy.Una política que especifica los comportamientos de actualización del rastreador.
DirectSchemaChangePolicy estructura
Una política que especifica los comportamientos de actualización del rastreador.
Campos
-
EnableUpdateCatalog
: booleano.Si utilizar o no el comportamiento de actualización especificado cuando el rastreador encuentra un esquema cambiado.
-
UpdateBehavior
: cadena UTF-8 (valores válidos:UPDATE_IN_DATABASE
|LOG
).Comportamiento de actualización cuando el rastreador encuentra un esquema cambiado.
-
Table
: cadena UTF-8 que coincide con el Custom string pattern #31.Especifica la tabla de la base de datos a la que se aplica la política de cambio de esquema.
-
Database
: cadena UTF-8 que coincide con el Custom string pattern #31.Especifica la base de datos a la que se aplica la política de cambio de esquema.
ApplyMapping estructura
Especifica una transformación que asigna claves de propiedad de datos en el origen de datos a claves de propiedad de datos en el destino de datos. Puede cambiar el nombre de las claves, modificar los tipos de datos de las claves y elegir las claves que desea descartar del conjunto de datos.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Mapping
(obligatorio): una matriz de objetos Correspondencia.Especifica la asignación de claves de propiedad de datos en el origen de datos a claves de propiedad de datos en el destino de datos.
Estructura de asignación
Especifica la asignación de claves de propiedad de datos.
Campos
-
ToKey
: cadena UTF-8 que coincide con el Custom string pattern #31.Después de aplicar la asignación, cuál debe ser el nombre de la columna. Puede ser igual que
FromPath
. -
FromPath
: matriz de cadenas UTF-8.La tabla o columna que se va a modificar.
-
FromType
: cadena UTF-8 que coincide con el Custom string pattern #31.El tipo de datos que se van a modificar.
-
ToType
: cadena UTF-8 que coincide con el Custom string pattern #31.El tipo de datos al que se van a modificar los datos.
-
Si se establece en verdadero, se quita la columna.
-
Children
: matriz de objetos Correspondencia.Solo aplicable a estructuras de datos anidadas. Si desea cambiar la estructura principal, pero también una de las secundarias, puede rellenar esta estructura de datos. También es
Mapping
, pero suFromPath
será elFromPath
de la principal más elFromPath
de esta estructura.Para las partes secundarias, suponga que tiene la estructura:
{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
Puede especificar una
Mapping
que tiene este aspecto:{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
SelectFields estructura
Especifica una transformación que elige las claves de propiedad de datos que desea conservar.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una ruta JSON a una variable de la estructura de datos.
DropFields estructura
Especifica una transformación que elige las claves de propiedad de datos que desea eliminar.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una ruta JSON a una variable de la estructura de datos.
RenameField estructura
Especifica una transformación que cambia el nombre de una única clave de propiedad de datos.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
SourcePath
: obligatorio: una matriz de cadenas UTF-8.Una ruta JSON a una variable de la estructura de datos de los datos de origen.
-
TargetPath
: obligatorio: una matriz de cadenas UTF-8.Una ruta JSON a una variable de la estructura de datos de los datos de destino.
Estructura Spigot
Especifica una transformación que escribe ejemplos de los datos en un bucket de Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Path
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.Una ruta en Amazon S3 donde la transformación escribe un subconjunto de registros del conjunto de datos en un archivo JSON en un bucket de Amazon S3.
-
Topk
: número (entero), 100 como máximo.Especifica un número de registros que se escribirán a partir del principio del conjunto de datos.
-
Prob
: número (doble), 1 como máximo.La probabilidad (un valor decimal con un valor máximo de 1) de seleccionar un registro determinado. Un valor 1 indica que cada fila leída del conjunto de datos debe incluirse en la salida de ejemplo.
Estructura Join
Especifica una transformación que une dos conjuntos de datos en uno mediante una frase de comparación en las claves de propiedad de datos especificadas. Puede utilizar combinaciones interna, externa, izquierda, derecha, semicombinación izquierda y anticombinación izquierda.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con 2 cadenas como mínimo y 2 cadenas como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
JoinType
Obligatorio: cadena UTF-8 (valores válidos:equijoin="EQUIJOIN"
|left="LEFT"
|right="RIGHT"
|outer="OUTER"
|leftsemi="LEFT_SEMI"
|leftanti="LEFT_ANTI"
).Especifica el tipo de unión que se va a realizar en los conjuntos de datos.
-
Columns
: Obligatorio: una matriz de objetos JoinColumn, con 2 estructuras como mínimo y 2 estructuras como máximo.Una lista de las dos columnas que se van a unir.
JoinColumn estructura
Especifica una columna que se va a unir.
Campos
-
From
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.La columna que se va a unir.
-
Keys
: obligatorio: una matriz de cadenas UTF-8.La clave de la columna que se va a unir.
SplitFields estructura
Especifica una transformación que divide las claves de propiedad de datos en dos DynamicFrames
. La salida es una recopilación de DynamicFrames
: uno con las claves de propiedad de datos seleccionadas y el otro con las claves de propiedad de datos restantes.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una ruta JSON a una variable de la estructura de datos.
SelectFromCollection estructura
Especifica una transformación que elige un DynamicFrame
de una recopilación de DynamicFrames
. El resultado es el DynamicFrame
seleccionado
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Index
– Obligatorio: número (entero), cero como máximo.Índice del que se DynamicFrame va a seleccionar.
FillMissingValues estructura
Especifica una transformación que localiza registros en el conjunto de datos que tienen valores faltantes y agrega un nuevo campo con un valor determinado por imputación. El conjunto de datos de entrada se utiliza para formar al modelo de machine learning que determina cuál debe ser el valor que falta.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
ImputedPath
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.Una ruta JSON a una variable de la estructura de datos del conjunto de datos que se imputa.
-
FilledPath
: cadena UTF-8 que coincide con el Custom string pattern #31.Una ruta JSON a una variable de la estructura de datos del conjunto de datos que se rellena.
Estructura Filter
Especifica una transformación que divide un conjunto de datos en dos, en función de una condición de filtro.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
LogicalOperator
: obligatorio: cadena UTF-8 (valores válidos:AND
|OR
).El operador utilizado para filtrar filas mediante la comparación del valor de clave con un valor especificado.
-
Filters
(obligatorio): una matriz de objetos FilterExpression.Especifica una expresión de filtro.
FilterExpression estructura
Especifica una expresión de filtro.
Campos
-
Operation
– Obligatorio: cadena UTF-8 (valores válidos:EQ
|LT
|GT
|LTE
|GTE
|REGEX
|ISNULL
).El tipo de operación que se va a realizar en la expresión.
-
Si se va a negar la expresión.
-
Values
(obligatorio): una matriz de objetos FilterValue.Una lista de valores de filtro.
FilterValue estructura
Representa una única entrada en la lista de valores de una FilterExpression
.
Campos
CustomCode estructura
Especifica una transformación que utiliza el código personalizado que proporciona el usuario para llevar a cabo la transformación de datos. La salida es una recopilación de DynamicFrames.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Code
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #26.El código personalizado que se utiliza para llevar a cabo la transformación de datos.
-
ClassName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre definido para la clase de nodo de código personalizado.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para la transformación de código personalizada.
Estructura SparkSQL
Especifica una transformación en la que se ingresa una consulta SQL mediante la sintaxis de Spark SQL para transformar los datos. La salida es un único DynamicFrame
.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo.Las entradas de datos identificadas por los nombres de sus nodos. Puede asociar un nombre de tabla a cada nodo de entrada para utilizarlo en la consulta SQL. El nombre que elija debe cumplir las restricciones de nomenclatura de Spark SQL.
-
SqlQuery
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #33.Una consulta SQL que debe utilizar la sintaxis de Spark SQL y devolver un único conjunto de datos.
-
SqlAliases
(obligatorio): una matriz de objetos SqlAlias.Una lista de alias. Un alias permite especificar qué nombre se va a utilizar en SQL para una entrada determinada. Por ejemplo, tiene un origen de datos denominado "MyDataSource». Si especifica
From
como yAlias
como MyDataSource SqlName, entonces en su SQL puede hacer lo siguiente:select * from SqlName
y eso obtiene datos de MyDataSource.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para la transformación de SparkSQL.
SqlAlias estructura
Representa una única entrada en la lista de valores de SqlAliases
.
Campos
-
From
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #30.Una tabla o columna de una tabla.
-
Alias
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #32.Un nombre temporal dado a una tabla o a una columna de una tabla.
DropNullFields estructura
Especifica una transformación que elimina columnas del conjunto de datos si todos los valores de la columna son “nulos”. De forma predeterminada, AWS Glue Studio reconocerá los objetos nulos, pero algunos valores, como las cadenas vacías, las cadenas que son “nulas”, los enteros -1 u otros marcadores de posición, como los ceros, no se reconocen de manera automática como nulos.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
NullCheckBoxList
: objeto NullCheckBoxList.Una estructura que representa si ciertos valores se reconocen como valores nulos para su eliminación.
-
NullTextList
: matriz de objetos NullValueField, con 50 estructuras como máximo.Una estructura que especifica una lista de NullValueField estructuras que representan un valor nulo personalizado, como cero u otro valor que se utiliza como marcador de posición nulo exclusivo del conjunto de datos.
La transformación
DropNullFields
elimina los valores nulos personalizados solo si tanto el valor del marcador de posición nulo como el tipo de datos coinciden con los datos.
NullCheckBoxList estructura
Representa si ciertos valores se reconocen como valores nulos para su eliminación.
Campos
NullValueField estructura
Representa un valor nulo personalizado, como ceros u otro valor que se utiliza como marcador de posición nulo exclusivo del conjunto de datos.
Campos
-
Value
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El valor del marcador de posición nulo.
-
Datatype
: obligatorio: objeto Tipo de datos.El tipo de datos del valor.
Estructura Datatype
Una estructura que representa el tipo de datos del valor.
Campos
-
Id
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #30.El tipo de datos del valor.
-
Label
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #30.Una etiqueta asignada al tipo de datos.
Estructura Merge
Especifica una transformación que fusiona un DynamicFrame
con una instancia provisional de DynamicFrame
en función de las claves principales especificadas para identificar registros. Los registros duplicados (registros con las mismas claves principales) no se eliminan.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con 2 cadenas como mínimo y 2 cadenas como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Source
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #30.El
DynamicFrame
de origen que se fusionará con unDynamicFrame
de instancia provisional. -
PrimaryKeys
: obligatorio: una matriz de cadenas UTF-8.La lista de campos de clave principal para hacer coincidir los registros de los marcos dinámicos de origen y provisionales.
Estructura Union
Especifica una transformación que combina las filas de dos o más conjuntos de datos en un único resultado.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con 2 cadenas como mínimo y 2 cadenas como máximo.Las entradas del ID de nodo a la transformación.
-
UnionType
: obligatorio: cadena UTF-8 (valores válidos:ALL
|DISTINCT
).Indica el tipo de transformación de combinación.
Especifique
ALL
unir todas las filas de los orígenes de datos al resultado DynamicFrame. La combinación resultante no elimina las filas duplicadas.Especifique
DISTINCT
para eliminar filas duplicadas en el resultado DynamicFrame.
Estructura PIIDetection
Especifica una transformación que identifica, elimina o enmascara datos PII.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas del ID de nodo a la transformación.
-
PiiType
: obligatorio: cadena UTF-8 (valores válidos:RowAudit
|RowMasking
|ColumnAudit
|ColumnMasking
).Indica el tipo de transformación PIIDDetection.
-
EntityTypesToDetect
: obligatorio: una matriz de cadenas UTF-8.Indica los tipos de entidades que la transformación PIIDProtection identificará como datos PII.
Las entidades de tipo PII incluyen: PERSON_NAME, DATE, USA_SNN, EMAIL, USA_ITIN, USA_PASSPORT_NUMBER, PHONE_NUMBER, BANK_ACCOUNT, IP_ADDRESS, MAC_ADDRESS, USA_CPT_CODE, USA_HCPCS_CODE, USA_NATIONAL_DRUG_CODE, USA_MEDICARE_BENEFICIARY_IDENTIFIER, USA_HEALTH_INSURANCE_CLAIM_NUMBER,CREDIT_CARD,USA_NATIONAL_PROVIDER_IDENTIFIER,USA_DEA_NUMBER,USA_DRIVING_LICENSE
-
OutputColumnName
: cadena UTF-8 que coincide con el Custom string pattern #31.Indica el nombre de columna de salida que contendrá cualquier tipo de entidad detectado en esa fila.
-
SampleFraction
: número (doble), 1 como máximo.Indica la fracción de los datos que se van a muestrear al buscar entidades PII.
-
ThresholdFraction
: número (doble), 1 como máximo.Indica la fracción de los datos que deben cumplirse para que una columna se identifique como datos de PII.
-
MaskValue
: cadena UTF-8, de 256 bytes de largo como máximo, que coincide con Custom string pattern #28.Indica el valor que sustituirá a la entidad detectada.
Estructura Aggregate
Especifica una transformación que agrupa las filas según los campos elegidos y calcula el valor agregado mediante una función especificada.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Especifica los campos y filas que se utilizarán como entradas para la transformación agregada.
-
Groups
: obligatorio: una matriz de cadenas UTF-8.Especifica los campos para agrupar.
-
Aggs
: obligatorio: una matriz de objetos AggregateOperation, con 1 estructura como mínimo y 30 estructuras como máximo.Especifica las funciones agregadas que se van a realizar en campos especificados.
DropDuplicates estructura
Especifica una transformación que elimina las filas de datos repetidos de un conjunto de datos.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Columns
: matriz de cadenas UTF-8.Nombre de las columnas que se van a fusionar o eliminar si se repiten.
GovernedCatalogTarget estructura
Especifica un destino de datos que escribe en Amazon S3 mediante AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla de la base de datos de escritura.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de escritura.
-
SchemaChangePolicy
: objeto CatalogSchemaChangePolicy.Una política que especifica los comportamientos de actualización del catálogo gobernado.
GovernedCatalogSource estructura
Especifica un almacén de datos en el AWS Glue Data Catalog gobernado.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del almacén de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.La base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.La tabla de base de datos de lectura.
-
PartitionPredicate
: cadena UTF-8 que coincide con el Custom string pattern #31.Se eliminan las particiones que cumplen con este predicado. Los archivos comprendidos en el período de retención de estas particiones no se eliminan. Configurar en
""
, valor vacío de forma predeterminada. -
AdditionalOptions
: objeto S3SourceAdditionalOptions.Especifica opciones de conexión adicionales.
AggregateOperation estructura
Especifica el conjunto de parámetros necesarios para llevar a cabo la agregación en la transformación de agregación.
Campos
-
Column
: obligatorio: una matriz de cadenas UTF-8.Especifica la columna del conjunto de datos en la que se aplicará la función de agregación.
-
AggFunc
: obligatorio: cadena UTF-8 (valores válidos:avg
|countDistinct
|count
|first
|last
|kurtosis
|max
|min
|skewness
|stddev_samp
|stddev_pop
|sum
|sumDistinct
|var_samp
|var_pop
).Especifica la función de agregación que se aplicará.
Las posibles funciones de agregación incluyen: avg countDistinct, count, first, last, kurtosis, max, min, skewness, stddev_samp, stddev_pop, sum, sumDistinct, var_samp, var_pop
GlueSchema estructura
Especifica un esquema definido por el usuario cuando un esquema no puede determinarse mediante AWS Glue.
Campos
-
Columns
: matriz de objetos GlueStudioSchemaColumn.Especifica las definiciones de columna que componen un esquema de AWS Glue.
GlueStudioSchemaColumn estructura
Especifica una sola columna en una definición de esquema de AWS Glue.
Campos
-
Name
– Obligatorio: cadena UTF-8, de 1024 bytes de largo como máximo, que coincide con Single-line string pattern.El nombre de la columna en el esquema de AWS Glue Studio.
-
Type
: cadena UTF-8 con un máximo de 131072 bytes de largo, que coincide con el Single-line string pattern.El tipo de Hive de esta columna del esquema de AWS Glue Studio.
GlueStudioColumn estructura
Especifica una sola columna en AWS Glue Studio.
Campos
-
Key
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #32.La clave de la columna en AWS Glue Studio.
-
FullPath
: obligatorio: una matriz de cadenas UTF-8.La dirección URL completa de la columna en AWS Glue Studio.
-
Type
– Obligatorio: matriz UTF-8 (valores válidos:array="ARRAY"
|bigint="BIGINT"
|bigint array="BIGINT_ARRAY"
|binary="BINARY"
|binary array="BINARY_ARRAY"
|boolean="BOOLEAN"
|boolean array="BOOLEAN_ARRAY"
|byte="BYTE"
|byte array="BYTE_ARRAY"
|char="CHAR"
|char array="CHAR_ARRAY"
|choice="CHOICE"
|choice array="CHOICE_ARRAY"
|date="DATE"
|date array="DATE_ARRAY"
|decimal="DECIMAL"
|decimal array="DECIMAL_ARRAY"
|double="DOUBLE"
|double array="DOUBLE_ARRAY"
|enum="ENUM"
|enum array="ENUM_ARRAY"
|float="FLOAT"
|float array="FLOAT_ARRAY"
|int="INT"
|int array="INT_ARRAY"
|interval="INTERVAL"
|interval array="INTERVAL_ARRAY"
|long="LONG"
|long array="LONG_ARRAY"
|object="OBJECT"
|short="SHORT"
|short array="SHORT_ARRAY"
|smallint="SMALLINT"
|smallint array="SMALLINT_ARRAY"
|string="STRING"
|string array="STRING_ARRAY"
|timestamp="TIMESTAMP"
|timestamp array="TIMESTAMP_ARRAY"
|tinyint="TINYINT"
|tinyint array="TINYINT_ARRAY"
|varchar="VARCHAR"
|varchar array="VARCHAR_ARRAY"
|null="NULL"
|unknown="UNKNOWN"
|unknown array="UNKNOWN_ARRAY"
).El tipo de la columna en AWS Glue Studio.
-
Children
: un conjunto de estructuras.Los elementos secundarios de la columna principal de AWS Glue Studio.
DynamicTransform estructura
Especifica el conjunto de parámetros necesarios para hacer la transformación dinámica.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.Especifica el nombre de la transformación dinámica.
-
TransformName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.Especifica el nombre de la transformación dinámica tal como aparece en el editor visual de AWS Glue Studio.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Especifica las entradas necesarias para la transformación dinámica.
-
Parameters
: matriz de objetos TransformConfigParameter.Especifica los parámetros de la transformación dinámica.
-
FunctionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.Especifica el nombre de la función de la transformación dinámica.
-
Path
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.Especifica la ruta de los archivos de origen y de configuración de la transformación dinámica.
-
Version
: cadena UTF-8 que coincide con el Custom string pattern #31.Este campo no se utiliza y quedará en desuso en la versión futura.
TransformConfigParameter estructura
Especifica los parámetros de la transformación dinámica en el archivo de configuración.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.Especifica el nombre del parámetro de la transformación dinámica en el archivo de configuración.
-
Type
– Obligatorio: cadena UTF-8 (valores válidos:str="STR"
|int="INT"
|float="FLOAT"
|complex="COMPLEX"
|bool="BOOL"
|list="LIST"
|null="NULL"
).Especifica el tipo de parámetro de la transformación dinámica en el archivo de configuración.
-
ValidationRule
: cadena UTF-8 que coincide con el Custom string pattern #31.Especifica la regla de validación de la transformación dinámica en el archivo de configuración.
-
ValidationMessage
: cadena UTF-8 que coincide con el Custom string pattern #31.Especifica el mensaje de validación de la transformación dinámica en el archivo de configuración.
-
Value
: matriz de cadenas UTF-8.Especifica el valor del parámetro de la transformación dinámica en el archivo de configuración.
-
ListType
: cadena UTF-8 (valores válidos:str="STR"
|int="INT"
|float="FLOAT"
|complex="COMPLEX"
|bool="BOOL"
|list="LIST"
|null="NULL"
).Especifica el tipo de lista del parámetro de la transformación dinámica en el archivo de configuración.
-
Especifica si es opcional o no el parámetro de la transformación dinámica en el archivo de configuración.
EvaluateDataQuality estructura
Especifica los criterios de evaluación de la calidad de los datos.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre de la evaluación de la calidad de los datos.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de la evaluación de la calidad de los datos.
-
Ruleset
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 65 536 bytes de largo como máximo, que coincide con Custom string pattern #29.El conjunto de reglas para la evaluación de la calidad de los datos.
-
Output
: cadena UTF-8 (valores válidos:PrimaryInput
|EvaluationResults
).La salida de la evaluación de la calidad de los datos.
-
PublishingOptions
: objeto DQResultsPublishingOptions.Opciones para configurar cómo se publican los resultados.
-
StopJobOnFailureOptions
: objeto DQStopJobOnFailureOptions.Opciones para configurar la forma en que se detendrá el trabajo si se produce un error en la evaluación de la calidad de los datos.
CatalogHudiSource Estructura S3
Especifica un origen de datos de Hudi que está registrado en el Catálogo de datos de AWS Glue. El origen de datos de Hudi debe almacenarse en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de datos de Hudi.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla en la base de datos de lectura.
-
AdditionalHudiOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #31.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #31.
Especifica opciones de conexión adicionales.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para el origen de Hudi.
CatalogHudiSource estructura
Especifica un origen de datos de Hudi que está registrado en el Catálogo de datos de AWS Glue.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de datos de Hudi.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla en la base de datos de lectura.
-
AdditionalHudiOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #31.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #31.
Especifica opciones de conexión adicionales.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para el origen de Hudi.
HudiSource Estructura S3
Especifica un origen de datos de Hudi almacenado en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del origen de Hudi.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una lista de las rutas de Amazon S3 desde las que se leerá.
-
AdditionalHudiOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #31.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #31.
Especifica opciones de conexión adicionales.
-
AdditionalOptions
: objeto S3DirectSourceAdditionalOptions.Especifica las opciones adicionales para el conector.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para el origen de Hudi.
HudiCatalogTarget Estructura S3
Especifica un destino que escribe en un origen de datos de Hudi en el Catálogo de datos de AWS Glue.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la tabla de la base de datos de escritura.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.El nombre de la base de datos de escritura.
-
AdditionalOptions
– Obligatorio: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #31.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #31.
Especifica opciones de conexión adicionales para el conector.
-
SchemaChangePolicy
: objeto CatalogSchemaChangePolicy.Una política que especifica los comportamientos de actualización del rastreador.
HudiDirectTarget Estructura S3
Especifica un destino que escribe en un origen de datos de Hudi en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
Path
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #31.La ruta de Amazon S3 del origen de datos de Hudi en la que desea escribir.
-
Compression
: obligatorio: cadena UTF-8 (valores válidos:gzip="GZIP"
|lzo="LZO"
|uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
).Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son
"gzip"
y"bzip"
). -
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Format
– Obligatorio: cadena UTF-8 (valores válidos:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
).Especifica el formato de salida de datos para el destino.
-
AdditionalOptions
– Obligatorio: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #31.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #31.
Especifica opciones de conexión adicionales para el conector.
-
SchemaChangePolicy
: objeto DirectSchemaChangePolicy.Una política que especifica los comportamientos de actualización del rastreador.
ResultsPublishingOptions Estructura DQ
Opciones para configurar cómo se publican los resultados de la evaluación de la calidad de los datos.
Campos
-
EvaluationContext
: cadena UTF-8 que coincide con el Custom string pattern #30.El contexto de la evaluación.
-
ResultsS3Prefix
: cadena UTF-8 que coincide con el Custom string pattern #31.El prefijo de Amazon S3 se antepuso a los resultados.
-
CloudWatchMetricsEnabled
: booleano.Habilite las métricas de los resultados de la calidad de datos.
-
ResultsPublishingEnabled
: booleano.Habilite la publicación de los resultados de la calidad de datos.
StopJobOnFailureOptions Estructura DQ
Opciones para configurar la forma en que se detendrá el trabajo si se produce un error en la evaluación de la calidad de los datos.