API de trabalhos visuais - AWS Glue
 — tipos de dados —CodeGenConfigurationNodeJDBCConnectorOptionsStreamingDataPreviewOptionsAthenaConnectorSourceJDBCConnectorSourceSparkConnectorSourceCatalogSourceMySQLCatalogSourcePostgreSQLCatalogSourceOracleSQLCatalogSourceMicrosoftSQLServerCatalogSourceCatalogKinesisSourceDirectKinesisSourceKinesisStreamingSourceOptionsCatalogKafkaSourceDirectKafkaSourceKafkaStreamingSourceOptionsRedshiftSourceAmazonRedshiftSourceAmazonRedshiftNodeDataAmazonRedshiftAdvancedOptionOpçãoS3CatalogSourceS3SourceAdditionalOptionsS3CSVSourceDirectJDBCSourceS3DirectSourceAdditionalOptionsS3JsonSourceS3ParquetSourceS3DeltaSourceS3CatalogDeltaSourceCatalogDeltaSourceS3HudiSourceS3CatalogHudiSourceCatalogHudiSourceDynamoDBCatalogSourceRelationalCatalogSourceJDBCConnectorTargetSparkConnectorTargetBasicCatalogTargetMySQLCatalogTargetPostgreSQLCatalogTargetOracleSQLCatalogTargetMicrosoftSQLServerCatalogTargetRedshiftTargetAmazonRedshiftTargetUpsertRedshiftTargetOptionsS3CatalogTargetS3GlueParquetTargetCatalogSchemaChangePolicyS3DirectTargetS3HudiCatalogTargetS3HudiDirectTargetS3DeltaCatalogTargetS3DeltaDirectTargetDirectSchemaChangePolicyApplyMappingMapeamentoSelectFieldsDropFieldsRenameFieldSpigotIngressarJoinColumnSplitFieldsSelectFromCollectionFillMissingValuesFiltroFilterExpressionFilterValueCustomCodeSparkSQLSqlAliasDropNullFieldsNullCheckBoxListNullValueFieldDataTypeMesclarUnionPIIdetectionAgregarDropDuplicatesGovernedCatalogTargetGovernedCatalogSourceAggregateOperationGlueSchemaGlueStudioSchemaColumnGlueStudioColumnDynamicTransformTransformConfigParameterEvaluateDataQualityDQResultsPublishingOptionsDQStopJobOnFailureOptionsEvaluateDataQualityMultiFrameFórmulaRecipeReferenceSnowflakeNodeDataSnowflakeSourceSnowflakeTargetConnectorDataSourceConnectorDataTarget

API de trabalhos visuais

A API de trabalhos visuais permite que você crie trabalhos de integração de dados usando a API do AWS Glue com base em um objeto JSON que representa uma configuração visual de um trabalho do AWS Glue.

Uma lista de CodeGenConfigurationNodes é fornecida a uma API de trabalho de criação ou atualização para registrar um DAG no AWS Glue Studio para o trabalho criado e gerar o código associado.

Tipos de dados

Estrutura CodeGenConfigurationNode

O CodeGenConfigurationNode enumera todos os tipos de nós válidos. Uma e apenas uma de suas variáveis membro podem ser preenchidas.

Campos
  • AthenaConnectorSource – Um objeto AthenaConnectorSource.

    Especifica um conector para uma fonte de dados do Amazon Athena.

  • JDBCConnectorSource – Um objeto JDBCConnectorSource.

    Especifica um conector para uma fonte de dados JDBC.

  • SparkConnectorSource – Um objeto SparkConnectorSource.

    Especifica um conector para uma fonte de dados do Apache Spark.

  • CatalogSource – Um objeto CatalogSource.

    Especifica um datastore no catálogo de dados do.AWS Glue

  • RedshiftSource – Um objeto RedshiftSource.

    Especifica um datastore do Amazon Redshift.

  • S3CatalogSource – Um objeto S3CatalogSource.

    Especifica um datastore do Amazon S3 no catálogo de dados do.AWS Glue

  • S3CsvSource – Um objeto S3CSVSource.

    Especifica um datastore CSV (valores separados por comando) armazenado no Amazon S3.

  • S3JsonSource – Um objeto S3JsonSource.

    Especifica um datastore JSON armazenado no Amazon S3.

  • S3ParquetSource – Um objeto S3ParquetSource.

    Especifica um datastore do Apache Parquet armazenado no Amazon S3.

  • RelationalCatalogSource – Um objeto RelationalCatalogSource.

    Especifica um datastore de catálogo relacional no AWS Glue Data Catalog.

  • DynamoDBCatalogSource – Um objeto DynamoDBCatalogSource.

    Especifica um datastore de catálogo relacional do DynamoDBC no AWS Glue Data Catalog.

  • JDBCConnectorTarget – Um objeto JDBCConnectorTarget.

    Especifica um destino de dados que grava no Amazon S3 no armazenamento colunar do Apache Parquet.

  • SparkConnectorTarget – Um objeto SparkConnectorTarget.

    Especifica um destino que usa um conector Apache Spark.

  • CatalogTarget – Um objeto BasicCatalogTarget.

    Especifica um destino que usa uma tabela do catálogo de dados do AWS Glue.

  • RedshiftTarget – Um objeto RedshiftTarget.

    Especifica um destino que usa o Amazon Redshift.

  • S3CatalogTarget – Um objeto S3CatalogTarget.

    Especifica um destino de dados que grava no Amazon S3 usando o catálogo de dados do AWS Glue.

  • S3GlueParquetTarget – Um objeto S3GlueParquetTarget.

    Especifica um destino de dados que grava no Amazon S3 no armazenamento colunar do Apache Parquet.

  • S3DirectTarget – Um objeto S3DirectTarget.

    Especifica um destino de dados que grava no Amazon S3.

  • ApplyMapping – Um objeto ApplyMapping.

    Especifica uma transformação que mapeia chaves de propriedade de dados na fonte dos dados para chaves de propriedade de dados no destino dos dados. Você pode renomear chaves, modificar os tipos de dados para chaves e escolher quais chaves remover do conjunto de dados.

  • SelectFields – Um objeto SelectFields.

    Especifica uma transformação que escolhe as chaves de propriedade de dados que você deseja manter.

  • DropFields – Um objeto DropFields.

    Especifica uma transformação que escolhe as chaves de propriedade de dados que você deseja descartar.

  • RenameField – Um objeto RenameField.

    Especifica uma transformação que renomeia uma única chave de propriedade de dados.

  • Spigot – Um objeto Spigot.

    Especifica uma transformação que grava amostras dos dados em um bucket do Amazon S3.

  • Join – Um objeto Ingressar.

    Especifica uma transformação que une dois conjuntos de dados em um só, usando uma frase de comparação nas chaves de propriedade de dados especificadas. Você pode usar junção inner (interna), outer (externa), left (à esquerda), right (à direita), left semi (semi à esquerda) e left anti (anti à esquerda).

  • SplitFields – Um objeto SplitFields.

    Especifica uma transformação que divide chaves de propriedade de dados em dois DynamicFrames. A saída é uma coleção de DynamicFrames: um com chaves de propriedade de dados selecionadas e outro com as chaves de propriedade de dados restantes.

  • SelectFromCollection – Um objeto SelectFromCollection.

    Especifica uma transformação que escolhe um DynamicFrame de uma coleção de DynamicFrames. A saída é o DynamicFrame selecionado.

  • FillMissingValues – Um objeto FillMissingValues.

    Especifica uma transformação que localiza registros no conjunto de dados que tenham valores ausentes e adiciona um novo campo com um valor determinado por imputação. O conjunto de dados de entrada é usado para treinar o modelo de machine learning que determina qual deve ser o valor ausente.

  • Filter – Um objeto Filtro.

    Especifica uma transformação que divide um conjunto de dados em dois, com base em uma condição de filtro.

  • CustomCode – Um objeto CustomCode.

    Especifica uma transformação que usa código personalizado que você fornece para executar a transformação de dados. A saída é uma coleção de DynamicFrames.

  • SparkSQL – Um objeto SparkSQL.

    Especifica uma transformação em que você insere uma consulta de SQL usando a sintaxe do Spark SQL para transformar os dados. A saída é um único DynamicFrame.

  • DirectKinesisSource – Um objeto DirectKinesisSource.

    Especifica uma fonte de dados direta do Amazon Kinesis.

  • DirectKafkaSource – Um objeto DirectKafkaSource.

    Especifica um datastore do Apache Kafka.

  • CatalogKinesisSource – Um objeto CatalogKinesisSource.

    Especifica uma fonte de dados do Kinesis no catálogo de dados do AWS Glue.

  • CatalogKafkaSource – Um objeto CatalogKafkaSource.

    Especifica um datastore do Apache Kafka no catálogo de dados.

  • DropNullFields – Um objeto DropNullFields.

    Especifica uma transformação que remove colunas do conjunto de dados se todos os valores na coluna forem 'null'. Por padrão, o AWS Glue Studio reconhecerá objetos nulos, mas alguns valores, como strings vazias, strings que sejam "nulas", inteiros -1 ou outros espaços reservados, como zeros, não são automaticamente reconhecidos como nulos.

  • Merge – Um objeto Mesclar.

    Especifica uma transformação que mescla um DynamicFrame com um DynamicFrame de preparação, de acordo com as chaves primárias especificadas para identificar registros. Registros duplicados (com as mesmas chaves primárias) não são eliminados.

  • Union – Um objeto Union.

    Especifica uma transformação que combina as linhas de dois ou mais conjuntos de dados em um único resultado.

  • PIIDetection – Um objeto PIIdetection.

    Especifica uma transformação que identifica, remove ou mascara dados de PII.

  • Aggregate – Um objeto Agregar.

    Especifica uma transformação que agrupa linhas por campos escolhidos e calcula o valor agregado por função especificada.

  • DropDuplicates – Um objeto DropDuplicates.

    Especifica uma transformação que remove linhas de dados repetidos de um conjunto de dados.

  • GovernedCatalogTarget – Um objeto GovernedCatalogTarget.

    Especifica um destino de dados que grava em um catálogo governado.

  • GovernedCatalogSource – Um objeto GovernedCatalogSource.

    Especifica uma fonte de dados em um catálogo de dados governado.

  • MicrosoftSQLServerCatalogSource – Um objeto MicrosoftSQLServerCatalogSource.

    Especifica uma fonte de dados do Microsoft SQL Server no AWS Glue Data Catalog.

  • MySQLCatalogSource – Um objeto MySQLCatalogSource.

    Especifica uma fonte de dados do MySQL no AWS Glue Data Catalog.

  • OracleSQLCatalogSource – Um objeto OracleSQLCatalogSource.

    Especifica uma fonte de dados do Oracle no AWS Glue Data Catalog.

  • PostgreSQLCatalogSource – Um objeto PostgreSQLCatalogSource.

    Especifica uma fonte de dados do Postgres SQL no AWS Glue Data Catalog.

  • MicrosoftSQLServerCatalogTarget – Um objeto MicrosoftSQLServerCatalogTarget.

    Especifica um destino que usa o Microsoft SQL.

  • MySQLCatalogTarget – Um objeto MySQLCatalogTarget.

    Especifica um destino que usa o MySQL.

  • OracleSQLCatalogTarget – Um objeto OracleSQLCatalogTarget.

    Especifica um destino que usa o Oracle SQL.

  • PostgreSQLCatalogTarget – Um objeto PostgreSQLCatalogTarget.

    Especifica um destino que usa o Postgres SQL.

  • DynamicTransform – Um objeto DynamicTransform.

    Especifica uma transformação visual personalizada criada por um usuário.

  • EvaluateDataQuality – Um objeto EvaluateDataQuality.

    Especifica os critérios da avaliação de qualidade dos dados.

  • S3CatalogHudiSource – Um objeto S3CatalogHudiSource.

    Especifica uma fonte de dados Hudi registrada no AWS Glue Data Catalog. A fonte de dados deve estar armazenada no Amazon S3.

  • CatalogHudiSource – Um objeto CatalogHudiSource.

    Especifica uma fonte de dados Hudi registrada no AWS Glue Data Catalog.

  • S3HudiSource – Um objeto S3HudiSource.

    Especifica uma fonte de dados Hudi armazenada no Amazon S3.

  • S3HudiCatalogTarget – Um objeto S3HudiCatalogTarget.

    Especifica um destino de dados que grava em uma fonte de dados Hudi no AWS Glue.

  • S3HudiDirectTarget – Um objeto S3HudiDirectTarget.

    Especifica um destino que grava em uma fonte de dados Hudi no Amazon S3.

  • S3CatalogDeltaSource – Um objeto S3CatalogDeltaSource.

    Especifica uma fonte de dados do Delta Lake que é registrada no catálogo de dados do AWS Glue. A fonte de dados deve estar armazenada no Amazon S3.

  • CatalogDeltaSource – Um objeto CatalogDeltaSource.

    Especifica uma fonte de dados do Delta Lake que é registrada no catálogo de dados do AWS Glue.

  • S3DeltaSource – Um objeto S3DeltaSource.

    Especifica uma fonte de dados do Delta Lake armazenada no Amazon S3.

  • S3DeltaCatalogTarget – Um objeto S3DeltaCatalogTarget.

    Especifica um destino que grava em uma fonte de dados do Delta Lake no catálogo de dados do AWS Glue.

  • S3DeltaDirectTarget – Um objeto S3DeltaDirectTarget.

    Especifica um destino que grava em uma fonte de dados do Delta Lake no Amazon S3.

  • AmazonRedshiftSource – Um objeto AmazonRedshiftSource.

    Especifica um destino que grava em uma fonte de dados no Amazon Redshift.

  • AmazonRedshiftTarget – Um objeto AmazonRedshiftTarget.

    Especifica um destino que grava em um destino de dados no Amazon Redshift.

  • EvaluateDataQualityMultiFrame – Um objeto EvaluateDataQualityMultiFrame.

    Especifica os critérios da avaliação de qualidade dos dados. Permite vários dados de entrada e retorna um conjunto de quadros dinâmicos.

  • Recipe – Um objeto Fórmula.

    Especifica um nó de fórmula do AWS Glue DataBrew.

  • SnowflakeSource – Um objeto SnowflakeSource.

    Especifica uma fonte de dados do Snowflake.

  • SnowflakeTarget – Um objeto SnowflakeTarget.

    Especifica um destino que grava em uma fonte de dados do Snowflake.

  • ConnectorDataSource – Um objeto ConnectorDataSource.

    Especifica uma fonte gerada com opções de conexão padrão.

  • ConnectorDataTarget – Um objeto ConnectorDataTarget.

    Especifica um destino gerado com opções de conexão padrão.

Estrutura JDBCConnectorOptions

Opções de conexão adicionais para o conector.

Campos
  • FilterPredicate – String UTF-8 correspondente a Custom string pattern #34.

    Cláusula de condição extra para filtrar dados da fonte. Por exemplo:

    BillingCity='Mountain View'

    Ao usar uma consulta em vez de um nome de tabela, você deve validar que a consulta funciona com o filterPredicate especificado.

  • PartitionColumn – String UTF-8 correspondente a Custom string pattern #34.

    O nome de uma coluna de inteiros usada para o particionamento. Essa opção só funciona quando está incluída em lowerBound, upperBound e numPartitions. Essa opção funciona da mesma maneira que no leitor JDBC Spark SQL.

  • LowerBound: número (inteiro longo), no máximo None (Nenhum).

    O valor mínimo de partitionColumn que é usado para decidir o passo de partição.

  • UpperBound: número (inteiro longo), no máximo None (Nenhum).

    O valor máximo de partitionColumn que é usado para decidir o passo de partição.

  • NumPartitions: número (inteiro longo), no máximo None (Nenhum).

    O número de partições. Esse valor, juntamente com lowerBound (inclusive) e upperBound (exclusive), forma os passos de partição para as expressões de cláusula WHERE geradas que são usadas para dividir a partitionColumn.

  • JobBookmarkKeys – Uma matriz de strings UTF-8.

    O nome das chaves de marcador de trabalho pelas quais classificar.

  • JobBookmarkKeysSortOrder – String UTF-8 correspondente a Custom string pattern #34.

    Especifica ordem de classificação ascendente ou descendente.

  • DataTypeMapping – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 (valores válidos: ARRAY | BIGINT | BINARY | BIT | BLOB | BOOLEAN | CHAR | CLOB | DATALINK | DATE | DECIMAL | DISTINCT | DOUBLE | FLOAT | INTEGER | JAVA_OBJECT | LONGNVARCHAR | LONGVARBINARY | LONGVARCHAR | NCHAR | NCLOB | NULL | NUMERIC | NVARCHAR | OTHER | REAL | REF | REF_CURSOR | ROWID | SMALLINT | SQLXML | STRUCT | TIME | TIME_WITH_TIMEZONE | TIMESTAMP | TIMESTAMP_WITH_TIMEZONE | TINYINT | VARBINARY | VARCHAR).

    Cada valor é uma string UTF-8 (valores válidos: DATE | STRING | TIMESTAMP | INT | FLOAT | LONG | BIGDECIMAL | BYTE | SHORT | DOUBLE).

    Mapeamento de tipo de dados personalizado que constrói um mapeamento a partir de um tipo de dados JDBC para um tipo de dados do AWS Glue. Por exemplo, a opção "dataTypeMapping":{"FLOAT":"STRING"} mapeia campos de dados JDBC do tipo FLOAT para o tipo String do Java chamando o método ResultSet.getString() do driver e o usa para construir o registro AWS Glue. O objeto ResultSet é implantado por cada driver, portanto, o comportamento é específico para o driver que você usa. Consulte a documentação do driver do JDBC para entender como ele executa as conversões.

Estrutura StreamingDataPreviewOptions

Especifica opções relacionadas à previsualização de dados para exibir uma amostra de seus dados.

Campos
  • PollingTime: número (longo), pelo menos 10.

    O tempo de sondagem, em milissegundos.

  • RecordPollingLimit: número (longo), pelo menos 1.

    O limite para o número de registros sondados.

Estrutura AthenaConnectorSource

Especifica um conector para uma fonte de dados do Amazon Athena.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados.

  • ConnectionNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da conexão associada ao conector.

  • ConnectorNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome de um conector que ajuda a acessar o datastore no AWS Glue Studio.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O tipo de conexão, como marketplace.athena ou custom.athena, designando uma conexão com um datastore do Amazon Athena.

  • ConnectionTable – String UTF-8 correspondente a Custom string pattern #35.

    O nome da tabela na fonte de dados.

  • SchemaNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do grupo de logs do CloudWatch a ser lido. Por exemplo, ./aws-glue/jobs/output

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte do Athena personalizada.

Estrutura JDBCConnectorSource

Especifica um conector para uma fonte de dados JDBC.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados.

  • ConnectionNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da conexão associada ao conector.

  • ConnectorNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome de um conector que ajuda a acessar o datastore no AWS Glue Studio.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O tipo de conexão, como marketplace.jdbc ou custom.jdbc, designando uma conexão com um datastore JDBC.

  • AdditionalOptions – Um objeto JDBCConnectorOptions.

    Opções de conexão adicionais para o conector.

  • ConnectionTable – String UTF-8 correspondente a Custom string pattern #35.

    O nome da tabela na fonte de dados.

  • Query – String UTF-8 correspondente a Custom string pattern #36.

    A tabela ou consulta SQL da qual obter os dados. Você pode especificar ConnectionTable ou query, mas não os dois.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte do JDBC personalizada.

Estrutura SparkConnectorSource

Especifica um conector para uma fonte de dados do Apache Spark.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados.

  • ConnectionNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da conexão associada ao conector.

  • ConnectorNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome de um conector que ajuda a acessar o datastore no AWS Glue Studio.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O tipo de conexão, como marketplace.spark ou custom.spark, designando uma conexão com um datastore do Apache Spark.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Opções de conexão adicionais para o conector.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte do Spark personalizada.

Estrutura CatalogSource

Especifica um datastore no catálogo de dados do.AWS Glue

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do datastore.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados da qual a leitura será feita.

Estrutura MySQLCatalogSource

Especifica uma fonte de dados do MySQL no AWS Glue Data Catalog.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados da qual a leitura será feita.

Estrutura PostgreSQLCatalogSource

Especifica uma fonte de dados do Postgres SQL no AWS Glue Data Catalog.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados da qual a leitura será feita.

Estrutura OracleSQLCatalogSource

Especifica uma fonte de dados do Oracle no AWS Glue Data Catalog.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados da qual a leitura será feita.

Estrutura MicrosoftSQLServerCatalogSource

Especifica uma fonte de dados do Microsoft SQL Server no AWS Glue Data Catalog.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados da qual a leitura será feita.

Estrutura CatalogKinesisSource

Especifica uma fonte de dados do Kinesis no catálogo de dados do AWS Glue.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados.

  • WindowSize – Número (inteiro), não mais do que None (Nenhum).

    A quantidade de tempo gasto no processamento de cada micro lote.

  • DetectSchema – Booleano.

    Se o esquema deve ser determinado automaticamente a partir dos dados recebidos.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados da qual a leitura será feita.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados do qual a leitura será feita.

  • StreamingOptions – Um objeto KinesisStreamingSourceOptions.

    Opções adicionais para a fonte de dados de transmissão do Kinesis.

  • DataPreviewOptions – Um objeto StreamingDataPreviewOptions.

    Opções adicionais para previsualização de dados.

Estrutura DirectKinesisSource

Especifica uma fonte de dados direta do Amazon Kinesis.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados.

  • WindowSize – Número (inteiro), não mais do que None (Nenhum).

    A quantidade de tempo gasto no processamento de cada micro lote.

  • DetectSchema – Booleano.

    Se o esquema deve ser determinado automaticamente a partir dos dados recebidos.

  • StreamingOptions – Um objeto KinesisStreamingSourceOptions.

    Opções adicionais para a fonte de dados de transmissão do Kinesis.

  • DataPreviewOptions – Um objeto StreamingDataPreviewOptions.

    Opções adicionais para previsualização de dados.

Estrutura KinesisStreamingSourceOptions

Opções adicionais para a fonte de dados de transmissão do Amazon Kinesis.

Campos
  • EndpointUrl – String UTF-8 correspondente a Custom string pattern #34.

    O URL do endpoint do Kinesis.

  • StreamName – String UTF-8 correspondente a Custom string pattern #34.

    O nome do fluxo de dados do Kinesis.

  • Classification – String UTF-8 correspondente a Custom string pattern #34.

    Uma classificação opcional.

  • Delimiter – String UTF-8 correspondente a Custom string pattern #34.

    Especifica o caractere delimitador.

  • StartingPosition – String UTF-8 (valores válidos: latest="LATEST" | trim_horizon="TRIM_HORIZON" | earliest="EARLIEST" | timestamp="TIMESTAMP").

    A posição inicial no fluxo de dados do Kinesis de onde ler os dados. Os valores possíveis são "latest", "trim_horizon", "earliest" ou uma string de timestamp no formato UTC no padrão yyyy-mm-ddTHH:MM:SSZ (onde Z representa um desvio do fuso horário UTC com +/-). Por exemplo: "2023-04-04T08:00:00-04:00"). O valor padrão é "latest".

    Observação: o uso de um valor que é uma string de timestamp no formato UTC para “StartingPosition” só é compatível com o AWS Glue a versão 4.0 ou posterior.

  • MaxFetchTimeInMs: número (inteiro longo), no máximo None (Nenhum).

    O tempo máximo para o executor do trabalho ler registros referentes ao lote atual do fluxo de dados do Kinesis especificado em milissegundos (ms). Várias chamadas de API GetRecords podem ser feitas nesse período. O valor padrão é 1000.

  • MaxFetchRecordsPerShard: número (inteiro longo), no máximo None (Nenhum).

    O número máximo de registros a serem obtidos por fragmento no fluxo de dados do Kinesis por microlote. Observação: o cliente poderá exceder esse limite se o trabalho de streaming já tiver lido registros extras do Kinesis (na mesma chamada get-records). Se MaxFetchRecordsPerShard precisa ser rigoroso, então precisa ser um múltiplo de MaxRecordPerRead. O valor padrão é 100000.

  • MaxRecordPerRead: número (inteiro longo), no máximo None (Nenhum).

    O número máximo de registros a serem obtidos por fragmento no fluxo de dados do Kinesis em cada operação getRecords. O valor padrão é 10000.

  • AddIdleTimeBetweenReads – Booleano.

    Adiciona um atraso de tempo entre duas operações getRecords consecutivas. O valor padrão é "False". Essa opção só pode ser configurada para o Glue versão 2.0 e posterior.

  • IdleTimeBetweenReadsInMs: número (inteiro longo), no máximo None (Nenhum).

    O atraso mínimo entre duas operações getRecords consecutivas, especificado em ms. O valor padrão é 1000. Essa opção só pode ser configurada para o Glue versão 2.0 e posterior.

  • DescribeShardInterval: número (inteiro longo), no máximo None (Nenhum).

    O intervalo de tempo mínimo entre duas chamadas de API ListShards para que seu script considere a refragmentação. O valor padrão é 1s.

  • NumRetries – Número (inteiro), não mais do que None (Nenhum).

    O número máximo de novas tentativas para solicitações de API do Kinesis Data Streams. O valor padrão é 3.

  • RetryIntervalMs: número (inteiro longo), no máximo None (Nenhum).

    O período de espera (especificado em ms) antes de repetir a chamada da API Kinesis Data Streams. O valor padrão é 1000.

  • MaxRetryIntervalMs: número (inteiro longo), no máximo None (Nenhum).

    O período de espera máximo (especificado em ms) entre duas tentativas de uma chamada de API Kinesis Data Streams. O valor padrão é 10000.

  • AvoidEmptyBatches – Booleano.

    Evita a criação de um trabalho de microlote vazio verificando se há dados não lidos no fluxo de dados do Kinesis antes do lote ser iniciado. O valor padrão é "False".

  • StreamArn – String UTF-8 correspondente a Custom string pattern #34.

    O nome de recurso da Amazon (ARN) do fluxo de dados do Kinesis.

  • RoleArn – String UTF-8 correspondente a Custom string pattern #34.

    O nome do recurso da Amazon (ARN) da função a ser assumida pelo uso do AWS Security Token Service (AWS STS). Essa função deve ter permissões para descrever ou ler operações de registro para o fluxo de dados do Kinesis. Você deve usar esse parâmetro ao acessar um fluxo de dados em uma conta diferente. Usado em conjunto com "awsSTSSessionName".

  • RoleSessionName – String UTF-8 correspondente a Custom string pattern #34.

    Um identificador para a sessão que assume a função usando o AWS STS. Você deve usar esse parâmetro ao acessar um fluxo de dados em uma conta diferente. Usado em conjunto com "awsSTSRoleARN".

  • AddRecordTimestamp – String UTF-8 correspondente a Custom string pattern #34.

    Quando essa opção for definida como "true", a saída de dados conterá uma coluna adicional denominada "__src_timestamp" que indica a hora que o registro correspondente é recebido pelo fluxo. O valor padrão é "false". Essa opção é compatível com o AWS Glue versão 4.0 ou posterior.

  • EmitConsumerLagMetrics – String UTF-8 correspondente a Custom string pattern #34.

    Quando a opção for definida como "true", para cada lote, serão emitidas métricas durante o período entre a hora que o registro mais antigo é recebido pelo tópico e a hora que ele chega ao AWS Glue para o CloudWatch. O nome da métrica é "glue.driver.streaming.maxConsumerLagInMs". O valor padrão é "false". Essa opção é compatível com o AWS Glue versão 4.0 ou posterior.

  • StartingTimestamp – String UTF-8.

    O timestamp do registro no fluxo de dados do Kinesis para começar a ler os dados. Os valores possíveis são uma string de timestamp no formato UTC no padrão yyyy-mm-ddTHH:MM:SSZ (onde Z representa um desvio do fuso horário UTC com +/-). Por exemplo: "2023-04-04T08:00:00+08:00").

Estrutura CatalogKafkaSource

Especifica um datastore do Apache Kafka no catálogo de dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do datastore.

  • WindowSize – Número (inteiro), não mais do que None (Nenhum).

    A quantidade de tempo gasto no processamento de cada micro lote.

  • DetectSchema – Booleano.

    Se o esquema deve ser determinado automaticamente a partir dos dados recebidos.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados da qual a leitura será feita.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados do qual a leitura será feita.

  • StreamingOptions – Um objeto KafkaStreamingSourceOptions.

    Especifica as opções de transmissão.

  • DataPreviewOptions – Um objeto StreamingDataPreviewOptions.

    Especifica opções relacionadas à previsualização de dados para exibir uma amostra de seus dados.

Estrutura DirectKafkaSource

Especifica um datastore do Apache Kafka.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do datastore.

  • StreamingOptions – Um objeto KafkaStreamingSourceOptions.

    Especifica as opções de transmissão.

  • WindowSize – Número (inteiro), não mais do que None (Nenhum).

    A quantidade de tempo gasto no processamento de cada micro lote.

  • DetectSchema – Booleano.

    Se o esquema deve ser determinado automaticamente a partir dos dados recebidos.

  • DataPreviewOptions – Um objeto StreamingDataPreviewOptions.

    Especifica opções relacionadas à previsualização de dados para exibir uma amostra de seus dados.

Estrutura KafkaStreamingSourceOptions

Opções adicionais para transmissões.

Campos
  • BootstrapServers – String UTF-8 correspondente a Custom string pattern #34.

    Uma lista de URLs do servidor de bootstrap, por exemplo, como b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094. Essa opção deve ser especificada na chamada de API ou definida nos metadados da tabela no Data Catalog.

  • SecurityProtocol – String UTF-8 correspondente a Custom string pattern #34.

    O protocolo usado para se comunicar com os agentes. Os valores possíveis são "SSL" ou "PLAINTEXT".

  • ConnectionName – String UTF-8 correspondente a Custom string pattern #34.

    O nome da conexão.

  • TopicName – String UTF-8 correspondente a Custom string pattern #34.

    O nome do tópico conforme especificado no Apache Kafka. É necessário especificar pelo menos um "topicName", "assign" ou "subscribePattern".

  • Assign – String UTF-8 correspondente a Custom string pattern #34.

    As TopicPartitions específicas a consumir. É necessário especificar pelo menos um "topicName", "assign" ou "subscribePattern".

  • SubscribePattern – String UTF-8 correspondente a Custom string pattern #34.

    Uma string regex Java que identifica a lista de tópicos para assinar. É necessário especificar pelo menos um "topicName", "assign" ou "subscribePattern".

  • Classification – String UTF-8 correspondente a Custom string pattern #34.

    Uma classificação opcional.

  • Delimiter – String UTF-8 correspondente a Custom string pattern #34.

    Especifica o caractere delimitador.

  • StartingOffsets – String UTF-8 correspondente a Custom string pattern #34.

    A posição inicial no tópico do Kafka de onde ler os dados. Os valores possíveis são "earliest" ou "latest". O valor padrão é "latest".

  • EndingOffsets – String UTF-8 correspondente a Custom string pattern #34.

    O ponto final quando uma consulta em lote é encerrada. Os valores possíveis são "latest" ou uma string JSON que especifica um deslocamento final para cada TopicPartition.

  • PollTimeoutMs: número (inteiro longo), no máximo None (Nenhum).

    O tempo limite em milissegundos para sondar dados do Kafka em executores de trabalho do Spark. O valor padrão é 512.

  • NumRetries – Número (inteiro), não mais do que None (Nenhum).

    O número de novas tentativas antes de falhar em obter os deslocamentos do Kafka. O valor padrão é 3.

  • RetryIntervalMs: número (inteiro longo), no máximo None (Nenhum).

    O tempo em milissegundos a se esperar antes de tentar novamente buscar os deslocamentos do Kafka. O valor padrão é 10.

  • MaxOffsetsPerTrigger: número (inteiro longo), no máximo None (Nenhum).

    O limite de taxa no número máximo de deslocamentos que são processados por intervalo do acionador. O número total especificado de deslocamentos é dividido proporcionalmente entre topicPartitions de diferentes volumes. O valor padrão é nulo, o que significa que o consumidor lê todos os deslocamentos até o deslocamento mais recente conhecido.

  • MinPartitions – Número (inteiro), não mais do que None (Nenhum).

    O número mínimo desejado de partições a serem lidas do Kafka. O valor padrão é nulo, o que significa que o número de partições do Spark é igual ao número de partições do Kafka.

  • IncludeHeaders – Booleano.

    Se cabeçalhos do Kafka devem ser incluídos. Quando a opção estiver definida como "true", a saída de dados conterá uma coluna adicional chamada "glue_streaming_kafka_headers" com o tipo Array[Struct(key: String, value: String)]. O valor padrão é “false”. Essa opção só está disponível no AWS Glue versão 3.0 ou posterior.

  • AddRecordTimestamp – String UTF-8 correspondente a Custom string pattern #34.

    Quando essa opção for definida como “true“, a saída de dados conterá uma coluna adicional denominada "__src_timestamp" que indica a hora que o registro correspondente é recebido pelo tópico. O valor padrão é "false". Essa opção é compatível com o AWS Glue versão 4.0 ou posterior.

  • EmitConsumerLagMetrics – String UTF-8 correspondente a Custom string pattern #34.

    Quando essa opção for definida como "true", para cada lote, serão emitidas métricas durante o período entre a hora que o registro mais antigo é recebido pelo tópico e a hora que ele chega ao AWS Glue. O nome da métrica é "glue.driver.streaming.maxConsumerLagInMs". O valor padrão é "false". Essa opção é compatível com o AWS Glue versão 4.0 ou posterior.

  • StartingTimestamp – String UTF-8.

    O timestamp do registro no tópico do Kafka para começar a ler os dados. Os valores possíveis são uma string de timestamp no formato UTC no padrão yyyy-mm-ddTHH:MM:SSZ (onde Z representa um desvio do fuso horário UTC com +/-). Por exemplo: "2023-04-04T08:00:00+08:00").

    Somente um de StartingTimestamp ou StartingOffsets deve ser definido.

Estrutura RedshiftSource

Especifica um datastore do Amazon Redshift.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do datastore do Amazon Redshift.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    A tabela do banco de dados da qual a leitura será feita.

  • RedshiftTmpDir – String UTF-8 correspondente a Custom string pattern #34.

    O caminho do Amazon S3 onde dados temporários podem ser preparados ao serem copiados do banco de dados.

  • TmpDirIAMRole – String UTF-8 correspondente a Custom string pattern #34.

    A função do IAM com permissões.

Estrutura AmazonRedshiftSource

Especifica uma fonte do Amazon Redshift.

Campos

Estrutura AmazonRedshiftNodeData

Especifica um nó do Amazon Redshift.

Campos
  • AccessType – String UTF-8 correspondente a Custom string pattern #33.

    O tipo de acesso para a conexão do Redshift. Pode ser uma conexão direta ou conexões de catálogo.

  • SourceType – String UTF-8 correspondente a Custom string pattern #33.

    O tipo de origem para especificar se uma determinada tabela é a fonte ou uma consulta personalizada.

  • Connection – Um objeto Opção.

    A conexão do AWS Glue com o cluster do Redshift.

  • Schema – Um objeto Opção.

    O nome do esquema do Redshift ao trabalhar com uma conexão direta.

  • Table – Um objeto Opção.

    O nome da tabela do Redshift ao trabalhar com uma conexão direta.

  • CatalogDatabase – Um objeto Opção.

    O nome do banco de dados do catálogo de dados do AWS Glue ao trabalhar com um catálogo de dados.

  • CatalogTable – Um objeto Opção.

    O nome da tabela do catálogo de dados do AWS Glue ao trabalhar com um catálogo de dados.

  • CatalogRedshiftSchema – String UTF-8.

    O nome do esquema do Redshift ao trabalhar com um catálogo de dados.

  • CatalogRedshiftTable – String UTF-8.

    A tabela do banco de dados da qual a leitura será feita.

  • TempDir – String UTF-8 correspondente a Custom string pattern #34.

    O caminho do Amazon S3 onde dados temporários podem ser preparados ao serem copiados do banco de dados.

  • IamRole – Um objeto Opção.

    Opcional. O nome do perfil usado ao conectar com o S3. O perfil do IAM, quando deixado em branco, assumirá como padrão o perfil no trabalho.

  • AdvancedOptions – Uma matriz de objetos AmazonRedshiftAdvancedOption.

    Valores opcionais ao se conectar ao cluster do Redshift.

  • SampleQuery – String UTF-8.

    O SQL usado para buscar os dados de uma fonte do Redshift quando o SourceType é "consulta".

  • PreAction – String UTF-8.

    O SQL usado antes de um MERGE ou APPEND com upsert ser executado.

  • PostAction – String UTF-8.

    O SQL usado antes de um MERGE ou APPEND com upsert ser executado.

  • Action – String UTF-8.

    Especifica como a gravação em um cluster do Redshift ocorrerá.

  • TablePrefix – String UTF-8 correspondente a Custom string pattern #33.

    Especifica o prefixo de uma tabela.

  • Upsert – Booleano.

    A ação usada no Redshift vai para o coletor ao fazer um APPEND.

  • MergeAction – String UTF-8 correspondente a Custom string pattern #33.

    A ação usada para determinar como um MERGE em um coletor do Redshift será tratado.

  • MergeWhenMatched – String UTF-8 correspondente a Custom string pattern #33.

    A ação usada para determinar como um MERGE em um coletor do Redshift será tratado quando um registro existente corresponder a um novo registro.

  • MergeWhenNotMatched – String UTF-8 correspondente a Custom string pattern #33.

    A ação usada para determinar como um MERGE em um coletor do Redshift será tratado quando um registro existente não corresponder a um novo registro.

  • MergeClause – String UTF-8.

    O SQL usado em uma mesclagem personalizada para lidar com registros correspondentes.

  • CrawlerConnection – String UTF-8.

    Especifica o nome da conexão associada à tabela do catálogo usada.

  • TableSchema – Uma matriz de objetos Opção.

    A matriz de saída do esquema para um determinado nó.

  • StagingTable – String UTF-8.

    O nome da tabela de preparação temporária usada ao fazer um MERGE ou APPEND com upsert.

  • SelectedColumns – Uma matriz de objetos Opção.

    A lista de nomes de colunas usada para determinar um registro correspondente ao fazer MERGE ou APPEND com upsert.

Estrutura AmazonRedshiftAdvancedOption

Especifica um valor opcional ao se conectar ao cluster do Redshift.

Campos
  • Key – String UTF-8.

    A chave para a opção de conexão adicional.

  • Value – String UTF-8.

    O valor para a opção de conexão adicional.

Estrutura Option

Especifica um valor de opção.

Campos

Estrutura S3CatalogSource

Especifica um datastore do Amazon S3 no catálogo de dados do.AWS Glue

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do datastore.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    A tabela do banco de dados da qual a leitura será feita.

  • PartitionPredicate – String UTF-8 correspondente a Custom string pattern #34.

    As partições que satisfazem a esse predicado são excluídas. Os arquivos dentro do período de retenção nessas partições não são excluídos. Definido como "", vazio por padrão.

  • AdditionalOptions – Um objeto S3SourceAdditionalOptions.

    Especifica opções de conexão adicionais.

Estrutura S3SourceAdditionalOptions

Especifica opções de conexão adicionais para o datastore do Amazon S3.

Campos
  • BoundedSize – Número (extenso).

    Define o limite superior para o tamanho de destino do conjunto de dados em bytes que serão processados.

  • BoundedFiles – Número (extenso).

    Define o limite superior para o número alvo de arquivos que serão processados.

Estrutura S3CsvSource

Especifica um datastore CSV (valores separados por comando) armazenado no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do datastore.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.

  • CompressionType: string UTF-8 (valores válidos: gzip="GZIP" | bzip2="BZIP2").

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • Exclusions – Uma matriz de strings UTF-8.

    Uma string contendo uma lista JSON de padrões glob a excluir estilo Unix. Por exemplo, "[\"**.pdf\"]" exclui todos os arquivos PDF.

  • GroupSize – String UTF-8 correspondente a Custom string pattern #34.

    O tamanho do grupo de destino em bytes. O padrão é calculado com base no tamanho de dados de entrada e o tamanho de seu cluster. Quando há menos de 50.000 arquivos de entrada, "groupFiles" deve ser definido como "inPartition" para poder entrar em vigor.

  • GroupFiles – String UTF-8 correspondente a Custom string pattern #34.

    O agrupamento de arquivos é ativado por padrão quando a entrada contiver mais de 50.000 arquivos. Para habilitar o agrupamento com menos de 50.000 arquivos, defina esse parâmetro como "inPartition". Para desabilitar o agrupamento quando houver mais de 50.000 arquivos, defina esse parâmetro como "none".

  • Recurse – Booleano.

    Se definido como verdadeiro, recursivamente lê arquivos em todos os subdiretórios de acordo com os caminhos especificados.

  • MaxBand – Número (inteiro), não mais do que None (Nenhum).

    Esta opção controla a duração, em milissegundos, após a qual a listagem do s3 provavelmente será consistente. Os arquivos com carimbos de data e hora de modificação que estão dentro dos últimos maxBand milissegundos são rastreados principalmente ao usar JobBookmarks para considerar a consistência final do Amazon S3. A maioria dos usuários não precisa definir essa opção. O valor padrão é 900.000 milissegundos, ou 15 minutos.

  • MaxFilesInBand – Número (inteiro), não mais do que None (Nenhum).

    Esta opção especifica o número máximo de arquivos para salvar nos últimos maxBand segundos. Se esse número for excedido, os arquivos extras são ignorados e apenas processados na próxima execução do trabalho.

  • AdditionalOptions – Um objeto S3DirectSourceAdditionalOptions.

    Especifica opções de conexão adicionais.

  • Separatorobrigatório: string UTF-8 (valores válidos: comma="COMMA" | ctrla="CTRLA" | pipe="PIPE" | semicolon="SEMICOLON" | tab="TAB").

    Especifica o caractere delimitador. O padrão é uma vírgula: ",", mas qualquer outro caractere pode ser especificado.

  • Escaper – String UTF-8 correspondente a Custom string pattern #35.

    Especifica um caractere a ser usado para escape. Essa opção é usada somente ao ler arquivos CSV. O valor padrão é none. Se ativado, o caractere que imediatamente segue é usado no estado em que se encontram, exceto para um pequeno conjunto de escapes conhecidos (\n, \r, \t e \0).

  • QuoteChar: obrigatório: string UTF-8 (valores válidos: quote="QUOTE" | quillemet="QUILLEMET" | single_quote="SINGLE_QUOTE" | disabled="DISABLED").

    Especifica o caractere a ser usado para aspas. O padrão é aspas duplas: '"'. Defina como -1 para desativar as aspas por completo.

  • Multiline – Booleano.

    Um valor booleano que especifica se um único registro pode abranger várias linhas. Isso pode ocorrer quando um campo contém um caractere de nova linha entre aspas. Você deve definir essa opção como True (Verdadeira) se qualquer registro ocupar várias linhas. O valor padrão é False, que permite uma divisão de arquivos mais radical durante a análise.

  • WithHeader – Booleano.

    Um valor booleano que especifica se é necessário tratar a primeira linha como um cabeçalho. O valor padrão é False.

  • WriteHeader – Booleano.

    Um valor booleano que especifica se é necessário escrever o cabeçalho na saída. O valor padrão é True.

  • SkipFirst – Booleano.

    Um valor booleano que especifica se é necessário ignorar a primeira linha de dados. O valor padrão é False.

  • OptimizePerformance – Booleano.

    Um valor booleano que especifica se deve usar o leitor SIMD para CSV avançado junto com formatos de memória colunar baseados no Apache Arrow. Disponível somente no AWS Glue versão 3.0.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte CSV do S3.

Estrutura DirectJDBCSource

Especifica a conexão direta da fonte JDBC.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da conexão da fonte JDBC.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O banco de dados da conexão da fonte JDBC.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    A tabela da conexão da fonte JDBC.

  • ConnectionNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da conexão da fonte JDBC.

  • ConnectionTypeobrigatório: string UTF-8 (valores válidos: sqlserver | mysql | oracle | postgresql | redshift).

    O tipo de conexão da fonte JDBC.

  • RedshiftTmpDir – String UTF-8 correspondente a Custom string pattern #34.

    O diretório temporário da fonte JDBC do Redshift.

Estrutura S3DirectSourceAdditionalOptions

Especifica opções de conexão adicionais para o datastore do Amazon S3.

Campos
  • BoundedSize – Número (extenso).

    Define o limite superior para o tamanho de destino do conjunto de dados em bytes que serão processados.

  • BoundedFiles – Número (extenso).

    Define o limite superior para o número alvo de arquivos que serão processados.

  • EnableSamplePath – Booleano.

    Define a opção para ativar um caminho de exemplo.

  • SamplePath – String UTF-8 correspondente a Custom string pattern #34.

    Se ativado, especifica o caminho de exemplo.

Estrutura S3JsonSource

Especifica um datastore JSON armazenado no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do datastore.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.

  • CompressionType: string UTF-8 (valores válidos: gzip="GZIP" | bzip2="BZIP2").

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • Exclusions – Uma matriz de strings UTF-8.

    Uma string contendo uma lista JSON de padrões glob a excluir estilo Unix. Por exemplo, "[\"**.pdf\"]" exclui todos os arquivos PDF.

  • GroupSize – String UTF-8 correspondente a Custom string pattern #34.

    O tamanho do grupo de destino em bytes. O padrão é calculado com base no tamanho de dados de entrada e o tamanho de seu cluster. Quando há menos de 50.000 arquivos de entrada, "groupFiles" deve ser definido como "inPartition" para poder entrar em vigor.

  • GroupFiles – String UTF-8 correspondente a Custom string pattern #34.

    O agrupamento de arquivos é ativado por padrão quando a entrada contiver mais de 50.000 arquivos. Para habilitar o agrupamento com menos de 50.000 arquivos, defina esse parâmetro como "inPartition". Para desabilitar o agrupamento quando houver mais de 50.000 arquivos, defina esse parâmetro como "none".

  • Recurse – Booleano.

    Se definido como verdadeiro, recursivamente lê arquivos em todos os subdiretórios de acordo com os caminhos especificados.

  • MaxBand – Número (inteiro), não mais do que None (Nenhum).

    Esta opção controla a duração, em milissegundos, após a qual a listagem do s3 provavelmente será consistente. Os arquivos com carimbos de data e hora de modificação que estão dentro dos últimos maxBand milissegundos são rastreados principalmente ao usar JobBookmarks para considerar a consistência final do Amazon S3. A maioria dos usuários não precisa definir essa opção. O valor padrão é 900.000 milissegundos, ou 15 minutos.

  • MaxFilesInBand – Número (inteiro), não mais do que None (Nenhum).

    Esta opção especifica o número máximo de arquivos para salvar nos últimos maxBand segundos. Se esse número for excedido, os arquivos extras são ignorados e apenas processados na próxima execução do trabalho.

  • AdditionalOptions – Um objeto S3DirectSourceAdditionalOptions.

    Especifica opções de conexão adicionais.

  • JsonPath – String UTF-8 correspondente a Custom string pattern #34.

    Uma string JsonPath que define os dados JSON.

  • Multiline – Booleano.

    Um valor booleano que especifica se um único registro pode abranger várias linhas. Isso pode ocorrer quando um campo contém um caractere de nova linha entre aspas. Você deve definir essa opção como True (Verdadeira) se qualquer registro ocupar várias linhas. O valor padrão é False, que permite uma divisão de arquivos mais radical durante a análise.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte JSON do S3.

Estrutura S3ParquetSource

Especifica um datastore do Apache Parquet armazenado no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do datastore.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.

  • CompressionType – String UTF-8 (valores válidos: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE").

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • Exclusions – Uma matriz de strings UTF-8.

    Uma string contendo uma lista JSON de padrões glob a excluir estilo Unix. Por exemplo, "[\"**.pdf\"]" exclui todos os arquivos PDF.

  • GroupSize – String UTF-8 correspondente a Custom string pattern #34.

    O tamanho do grupo de destino em bytes. O padrão é calculado com base no tamanho de dados de entrada e o tamanho de seu cluster. Quando há menos de 50.000 arquivos de entrada, "groupFiles" deve ser definido como "inPartition" para poder entrar em vigor.

  • GroupFiles – String UTF-8 correspondente a Custom string pattern #34.

    O agrupamento de arquivos é ativado por padrão quando a entrada contiver mais de 50.000 arquivos. Para habilitar o agrupamento com menos de 50.000 arquivos, defina esse parâmetro como "inPartition". Para desabilitar o agrupamento quando houver mais de 50.000 arquivos, defina esse parâmetro como "none".

  • Recurse – Booleano.

    Se definido como verdadeiro, recursivamente lê arquivos em todos os subdiretórios de acordo com os caminhos especificados.

  • MaxBand – Número (inteiro), não mais do que None (Nenhum).

    Esta opção controla a duração, em milissegundos, após a qual a listagem do s3 provavelmente será consistente. Os arquivos com carimbos de data e hora de modificação que estão dentro dos últimos maxBand milissegundos são rastreados principalmente ao usar JobBookmarks para considerar a consistência final do Amazon S3. A maioria dos usuários não precisa definir essa opção. O valor padrão é 900.000 milissegundos, ou 15 minutos.

  • MaxFilesInBand – Número (inteiro), não mais do que None (Nenhum).

    Esta opção especifica o número máximo de arquivos para salvar nos últimos maxBand segundos. Se esse número for excedido, os arquivos extras são ignorados e apenas processados na próxima execução do trabalho.

  • AdditionalOptions – Um objeto S3DirectSourceAdditionalOptions.

    Especifica opções de conexão adicionais.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte Parquet do S3.

Estrutura S3DeltaSource

Especifica uma fonte de dados do Delta Lake armazenada no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte do Delta Lake.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.

  • AdditionalDeltaOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Especifica opções de conexão adicionais.

  • AdditionalOptions – Um objeto S3DirectSourceAdditionalOptions.

    Especifica opções adicionais para o conector.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte do Delta Lake.

Estrutura S3CatalogDeltaSource

Especifica uma fonte de dados do Delta Lake que é registrada no catálogo de dados do AWS Glue. A fonte de dados deve estar armazenada no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados do Delta Lake.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados da qual a leitura será feita.

  • AdditionalDeltaOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Especifica opções de conexão adicionais.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte do Delta Lake.

Estrutura CatalogDeltaSource

Especifica uma fonte de dados do Delta Lake que é registrada no catálogo de dados do AWS Glue.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados do Delta Lake.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados da qual a leitura será feita.

  • AdditionalDeltaOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Especifica opções de conexão adicionais.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte do Delta Lake.

Estrutura S3HudiSource

Especifica uma fonte de dados Hudi armazenada no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte Hudi.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.

  • AdditionalHudiOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Especifica opções de conexão adicionais.

  • AdditionalOptions – Um objeto S3DirectSourceAdditionalOptions.

    Especifica opções adicionais para o conector.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte Hudi.

Estrutura S3CatalogHudiSource

Especifica uma fonte de dados Hudi registrada no AWS Glue Data Catalog. A fonte de dados Hudi deve ser armazenada no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados Hudi.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados da qual a leitura será feita.

  • AdditionalHudiOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Especifica opções de conexão adicionais.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte Hudi.

Estrutura CatalogHudiSource

Especifica uma fonte de dados Hudi registrada no AWS Glue Data Catalog.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados Hudi.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados da qual a leitura será feita.

  • AdditionalHudiOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Especifica opções de conexão adicionais.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte Hudi.

Estrutura DynamoDBCatalogSource

Especifica uma fonte de dados do DynamoDB no AWS Glue Data Catalog.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados da qual a leitura será feita.

Estrutura RelationalCatalogSource

Especifica uma fonte de dados de banco de dados relacional no AWS Glue Data Catalog.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados da qual a leitura será feita.

Estrutura JDBCConnectorTarget

Especifica um destino de dados que grava no Amazon S3 no armazenamento colunar do Apache Parquet.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • ConnectionNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da conexão associada ao conector.

  • ConnectionTableObrigatório: string UTF-8, correspondente a Custom string pattern #35.

    O nome da tabela no destino dos dados.

  • ConnectorNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome de um conector que será usado.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O tipo de conexão, como marketplace.jdbc ou custom.jdbc, designando uma conexão com um destino de dados JDBC.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Opções de conexão adicionais para o conector.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para o destino do JDBC.

Estrutura SparkConnectorTarget

Especifica um destino que usa um conector Apache Spark.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • ConnectionNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome de uma conexão para um conector do Apache Spark.

  • ConnectorNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome de um conector do Apache Spark.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O tipo de conexão, como marketplace.spark ou custom.spark, designando uma conexão com um datastore do Apache Spark.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Opções de conexão adicionais para o conector.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para o destino do Spark personalizado.

Estrutura BasicCatalogTarget

Especifica um destino que usa uma tabela do catálogo de dados do AWS Glue.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do seu destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O banco de dados que contém a tabela que você deseja usar como destino. Esse banco de dados já deve existir no Data Catalog.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    A tabela que define o esquema dos dados de saída. Essa tabela já deve existir no Data Catalog.

Estrutura MySQLCatalogTarget

Especifica um destino que usa o MySQL.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados no qual gravar.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados na qual gravar.

Estrutura PostgreSQLCatalogTarget

Especifica um destino que usa o Postgres SQL.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados no qual gravar.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados na qual gravar.

Estrutura OracleSQLCatalogTarget

Especifica um destino que usa o Oracle SQL.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados no qual gravar.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados na qual gravar.

Estrutura MicrosoftSQLServerCatalogTarget

Especifica um destino que usa o Microsoft SQL.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados no qual gravar.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados na qual gravar.

Estrutura RedshiftTarget

Especifica um destino que usa o Amazon Redshift.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados no qual gravar.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados na qual gravar.

  • RedshiftTmpDir – String UTF-8 correspondente a Custom string pattern #34.

    O caminho do Amazon S3 onde dados temporários podem ser preparados ao serem copiados do banco de dados.

  • TmpDirIAMRole – String UTF-8 correspondente a Custom string pattern #34.

    A função do IAM com permissões.

  • UpsertRedshiftOptions – Um objeto UpsertRedshiftTargetOptions.

    O conjunto de opções para configurar uma operação upsert ao gravar em um destino do Redshift.

Estrutura AmazonRedshiftTarget

Especifica um destino do Amazon Redshift.

Campos
  • Name – String UTF-8 correspondente a Custom string pattern #37.

    O nome do destino do Amazon Redshift.

  • Data – Um objeto AmazonRedshiftNodeData.

    Especifica os dados do nó de destino do Amazon Redshift.

  • Inputs: uma matriz de strings UTF-8, com não menos que 1 nem mais que 1 string.

    Os nós que são entradas para o destino de dados.

Estrutura UpsertRedshiftTargetOptions

As opções para configurar uma operação upsert ao gravar em um destino do Redshift.

Campos
  • TableLocation – String UTF-8 correspondente a Custom string pattern #34.

    A localização física da tabela do Redshift.

  • ConnectionName – String UTF-8 correspondente a Custom string pattern #34.

    O nome da conexão a ser usada para gravar no Redshift.

  • UpsertKeys – Uma matriz de strings UTF-8.

    As chaves usadas para determinar se uma atualização ou uma inserção será executada.

Estrutura S3CatalogTarget

Especifica um destino de dados que grava no Amazon S3 usando o catálogo de dados do AWS Glue.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados na qual gravar.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados no qual gravar.

  • SchemaChangePolicy – Um objeto CatalogSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

Estrutura S3GlueParquetTarget

Especifica um destino de dados que grava no Amazon S3 no armazenamento colunar do Apache Parquet.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • PathObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    Um único caminho do Amazon S3 no qual gravar.

  • Compression – String UTF-8 (valores válidos: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE").

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • SchemaChangePolicy – Um objeto DirectSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

Estrutura CatalogSchemaChangePolicy

Uma política que especifica o comportamentos de atualização do crawler.

Campos
  • EnableUpdateCatalog – Booleano.

    Se comportamento de atualização especificado deve ser usado quando o crawler encontra um esquema alterado.

  • UpdateBehavior: string UTF-8 (valores válidos: UPDATE_IN_DATABASE | LOG).

    O comportamento de atualização quando o crawler encontra um esquema alterado.

Estrutura S3DirectTarget

Especifica um destino de dados que grava no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • PathObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    Um único caminho do Amazon S3 no qual gravar.

  • Compression – String UTF-8 correspondente a Custom string pattern #34.

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • Format: obrigatório: string UTF-8 (valores válidos: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    Especifica o formato de saída de dados para o destino.

  • SchemaChangePolicy – Um objeto DirectSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

Estrutura S3HudiCatalogTarget

Especifica um destino de dados que grava em uma fonte de dados Hudi no AWS Glue.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados na qual gravar.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados no qual gravar.

  • AdditionalOptions: obrigatório: uma matriz de mapa dos pares de chave-valor.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Especifica as opções de conexão adicionais para o conector.

  • SchemaChangePolicy – Um objeto CatalogSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

Estrutura S3HudiDirectTarget

Especifica um destino que grava em uma fonte de dados Hudi no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PathObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O caminho do Amazon S3 da fonte de dados Hudi na qual gravar.

  • Compression: obrigatório: string UTF-8 (valores válidos: gzip="GZIP" | lzo="LZO" | uncompressed="UNCOMPRESSED" | snappy="SNAPPY").

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • Format: obrigatório: string UTF-8 (valores válidos: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    Especifica o formato de saída de dados para o destino.

  • AdditionalOptions: obrigatório: uma matriz de mapa dos pares de chave-valor.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Especifica as opções de conexão adicionais para o conector.

  • SchemaChangePolicy – Um objeto DirectSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

Estrutura S3DeltaCatalogTarget

Especifica um destino que grava em uma fonte de dados do Delta Lake no catálogo de dados do AWS Glue.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados na qual gravar.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados no qual gravar.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Especifica as opções de conexão adicionais para o conector.

  • SchemaChangePolicy – Um objeto CatalogSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

Estrutura S3DeltaDirectTarget

Especifica um destino que grava em uma fonte de dados do Delta Lake no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • PathObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O caminho do Amazon S3 da fonte de dados do Delta Lake na qual gravar.

  • CompressionObrigatório: string UTF-8 (valores válidos: uncompressed="UNCOMPRESSED" | snappy="SNAPPY").

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • Format: obrigatório: string UTF-8 (valores válidos: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    Especifica o formato de saída de dados para o destino.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Especifica as opções de conexão adicionais para o conector.

  • SchemaChangePolicy – Um objeto DirectSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

Estrutura DirectSchemaChangePolicy

Uma política que especifica o comportamentos de atualização do crawler.

Campos
  • EnableUpdateCatalog – Booleano.

    Se comportamento de atualização especificado deve ser usado quando o crawler encontra um esquema alterado.

  • UpdateBehavior: string UTF-8 (valores válidos: UPDATE_IN_DATABASE | LOG).

    O comportamento de atualização quando o crawler encontra um esquema alterado.

  • Table – String UTF-8 correspondente a Custom string pattern #34.

    Especifica a tabela no banco de dados à qual a política de alteração de esquema se aplica.

  • Database – String UTF-8 correspondente a Custom string pattern #34.

    Especifica o banco de dados no qual a política de alteração de esquema se aplica.

Estrutura ApplyMapping

Especifica uma transformação que mapeia chaves de propriedade de dados na fonte dos dados para chaves de propriedade de dados no destino dos dados. Você pode renomear chaves, modificar os tipos de dados para chaves e escolher quais chaves remover do conjunto de dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • MappingObrigatório: uma matriz de objetos Mapeamento.

    Especifica o mapeamento das chaves de propriedade de dados na fonte dos dados para chaves de propriedade de dados no destino dos dados.

Estrutura Mapping

Especifica o mapeamento de chaves de propriedade de dados.

Campos
  • ToKey – String UTF-8 correspondente a Custom string pattern #34.

    Após o mapeamento de aplicação, qual deve ser o nome da coluna. Pode ser igual a FromPath.

  • FromPath – Uma matriz de strings UTF-8.

    A tabela ou coluna a ser modificada.

  • FromType – String UTF-8 correspondente a Custom string pattern #34.

    O tipo dos dados a serem modificados.

  • ToType – String UTF-8 correspondente a Custom string pattern #34.

    O tipo de dados para o qual os dados devem ser modificados.

  • Dropped – Booleano.

    Se verdadeiro, a coluna será removida.

  • Children – Uma matriz de objetos Mapeamento.

    Aplicável somente a estruturas de dados aninhadas. Se você quiser alterar a estrutura pai, mas também um de seus filhos, você pode preencher esta estrutura de dados. É também Mapping, mas seu FromPath será o FromPath dos pais mais o FromPath dessa estrutura.

    Para a parte dos filhos, suponha que você tenha a estrutura:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

    É possível especificar um Mapping parecido com:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

Estrutura SelectFields

Especifica uma transformação que escolhe as chaves de propriedade de dados que você deseja manter.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Um caminho JSON para uma variável na estrutura de dados.

Estrutura DropFields

Especifica uma transformação que escolhe as chaves de propriedade de dados que você deseja descartar.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Um caminho JSON para uma variável na estrutura de dados.

Estrutura RenameField

Especifica uma transformação que renomeia uma única chave de propriedade de dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • SourcePath: obrigatório: uma matriz de strings UTF-8.

    Um caminho JSON para uma variável na estrutura de dados para os dados da fonte.

  • TargetPath: obrigatório: uma matriz de strings UTF-8.

    Um caminho JSON para uma variável na estrutura de dados para os dados do destino.

Estrutura Spigot

Especifica uma transformação que grava amostras dos dados em um bucket do Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • PathObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    Um caminho no Amazon S3 onde a transformação grava um subconjunto de registros do conjunto de dados em um arquivo JSON, em um bucket do Amazon S3.

  • Topk: número (inteiro), não mais do que 100.

    Especifica vários registros a serem gravados a partir do início do conjunto de dados.

  • Prob: número (double), no máximo 1.

    A probabilidade (um valor decimal com um valor máximo de 1) de escolher qualquer registro. Um valor de 1 indica que cada linha lida do conjunto de dados deve ser incluída na saída de amostra.

Estrutura Join

Especifica uma transformação que une dois conjuntos de dados em um só, usando uma frase de comparação nas chaves de propriedade de dados especificadas. Você pode usar junção inner (interna), outer (externa), left (à esquerda), right (à direita), left semi (semi à esquerda) e left anti (anti à esquerda).

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 2 ou mais de 2 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • JoinTypeobrigatório: string UTF-8 (valores válidos: equijoin="EQUIJOIN" | left="LEFT" | right="RIGHT" | outer="OUTER" | leftsemi="LEFT_SEMI" | leftanti="LEFT_ANTI").

    Especifica o tipo de junção a ser executada nos conjuntos de dados.

  • Columns: obrigatório: uma matriz de objetos JoinColumn, não menos de 2 ou mais de 2 estruturas.

    Uma lista das duas colunas a serem unidas.

Estrutura JoinColumn

Especifica uma coluna a ser unida.

Campos
  • FromObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    A coluna a ser unida.

  • Keys: obrigatório: uma matriz de strings UTF-8.

    A chave da coluna a ser unida.

Estrutura SplitFields

Especifica uma transformação que divide chaves de propriedade de dados em dois DynamicFrames. A saída é uma coleção de DynamicFrames: um com chaves de propriedade de dados selecionadas e outro com as chaves de propriedade de dados restantes.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Um caminho JSON para uma variável na estrutura de dados.

Estrutura SelectFromCollection

Especifica uma transformação que escolhe um DynamicFrame de uma coleção de DynamicFrames. A saída é o DynamicFrame selecionado.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • IndexObrigatório: número (inteiro), não mais do que Nenhum.

    O índice para o DynamicFrame a ser selecionado.

Estrutura FillMissingValues

Especifica uma transformação que localiza registros no conjunto de dados que tenham valores ausentes e adiciona um novo campo com um valor determinado por imputação. O conjunto de dados de entrada é usado para treinar o modelo de machine learning que determina qual deve ser o valor ausente.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • ImputedPathObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    Um caminho JSON para uma variável na estrutura de dados para o conjunto de dados imputado.

  • FilledPath – String UTF-8 correspondente a Custom string pattern #34.

    Um caminho JSON para uma variável na estrutura de dados para o conjunto de dados preenchido.

Estrutura Filter

Especifica uma transformação que divide um conjunto de dados em dois, com base em uma condição de filtro.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • LogicalOperatorObrigatório: string UTF-8 (valores válidos: AND | OR).

    O operador costumava filtrar linhas comparando o valor da chave com um valor especificado.

  • FiltersObrigatório: uma matriz de objetos FilterExpression.

    Especifica uma expressão de filtro.

Estrutura FilterExpression

Especifica uma expressão de filtro.

Campos
  • Operation: obrigatório: string UTF-8 (valores válidos: EQ | LT | GT | LTE | GTE | REGEX | ISNULL).

    O tipo de operação a ser executada na expressão.

  • Negated – Booleano.

    Se a expressão deve ser negada.

  • ValuesObrigatório: uma matriz de objetos FilterValue.

    Uma lista de valores de filtro.

Estrutura FilterValue

Representa uma única entrada na lista de valores de uma FilterExpression.

Campos
  • TypeObrigatório: string UTF-8 (valores válidos: COLUMNEXTRACTED | CONSTANT).

    O tipo de valor do filtro.

  • Value: obrigatório: uma matriz de strings UTF-8.

    O valor a ser associado.

Estrutura CustomCode

Especifica uma transformação que usa código personalizado que você fornece para executar a transformação de dados. A saída é uma coleção de DynamicFrames.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • InputsObrigatório: uma matriz de strings UTF-8, pelo menos 1 string.

    As entradas de dados identificadas por seus nomes de nós.

  • CodeObrigatório: string UTF-8, correspondente a Custom string pattern #29.

    O código personalizado usado para executar a transformação de dados.

  • ClassNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome definido para a classe de nó de código personalizado.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a transformação de código personalizada.

Estrutura SparkSQL

Especifica uma transformação em que você insere uma consulta de SQL usando a sintaxe do Spark SQL para transformar os dados. A saída é um único DynamicFrame.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • InputsObrigatório: uma matriz de strings UTF-8, pelo menos 1 string.

    As entradas de dados identificadas por seus nomes de nós. Você pode associar um nome de tabela a cada nó de entrada a ser usado na consulta SQL. O nome escolhido deve atender às restrições de nomenclatura do Spark SQL.

  • SqlQueryObrigatório: string UTF-8, correspondente a Custom string pattern #36.

    Uma consulta SQL que deve usar a sintaxe do Spark SQL e retornar um único conjunto de dados.

  • SqlAliasesObrigatório: uma matriz de objetos SqlAlias.

    Uma lista de aliases. Um alias permite especificar qual nome usar no SQL para uma determinada entrada. Por exemplo, você tem uma fonte de dados chamada "MyDataSource". Se você especificar From como MyDataSource, e Alias como SqlName, então, em seu SQL, você pode fazer:

    select * from SqlName

    e isso obtém dados de MyDataSource.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a transformação do SparkSQL.

Estrutura SqlAlias

Representa uma única entrada na lista de valores de SqlAliases.

Campos
  • FromObrigatório: string UTF-8, correspondente a Custom string pattern #33.

    Uma tabela ou uma coluna em uma tabela.

  • AliasObrigatório: string UTF-8, correspondente a Custom string pattern #35.

    Um nome temporário dado a uma tabela ou a uma coluna em uma tabela.

Estrutura DropNullFields

Especifica uma transformação que remove colunas do conjunto de dados se todos os valores na coluna forem 'null'. Por padrão, o AWS Glue Studio reconhecerá objetos nulos, mas alguns valores, como strings vazias, strings que sejam "nulas", inteiros -1 ou outros espaços reservados, como zeros, não são automaticamente reconhecidos como nulos.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • NullCheckBoxList – Um objeto NullCheckBoxList.

    Uma estrutura que representa se determinados valores são reconhecidos como valores nulos para remoção.

  • NullTextList – Uma matriz de NullValueField objetos, não mais de 50 estruturas.

    Uma estrutura que especifica uma lista de estruturas NullValueField que representam um valor nulo personalizado, como zero ou outro valor sendo usado como um espaço reservado nulo exclusivo para o conjunto de dados.

    A transformação DropNullFields remove valores nulos personalizados somente se o valor do espaço reservado nulo e o tipo de dados corresponderem aos dados.

Estrutura NullCheckBoxList

Representa se determinados valores são reconhecidos como valores nulos para remoção.

Campos
  • IsEmpty – Booleano.

    Especifica que uma string vazia é considerada como um valor nulo.

  • IsNullString – Booleano.

    Especifica que um valor com a palavra "null" é considerado como um valor nulo.

  • IsNegOne – Booleano.

    Especifica que um valor inteiro de -1 é considerado como um valor nulo.

Estrutura NullValueField

Representa um valor nulo personalizado, como zeros ou outros valores sendo usados como um espaço reservado para nulo exclusivo para o conjunto de dados.

Campos
  • ValueObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O valor do espaço reservado para nulo.

  • DatatypeObrigatório: um objeto DataType.

    O tipo de dados do valor.

Estrutura Datatype

Uma estrutura que representa o tipo de dados do valor.

Campos

Estrutura Merge

Especifica uma transformação que mescla um DynamicFrame com um DynamicFrame de preparação, de acordo com as chaves primárias especificadas para identificar registros. Registros duplicados (com as mesmas chaves primárias) não são eliminados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 2 ou mais de 2 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • SourceObrigatório: string UTF-8, correspondente a Custom string pattern #33.

    O DynamicFrame da fonte que será mesclado com um DynamicFrame de preparação.

  • PrimaryKeys: obrigatório: uma matriz de strings UTF-8.

    A lista de campos de chave primária para corresponder aos registros da fonte e quadros dinâmicos de preparação.

Estrutura Union

Especifica uma transformação que combina as linhas de dois ou mais conjuntos de dados em um único resultado.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 2 ou mais de 2 strings.

    A entrada do ID do nó na transformação.

  • UnionTypeObrigatório: string UTF-8 (valores válidos: ALL | DISTINCT).

    Indica o tipo de transformação Union.

    Especifica ALL para unir todas as linhas de fontes de dados ao DynamicFrame resultante. A união resultante não remove linhas duplicadas.

    Especifica DISTINCT para remover linhas duplicadas no DynamicFrame resultante.

Estrutura PIIDetection

Especifica uma transformação que identifica, remove ou mascara dados de PII.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    A entrada do ID do nó na transformação.

  • PiiType: obrigatório: string UTF-8 (valores válidos: RowAudit | RowMasking | ColumnAudit | ColumnMasking).

    Indica o tipo de transformação PIIDetection.

  • EntityTypesToDetect: obrigatório: uma matriz de strings UTF-8.

    Indica os tipos de entidades que a transformação PIIDetection identificará como dados de PII.

    As entidades do tipo PII incluem: PERSON_NAME, DATE, USA_SNN, EMAIL, USA_ITIN, USA_PASSPORT_NUMBER, PHONE_NUMBER, BANK_ACCOUNT, IP_ADDRESS, MAC_ADDRESS, USA_CPT_CODE, USA_HCPCS_CODE, USA_NATIONAL_DRUG_CODE, USA_MEDICARE_BENEFICIARY_IDENTIFIER, USA_HEALTH_INSURANCE_CLAIM_NUMBER,CREDIT_CARD,USA_NATIONAL_PROVIDER_IDENTIFIER,USA_DEA_NUMBER,USA_DRIVING_LICENSE

  • OutputColumnName – String UTF-8 correspondente a Custom string pattern #34.

    Indica o nome da coluna de saída que conterá qualquer tipo de entidade detectado nessa linha.

  • SampleFraction: número (double), no máximo 1.

    Indica a fração dos dados a serem amostrados ao verificar entidades de PII.

  • ThresholdFraction: número (double), no máximo 1.

    Indica a fração dos dados que devem ser atendidos para que uma coluna seja identificada como dados de PII.

  • MaskValue: string UTF-8, com não mais que 256 bytes de comprimento, correspondente a Custom string pattern #31.

    Indica o valor que substituirá a entidade detectada.

Estrutura Aggregate

Especifica uma transformação que agrupa linhas por campos escolhidos e calcula o valor agregado por função especificada.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Especifica os campos e linhas a serem usados como entradas para a transformação agregada.

  • Groups: obrigatório: uma matriz de strings UTF-8.

    Especifica os campos a serem agrupados.

  • Aggs: obrigatório: uma matriz de objetos AggregateOperation, com, no mínimo, 1 e, no máximo, 30 estruturas.

    Especifica as funções agregadas a serem executadas em campos especificados.

Estrutura DropDuplicates

Especifica uma transformação que remove linhas de dados repetidos de um conjunto de dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • Columns – Uma matriz de strings UTF-8.

    O nome das colunas a serem mescladas ou removidas caso sejam repetidas.

Estrutura GovernedCatalogTarget

Especifica um destino de dados que grava no Amazon S3 usando o catálogo de dados do AWS Glue.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome da tabela no banco de dados na qual gravar.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O nome do banco de dados no qual gravar.

  • SchemaChangePolicy – Um objeto CatalogSchemaChangePolicy.

    Uma política que especifica o comportamento do catálogo governado.

Estrutura GovernedCatalogSource

Especifica o datastore no AWS Glue Data Catalog.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do datastore.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    A tabela do banco de dados da qual a leitura será feita.

  • PartitionPredicate – String UTF-8 correspondente a Custom string pattern #34.

    As partições que satisfazem a esse predicado são excluídas. Os arquivos dentro do período de retenção nessas partições não são excluídos. Definido como "", vazio por padrão.

  • AdditionalOptions – Um objeto S3SourceAdditionalOptions.

    Especifica opções de conexão adicionais.

Estrutura AggregateOperation

Especifica o conjunto de parâmetros necessários para realizar agregação na transformação dinâmica.

Campos
  • Column: obrigatório: uma matriz de strings UTF-8.

    Especifica a coluna no conjunto de dados em que a função de agregação será aplicada.

  • AggFunc: obrigatório: string UTF-8 (valores válidos: avg | countDistinct | count | first | last | kurtosis | max | min | skewness | stddev_samp | stddev_pop | sum | sumDistinct | var_samp | var_pop).

    Especifica a função de agregação a ser aplicada.

    As possíveis funções de agregação incluem: avg countDistinct, count, first, last, kurtosis, max, min, skewness, stddev_samp, stddev_pop, sum, sumDistinct, var_samp, var_pop

Estrutura GlueSchema

Especifica um esquema definido pelo usuário quando um esquema não pode ser determinado pelo AWS Glue.

Campos
  • Columns – Uma matriz de objetos GlueStudioSchemaColumn.

    Especifica as definições de coluna que compõem um esquema do AWS Glue.

Estrutura GlueStudioSchemaColumn

Especifica uma única coluna em uma definição de esquema do AWS Glue.

Campos
  • Name: – Obrigatório: string UTF-8 com não mais do que 1024 bytes de comprimento, correspondente a Single-line string pattern.

    O nome da coluna no esquema do AWS Glue Studio.

  • Type – String UTF-8 com comprimento não superior a 131.072 bytes, correspondente a Single-line string pattern.

    O tipo de hive para esta coluna no esquema do AWS Glue Studio.

Estrutura GlueStudioColumn

Especifica uma única coluna no AWS Glue Studio.

Campos
  • KeyObrigatório: string UTF-8, correspondente a Custom string pattern #35.

    A chave da coluna no AWS Glue Studio.

  • FullPath: obrigatório: uma matriz de strings UTF-8.

    O URL completo da coluna no AWS Glue Studio.

  • TypeObrigatório: string UTF-8 (valores válidos: array="ARRAY" | bigint="BIGINT" | bigint array="BIGINT_ARRAY" | binary="BINARY" | binary array="BINARY_ARRAY" | boolean="BOOLEAN" | boolean array="BOOLEAN_ARRAY" | byte="BYTE" | byte array="BYTE_ARRAY" | char="CHAR" | char array="CHAR_ARRAY" | choice="CHOICE" | choice array="CHOICE_ARRAY" | date="DATE" | date array="DATE_ARRAY" | decimal="DECIMAL" | decimal array="DECIMAL_ARRAY" | double="DOUBLE" | double array="DOUBLE_ARRAY" | enum="ENUM" | enum array="ENUM_ARRAY" | float="FLOAT" | float array="FLOAT_ARRAY" | int="INT" | int array="INT_ARRAY" | interval="INTERVAL" | interval array="INTERVAL_ARRAY" | long="LONG" | long array="LONG_ARRAY" | object="OBJECT" | short="SHORT" | short array="SHORT_ARRAY" | smallint="SMALLINT" | smallint array="SMALLINT_ARRAY" | string="STRING" | string array="STRING_ARRAY" | timestamp="TIMESTAMP" | timestamp array="TIMESTAMP_ARRAY" | tinyint="TINYINT" | tinyint array="TINYINT_ARRAY" | varchar="VARCHAR" | varchar array="VARCHAR_ARRAY" | null="NULL" | unknown="UNKNOWN" | unknown array="UNKNOWN_ARRAY").

    O tipo da coluna no AWS Glue Studio.

  • Children: uma matriz de estruturas.

    Os itens secundários da coluna principal no AWS Glue Studio.

Estrutura DynamicTransform

Especifica o conjunto de parâmetros necessários para realizar a transformação dinâmica.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    Especifica o nome da transformação dinâmica.

  • TransformNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    Especifica o nome da transformação dinâmica como aparece no editor visual do AWS Glue Studio.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Especifica as entradas necessárias para a transformação dinâmica.

  • Parameters – Uma matriz de objetos TransformConfigParameter.

    Especifica os parâmetros da transformação dinâmica.

  • FunctionNameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    Especifica o nome da função da transformação dinâmica.

  • PathObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    Especifica o caminho da origem da transformação dinâmica e dos arquivos de configuração.

  • Version – String UTF-8 correspondente a Custom string pattern #34.

    Esse campo não é usado e será removido em uma versão futura.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a transformação dinâmica.

Estrutura TransformConfigParameter

Especifica os parâmetros no arquivo de configuração da transformação dinâmica.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    Especifica o nome do parâmetro no arquivo de configuração da transformação dinâmica.

  • Type: obrigatório: string UTF-8 (valores válidos: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL").

    Especifica o tipo de parâmetro no arquivo de configuração da transformação dinâmica.

  • ValidationRule – String UTF-8 correspondente a Custom string pattern #34.

    Especifica a regra de validação no arquivo de configuração da transformação dinâmica.

  • ValidationMessage – String UTF-8 correspondente a Custom string pattern #34.

    Especifica a mensagem de validação no arquivo de configuração da transformação dinâmica.

  • Value – Uma matriz de strings UTF-8.

    Especifica o valor do parâmetro no arquivo de configuração da transformação dinâmica.

  • ListType – String UTF-8 (valores válidos: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL").

    Especifica o tipo de lista do parâmetro no arquivo de configuração da transformação dinâmica.

  • IsOptional – Booleano.

    Especifica se o parâmetro é opcional ou não no arquivo de configuração da transformação dinâmica.

Estrutura EvaluateDataQuality

Especifica os critérios da avaliação de qualidade dos dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da avaliação de qualidade dos dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas da avaliação de qualidade dos dados.

  • Ruleset: obrigatório: string UTF-8, não menos que 1 ou mais que 65.536 bytes de comprimento, correspondente ao Custom string pattern #32.

    O conjunto de regras para a avaliação de qualidade dos dados.

  • Output: string UTF-8 (valores válidos: PrimaryInput | EvaluationResults).

    As resultado da avaliação de qualidade dos dados.

  • PublishingOptions – Um objeto DQResultsPublishingOptions.

    Opções para configurar como os resultados são publicados.

  • StopJobOnFailureOptions – Um objeto DQStopJobOnFailureOptions.

    Opções para configurar como o trabalho será interrompido se a avaliação de qualidade dos dados falhar.

Estrutura DQResultsPublishingOptions

Opções para configurar como os resultados da avaliação de qualidade dos dados são publicados.

Campos
  • EvaluationContext – String UTF-8 correspondente a Custom string pattern #33.

    O contexto da avaliação.

  • ResultsS3Prefix – String UTF-8 correspondente a Custom string pattern #34.

    O prefixo do Amazon S3 adicionado aos resultados.

  • CloudWatchMetricsEnabled – Booleano.

    Habilitar métricas para os resultados de qualidade dos dados.

  • ResultsPublishingEnabled – Booleano.

    Habilitar a publicação dos resultados de qualidade dos dados.

Estrutura DQStopJobOnFailureOptions

Opções para configurar como o trabalho será interrompido se a avaliação de qualidade dos dados falhar.

Campos
  • StopJobOnFailureTiming: string UTF-8 (valores válidos: Immediate | AfterDataLoad).

    Quando interromper o trabalho se a avaliação de qualidade dos dados falhar. As opções são Immediate ou AfterDataLoad.

Estrutura EvaluateDataQualityMultiFrame

Especifica os critérios da avaliação de qualidade dos dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da avaliação de qualidade dos dados.

  • InputsObrigatório: uma matriz de strings UTF-8, pelo menos 1 string.

    As entradas da avaliação de qualidade dos dados. A primeira entrada nessa lista é a fonte de dados primária.

  • AdditionalDataSources – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #37.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Os aliases de todas as fontes de dados, exceto a primária.

  • Ruleset: obrigatório: string UTF-8, não menos que 1 ou mais que 65.536 bytes de comprimento, correspondente ao Custom string pattern #32.

    O conjunto de regras para a avaliação de qualidade dos dados.

  • PublishingOptions – Um objeto DQResultsPublishingOptions.

    Opções para configurar como os resultados são publicados.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 (valores válidos: performanceTuning.caching="CacheOption" | observations.scope="ObservationsOption").

    Cada valor é uma sequência de caracteres UTF-8.

    Opções para configurar o comportamento do runtime da transformação.

  • StopJobOnFailureOptions – Um objeto DQStopJobOnFailureOptions.

    Opções para configurar como o trabalho será interrompido se a avaliação de qualidade dos dados falhar.

Estrutura da fórmula

Um nó do AWS Glue Studio que usa uma fórmula do AWS Glue DataBrew em trabalhos do AWS Glue.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do nó do AWS Glue Studio.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são inseridos no nó da fórmula, identificados por ID.

  • RecipeReferenceObrigatório: um objeto RecipeReference.

    Uma referência à fórmula do DataBrew usada pelo nó.

Estrutura SchemaReference

Uma referência a uma fórmula do AWS Glue DataBrew.

Campos
  • RecipeArnObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O ARN da fórmula do DataBrew.

  • RecipeVersion - obrigatório: string UTF-8, com não menos do que 1 nem mais do que 16 bytes de comprimento.

    A RecipeVersion da fórmula do DataBrew.

Estrutura SnowflakeNodeData

Especifica a configuração dos nós do Snowflake no AWS Glue Studio

Campos
  • SourceType – String UTF-8 correspondente a Custom string pattern #33.

    Especifica como os dados recuperados são especificados. Valores válidos: "table", "query".

  • Connection – Um objeto Opção.

    Especifica uma conexão do catálogo de dados do AWS Glue com um endpoint do Snowflake.

  • Schema – String UTF-8.

    Especifica um esquema de banco de dados do Snowflake para seu nó usar.

  • Table – String UTF-8.

    Especifica uma tabela do Snowflake para seu nó usar.

  • Database – String UTF-8.

    Especifica um banco de dados do Snowflake para seu nó usar.

  • TempDir – String UTF-8 correspondente a Custom string pattern #34.

    Não utilizado no momento.

  • IamRole – Um objeto Opção.

    Não utilizado no momento.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #34.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #34.

    Especifica opções adicionais passadas ao conector do Snowflake. Se as opções forem especificadas em outro lugar neste nó, isso terá precedência.

  • SampleQuery – String UTF-8.

    Uma string SQL usada para recuperar dados com o tipo de fonte query.

  • PreAction – String UTF-8.

    Uma string SQL executada antes que o conector do Snowflake execute suas ações padrão.

  • PostAction – String UTF-8.

    Uma string SQL executada depois que o conector do Snowflake executa suas ações padrão.

  • Action – String UTF-8.

    Especifica a ação a ser realizada ao gravar em uma tabela com dados preexistentes. Valores válidos: append, merge, truncate, drop.

  • Upsert – Booleano.

    Usado quando a ação é append. Especifica o comportamento da resolução quando uma linha já existe. Se verdadeiro, as linhas preexistentes serão atualizadas. Se falso, essas linhas serão inseridas.

  • MergeAction – String UTF-8 correspondente a Custom string pattern #33.

    Especifica uma ação de mesclagem. Valores válidos: simple, custom. Se for simples, o comportamento de mesclagem será definido por MergeWhenMatched e MergeWhenNotMatched. Se for personalizado, será definido por MergeClause.

  • MergeWhenMatched – String UTF-8 correspondente a Custom string pattern #33.

    Especifica como resolver registros que correspondam a dados preexistentes durante a mesclagem. Valores válidos: update, delete.

  • MergeWhenNotMatched – String UTF-8 correspondente a Custom string pattern #33.

    Especifica como processar registros que não correspondem a dados preexistentes durante a mesclagem. Valores válidos: insert, none.

  • MergeClause – String UTF-8.

    Uma instrução SQL que especifica um comportamento de mesclagem personalizado.

  • StagingTable – String UTF-8.

    O nome de uma tabela de preparação usada ao executar merge ou fazer o upsert das ações append. Os dados são gravados nessa tabela e, em seguida, movidos para a table por uma pós-ação gerada.

  • SelectedColumns – Uma matriz de objetos Opção.

    Especifica as colunas combinadas para identificar um registro ao detectar correspondências para mesclagens e upserts. Uma lista de estruturas com as chaves value, label e description. Cada estrutura descreve uma coluna.

  • AutoPushdown – Booleano.

    Especifica se o pushdown de consultas está habilitado. Se o pushdown estiver habilitado, quando uma consulta for executada no Spark, se for possível fazer pushdown de parte da consulta para o servidor do Snowflake, isso ocorrerá. Isso melhora a performance de algumas consultas.

  • TableSchema – Uma matriz de objetos Opção.

    Define manualmente o esquema de destino para o nó. Uma lista de estruturas com as chaves value, label e description. Cada estrutura define uma coluna.

Estrutura SnowflakeSource

Especifica uma fonte de dados do Snowflake.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome da fonte de dados do Snowflake.

  • DataObrigatório: um objeto SnowflakeNodeData.

    Configuração da fonte de dados do Snowflake.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica esquemas definidos pelo usuário para seus dados de saída.

Estrutura SnowflakeTarget

Especifica um destino do Snowflake.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome do destino do Snowflake.

  • DataObrigatório: um objeto SnowflakeNodeData.

    Especifica os dados do nó de destino do Snowflake.

  • Inputs: uma matriz de strings UTF-8, com não menos que 1 nem mais que 1 string.

    Os nós que são entradas para o destino de dados.

Estrutura ConnectorDataSource

Especifica uma fonte gerada com opções de conexão padrão.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome desse nó de origem.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O connectionType, conforme fornecido à biblioteca AWS Glue subjacente. Esse tipo de nó é compatível com os seguintes tipos de conexão:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Data: obrigatório: uma matriz de mapa dos pares de chave-valor.

    Cada chave é uma sequência de caracteres UTF-8.

    Cada valor é uma sequência de caracteres UTF-8.

    Um mapa que especifica as opções de conexão para o nó. É possível encontrar opções de conexão padrão para o tipo de conexão correspondente na seção Parâmetros de conexão da documentação do AWS Glue.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para esta fonte.

Estrutura ConnectorDataTarget

Especifica um destino gerado com opções de conexão padrão.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #37.

    O nome desse nó de destino.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #34.

    O connectionType, conforme fornecido à biblioteca AWS Glue subjacente. Esse tipo de nó é compatível com os seguintes tipos de conexão:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Data: obrigatório: uma matriz de mapa dos pares de chave-valor.

    Cada chave é uma sequência de caracteres UTF-8.

    Cada valor é uma sequência de caracteres UTF-8.

    Um mapa que especifica as opções de conexão para o nó. É possível encontrar opções de conexão padrão para o tipo de conexão correspondente na seção Parâmetros de conexão da documentação do AWS Glue.

  • Inputs: uma matriz de strings UTF-8, com não menos que 1 nem mais que 1 string.

    Os nós que são entradas para o destino de dados.