API de trabalhos visuais - AWS Glue
 — tipos de dados —CodeGenConfigurationNodeJDBC ConnectorOptionsStreamingDataPreviewOptionsAthenaConnectorSourceJDBC ConnectorSourceSparkConnectorSourceCatalogSourceMySQL CatalogSourcePostgreSQL CatalogSourceOracle SQL CatalogSourceMicrosoft SQL ServerCatalogSourceCatalogKinesisSourceDirectKinesisSourceKinesisStreamingSourceOptionsCatalogKafkaSourceDirectKafkaSourceKafkaStreamingSourceOptionsRedshiftSourceAmazonRedshiftSourceAmazonRedshiftNodeDataAmazonRedshiftAdvancedOptionOpçãoS3 CatalogSourceS3 SourceAdditionalOptionsS3 CsvSourceDirectJDBCSourceS3 DirectSourceAdditionalOptionsS3 JsonSourceS3 ParquetSourceS3 DeltaSourceS3 CatalogDeltaSourceCatalogDeltaSourceS3 HudiSourceS3 CatalogHudiSourceCatalogHudiSourceDynamoDB CatalogSourceRelationalCatalogSourceJDBC ConnectorTargetSparkConnectorTargetBasicCatalogTargetMySQL CatalogTargetPostgreSQL CatalogTargetOracle SQL CatalogTargetMicrosoft SQL ServerCatalogTargetRedshiftTargetAmazonRedshiftTargetUpsertRedshiftTargetOptionsS3 CatalogTargetS3 GlueParquetTargetCatalogSchemaChangePolicyS3 DirectTargetS3 HudiCatalogTargetS3 HudiDirectTargetS3 DeltaCatalogTargetS3 DeltaDirectTargetDirectSchemaChangePolicyApplyMappingMapeamentoSelectFieldsDropFieldsRenameFieldSpigotIngressarJoinColumnSplitFieldsSelectFromCollectionFillMissingValuesFiltroFilterExpressionFilterValueCustomCodeSparkSQLSqlAliasDropNullFieldsNullCheckBoxListNullValueFieldDataTypeMesclarUnionPIIdetectionAgregarDropDuplicatesGovernedCatalogTargetGovernedCatalogSourceAggregateOperationGlueSchemaGlueStudioSchemaColumnGlueStudioColumnDynamicTransformTransformConfigParameterEvaluateDataQualityDQ ResultsPublishingOptionsDQ StopJobOnFailureOptionsEvaluateDataQualityMultiFrameFórmulaRecipeReferenceSnowflakeNodeDataSnowflakeSourceSnowflakeTargetConnectorDataSourceConnectorDataTarget

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

API de trabalhos visuais

A API Visual job permite criar trabalhos de integração de dados usando a AWS Glue API de um objeto JSON que representa uma configuração visual de um AWS Glue trabalho.

Uma lista de CodeGenConfigurationNodes é fornecida a uma API de criação ou atualização de tarefas para registrar um DAG no AWS Glue Studio para a tarefa criada e gerar o código associado.

Tipos de dados

CodeGenConfigurationNode estrutura

O CodeGenConfigurationNode enumera todos os tipos de nós válidos. Uma e apenas uma de suas variáveis membro podem ser preenchidas.

Campos
  • AthenaConnectorSource – Um objeto AthenaConnectorSource.

    Especifica um conector para uma fonte de dados do Amazon Athena.

  • JDBCConnectorSource – Um objeto JDBC ConnectorSource.

    Especifica um conector para uma fonte de dados JDBC.

  • SparkConnectorSource – Um objeto SparkConnectorSource.

    Especifica um conector para uma fonte de dados do Apache Spark.

  • CatalogSource – Um objeto CatalogSource.

    Especifica um armazenamento de dados no Catálogo AWS Glue de Dados.

  • RedshiftSource – Um objeto RedshiftSource.

    Especifica um datastore do Amazon Redshift.

  • S3CatalogSource – Um objeto S3 CatalogSource.

    Especifica um armazenamento de dados do Amazon S3 no AWS Glue catálogo de dados.

  • S3CsvSource – Um objeto S3 CsvSource.

    Especifica um datastore CSV (valores separados por comando) armazenado no Amazon S3.

  • S3JsonSource – Um objeto S3 JsonSource.

    Especifica um datastore JSON armazenado no Amazon S3.

  • S3ParquetSource – Um objeto S3 ParquetSource.

    Especifica um datastore do Apache Parquet armazenado no Amazon S3.

  • RelationalCatalogSource – Um objeto RelationalCatalogSource.

    Especifica um armazenamento de dados de catálogo relacional no Catálogo de AWS Glue Dados.

  • DynamoDBCatalogSource – Um objeto DynamoDB CatalogSource.

    Especifica um armazenamento de dados do Catálogo do DynamoDBC no Catálogo de Dados. AWS Glue

  • JDBCConnectorTarget – Um objeto JDBC ConnectorTarget.

    Especifica um destino de dados que grava no Amazon S3 no armazenamento colunar do Apache Parquet.

  • SparkConnectorTarget – Um objeto SparkConnectorTarget.

    Especifica um destino que usa um conector Apache Spark.

  • CatalogTarget – Um objeto BasicCatalogTarget.

    Especifica um destino que usa uma tabela do Catálogo AWS Glue de Dados.

  • RedshiftTarget – Um objeto RedshiftTarget.

    Especifica um destino que usa o Amazon Redshift.

  • S3CatalogTarget – Um objeto S3 CatalogTarget.

    Especifica um destino de dados que grava no Amazon S3 usando AWS Glue o catálogo de dados.

  • S3GlueParquetTarget – Um objeto S3 GlueParquetTarget.

    Especifica um destino de dados que grava no Amazon S3 no armazenamento colunar do Apache Parquet.

  • S3DirectTarget – Um objeto S3 DirectTarget.

    Especifica um destino de dados que grava no Amazon S3.

  • ApplyMapping – Um objeto ApplyMapping.

    Especifica uma transformação que mapeia chaves de propriedade de dados na fonte dos dados para chaves de propriedade de dados no destino dos dados. Você pode renomear chaves, modificar os tipos de dados para chaves e escolher quais chaves remover do conjunto de dados.

  • SelectFields – Um objeto SelectFields.

    Especifica uma transformação que escolhe as chaves de propriedade de dados que você deseja manter.

  • DropFields – Um objeto DropFields.

    Especifica uma transformação que escolhe as chaves de propriedade de dados que você deseja descartar.

  • RenameField – Um objeto RenameField.

    Especifica uma transformação que renomeia uma única chave de propriedade de dados.

  • Spigot – Um objeto Spigot.

    Especifica uma transformação que grava amostras dos dados em um bucket do Amazon S3.

  • Join – Um objeto Ingressar.

    Especifica uma transformação que une dois conjuntos de dados em um só, usando uma frase de comparação nas chaves de propriedade de dados especificadas. Você pode usar junção inner (interna), outer (externa), left (à esquerda), right (à direita), left semi (semi à esquerda) e left anti (anti à esquerda).

  • SplitFields – Um objeto SplitFields.

    Especifica uma transformação que divide chaves de propriedade de dados em dois DynamicFrames. A saída é uma coleção de DynamicFrames: um com chaves de propriedade de dados selecionadas e outro com as chaves de propriedade de dados restantes.

  • SelectFromCollection – Um objeto SelectFromCollection.

    Especifica uma transformação que escolhe um DynamicFrame de uma coleção de DynamicFrames. A saída é o DynamicFrame selecionado.

  • FillMissingValues – Um objeto FillMissingValues.

    Especifica uma transformação que localiza registros no conjunto de dados que tenham valores ausentes e adiciona um novo campo com um valor determinado por imputação. O conjunto de dados de entrada é usado para treinar o modelo de machine learning que determina qual deve ser o valor ausente.

  • Filter – Um objeto Filtro.

    Especifica uma transformação que divide um conjunto de dados em dois, com base em uma condição de filtro.

  • CustomCode – Um objeto CustomCode.

    Especifica uma transformação que usa código personalizado que você fornece para executar a transformação de dados. A saída é uma coleção de DynamicFrames.

  • SparkSQL – Um objeto SparkSQL.

    Especifica uma transformação em que você insere uma consulta de SQL usando a sintaxe do Spark SQL para transformar os dados. A saída é um único DynamicFrame.

  • DirectKinesisSource – Um objeto DirectKinesisSource.

    Especifica uma fonte de dados direta do Amazon Kinesis.

  • DirectKafkaSource – Um objeto DirectKafkaSource.

    Especifica um datastore do Apache Kafka.

  • CatalogKinesisSource – Um objeto CatalogKinesisSource.

    Especifica uma fonte de dados do Kinesis no AWS Glue catálogo de dados.

  • CatalogKafkaSource – Um objeto CatalogKafkaSource.

    Especifica um datastore do Apache Kafka no catálogo de dados.

  • DropNullFields – Um objeto DropNullFields.

    Especifica uma transformação que remove colunas do conjunto de dados se todos os valores na coluna forem 'null'. Por padrão, o AWS Glue Studio reconhecerá objetos nulos, mas alguns valores, como cadeias de caracteres vazias, sequências de caracteres “nulas”, números inteiros -1 ou outros espaços reservados, como zeros, não são automaticamente reconhecidos como nulos.

  • Merge – Um objeto Mesclar.

    Especifica uma transformação que mescla um DynamicFrame com um DynamicFrame de preparação, de acordo com as chaves primárias especificadas para identificar registros. Registros duplicados (com as mesmas chaves primárias) não são eliminados.

  • Union – Um objeto Union.

    Especifica uma transformação que combina as linhas de dois ou mais conjuntos de dados em um único resultado.

  • PIIDetection – Um objeto PIIdetection.

    Especifica uma transformação que identifica, remove ou mascara dados de PII.

  • Aggregate – Um objeto Agregar.

    Especifica uma transformação que agrupa linhas por campos escolhidos e calcula o valor agregado por função especificada.

  • DropDuplicates – Um objeto DropDuplicates.

    Especifica uma transformação que remove linhas de dados repetidos de um conjunto de dados.

  • GovernedCatalogTarget – Um objeto GovernedCatalogTarget.

    Especifica um destino de dados que grava em um catálogo governado.

  • GovernedCatalogSource – Um objeto GovernedCatalogSource.

    Especifica uma fonte de dados em um catálogo de dados governado.

  • MicrosoftSQLServerCatalogSource – Um objeto Microsoft SQL ServerCatalogSource.

    Especifica uma fonte de dados do Microsoft SQL Server no AWS Glue Data Catalog.

  • MySQLCatalogSource – Um objeto MySQL CatalogSource.

    Especifica uma fonte de dados MySQL no AWS Glue Catálogo de Dados.

  • OracleSQLCatalogSource – Um objeto Oracle SQL CatalogSource.

    Especifica uma fonte de dados Oracle no Catálogo AWS Glue de Dados.

  • PostgreSQLCatalogSource – Um objeto PostgreSQL CatalogSource.

    Especifica uma fonte de dados PostgresSQL no Catálogo de Dados. AWS Glue

  • MicrosoftSQLServerCatalogTarget – Um objeto Microsoft SQL ServerCatalogTarget.

    Especifica um destino que usa o Microsoft SQL.

  • MySQLCatalogTarget – Um objeto MySQL CatalogTarget.

    Especifica um destino que usa o MySQL.

  • OracleSQLCatalogTarget – Um objeto Oracle SQL CatalogTarget.

    Especifica um destino que usa o Oracle SQL.

  • PostgreSQLCatalogTarget – Um objeto PostgreSQL CatalogTarget.

    Especifica um destino que usa o Postgres SQL.

  • DynamicTransform – Um objeto DynamicTransform.

    Especifica uma transformação visual personalizada criada por um usuário.

  • EvaluateDataQuality – Um objeto EvaluateDataQuality.

    Especifica os critérios da avaliação de qualidade dos dados.

  • S3CatalogHudiSource – Um objeto S3 CatalogHudiSource.

    Especifica uma fonte de dados Hudi que está registrada no Catálogo de AWS Glue Dados. A fonte de dados deve ser armazenada em Amazon S3.

  • CatalogHudiSource – Um objeto CatalogHudiSource.

    Especifica uma fonte de dados Hudi que está registrada no Catálogo de AWS Glue Dados.

  • S3HudiSource – Um objeto S3 HudiSource.

    Especifica uma fonte de dados Hudi armazenada em. Amazon S3

  • S3HudiCatalogTarget – Um objeto S3 HudiCatalogTarget.

    Especifica um destino que grava em uma fonte de dados Hudi no Catálogo de AWS Glue Dados.

  • S3HudiDirectTarget – Um objeto S3 HudiDirectTarget.

    Especifica um destino que grava em uma fonte de dados Hudi em. Amazon S3

  • S3CatalogDeltaSource – Um objeto S3 CatalogDeltaSource.

    Especifica uma fonte de dados do Delta Lake que está registrada no Catálogo AWS Glue de Dados. A fonte de dados deve ser armazenada em Amazon S3.

  • CatalogDeltaSource – Um objeto CatalogDeltaSource.

    Especifica uma fonte de dados do Delta Lake que está registrada no Catálogo AWS Glue de Dados.

  • S3DeltaSource – Um objeto S3 DeltaSource.

    Especifica uma fonte de dados do Delta Lake armazenada em Amazon S3.

  • S3DeltaCatalogTarget – Um objeto S3 DeltaCatalogTarget.

    Especifica um destino que grava em uma fonte de dados do Delta Lake no Catálogo AWS Glue de Dados.

  • S3DeltaDirectTarget – Um objeto S3 DeltaDirectTarget.

    Especifica um destino que grava em uma fonte de dados do Delta Lake em Amazon S3.

  • AmazonRedshiftSource – Um objeto AmazonRedshiftSource.

    Especifica um destino que grava em uma fonte de dados no Amazon Redshift.

  • AmazonRedshiftTarget – Um objeto AmazonRedshiftTarget.

    Especifica um destino que grava em um destino de dados no Amazon Redshift.

  • EvaluateDataQualityMultiFrame – Um objeto EvaluateDataQualityMultiFrame.

    Especifica os critérios da avaliação de qualidade dos dados. Permite vários dados de entrada e retorna um conjunto de quadros dinâmicos.

  • Recipe – Um objeto Fórmula.

    Especifica um nó de AWS Glue DataBrew receita.

  • SnowflakeSource – Um objeto SnowflakeSource.

    Especifica uma fonte de dados do Snowflake.

  • SnowflakeTarget – Um objeto SnowflakeTarget.

    Especifica um destino que grava em uma fonte de dados do Snowflake.

  • ConnectorDataSource – Um objeto ConnectorDataSource.

    Especifica uma fonte gerada com opções de conexão padrão.

  • ConnectorDataTarget – Um objeto ConnectorDataTarget.

    Especifica um destino gerado com opções de conexão padrão.

Estrutura do JDBC ConnectorOptions

Opções de conexão adicionais para o conector.

Campos
  • FilterPredicate – String UTF-8 correspondente a Custom string pattern #40.

    Cláusula de condição extra para filtrar dados da fonte. Por exemplo:

    BillingCity='Mountain View'

    Ao usar uma consulta em vez de um nome de tabela, você deve validar que a consulta funciona com o filterPredicate especificado.

  • PartitionColumn – String UTF-8 correspondente a Custom string pattern #40.

    O nome de uma coluna de inteiros usada para o particionamento. Essa opção só funciona quando está incluída em lowerBound, upperBound e numPartitions. Essa opção funciona da mesma maneira que no leitor JDBC Spark SQL.

  • LowerBound: número (inteiro longo), no máximo None (Nenhum).

    O valor mínimo de partitionColumn que é usado para decidir o passo de partição.

  • UpperBound: número (inteiro longo), no máximo None (Nenhum).

    O valor máximo de partitionColumn que é usado para decidir o passo de partição.

  • NumPartitions: número (inteiro longo), no máximo None (Nenhum).

    O número de partições. Esse valor, juntamente com lowerBound (inclusive) e upperBound (exclusive), forma os passos de partição para as expressões de cláusula WHERE geradas que são usadas para dividir a partitionColumn.

  • JobBookmarkKeys – Uma matriz de strings UTF-8.

    O nome das chaves de marcador de trabalho pelas quais classificar.

  • JobBookmarkKeysSortOrder – String UTF-8 correspondente a Custom string pattern #40.

    Especifica ordem de classificação ascendente ou descendente.

  • DataTypeMapping – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 (valores válidos: ARRAY | BIGINT | BINARY | BIT | BLOB | BOOLEAN | CHAR | CLOB | DATALINK | DATE | DECIMAL | DISTINCT | DOUBLE | FLOAT | INTEGER | JAVA_OBJECT | LONGNVARCHAR | LONGVARBINARY | LONGVARCHAR | NCHAR | NCLOB | NULL | NUMERIC | NVARCHAR | OTHER | REAL | REF | REF_CURSOR | ROWID | SMALLINT | SQLXML | STRUCT | TIME | TIME_WITH_TIMEZONE | TIMESTAMP | TIMESTAMP_WITH_TIMEZONE | TINYINT | VARBINARY | VARCHAR).

    Cada valor é uma string UTF-8 (valores válidos: DATE | STRING | TIMESTAMP | INT | FLOAT | LONG | BIGDECIMAL | BYTE | SHORT | DOUBLE).

    Mapeamento de tipo de dados personalizado que constrói um mapeamento a partir de um tipo de dados JDBC para um tipo de dados do AWS Glue . Por exemplo, a opção "dataTypeMapping":{"FLOAT":"STRING"} mapeia campos de dados do tipo JDBC FLOAT para o String tipo Java chamando o ResultSet.getString() método do driver e o usa para criar o AWS Glue registro. O objeto ResultSet é implantado por cada driver, portanto, o comportamento é específico para o driver que você usa. Consulte a documentação do driver do JDBC para entender como ele executa as conversões.

StreamingDataPreviewOptions estrutura

Especifica opções relacionadas à previsualização de dados para exibir uma amostra de seus dados.

Campos
  • PollingTime: número (longo), pelo menos 10.

    O tempo de sondagem, em milissegundos.

  • RecordPollingLimit: número (longo), pelo menos 1.

    O limite para o número de registros sondados.

AthenaConnectorSource estrutura

Especifica um conector para uma fonte de dados do Amazon Athena.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados.

  • ConnectionNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da conexão associada ao conector.

  • ConnectorNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome de um conector que ajuda a acessar o armazenamento de dados no AWS Glue Studio.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O tipo de conexão, como marketplace.athena ou custom.athena, designando uma conexão com um datastore do Amazon Athena.

  • ConnectionTable – String UTF-8 correspondente a Custom string pattern #41.

    O nome da tabela na fonte de dados.

  • SchemaNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do grupo de logs do CloudWatch a ser lido. Por exemplo, /aws-glue/jobs/output.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte do Athena personalizada.

Estrutura do JDBC ConnectorSource

Especifica um conector para uma fonte de dados JDBC.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados.

  • ConnectionNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da conexão associada ao conector.

  • ConnectorNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome de um conector que ajuda a acessar o armazenamento de dados no AWS Glue Studio.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O tipo de conexão, como marketplace.jdbc ou custom.jdbc, designando uma conexão com um datastore JDBC.

  • AdditionalOptions – Um objeto JDBC ConnectorOptions.

    Opções de conexão adicionais para o conector.

  • ConnectionTable – String UTF-8 correspondente a Custom string pattern #41.

    O nome da tabela na fonte de dados.

  • Query – String UTF-8 correspondente a Custom string pattern #42.

    A tabela ou consulta SQL da qual obter os dados. Você pode especificar ConnectionTable ou query, mas não os dois.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte do JDBC personalizada.

SparkConnectorSource estrutura

Especifica um conector para uma fonte de dados do Apache Spark.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados.

  • ConnectionNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da conexão associada ao conector.

  • ConnectorNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome de um conector que ajuda a acessar o armazenamento de dados no AWS Glue Studio.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O tipo de conexão, como marketplace.spark ou custom.spark, designando uma conexão com um datastore do Apache Spark.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Opções de conexão adicionais para o conector.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte do Spark personalizada.

CatalogSource estrutura

Especifica um armazenamento de dados no Catálogo AWS Glue de Dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do datastore.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados da qual a leitura será feita.

Estrutura do MySQL CatalogSource

Especifica uma fonte de dados MySQL no AWS Glue Catálogo de Dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados da qual a leitura será feita.

Estrutura do PostgreSQL CatalogSource

Especifica uma fonte de dados PostgresSQL no Catálogo de Dados. AWS Glue

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados da qual a leitura será feita.

Estrutura do OracleSQL CatalogSource

Especifica uma fonte de dados Oracle no Catálogo AWS Glue de Dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados da qual a leitura será feita.

Estrutura Microsoft SQL ServerCatalogSource

Especifica uma fonte de dados do Microsoft SQL Server no AWS Glue Data Catalog.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados da qual a leitura será feita.

CatalogKinesisSource estrutura

Especifica uma fonte de dados do Kinesis no AWS Glue catálogo de dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados.

  • WindowSize – Número (inteiro), não mais do que None (Nenhum).

    A quantidade de tempo gasto no processamento de cada micro lote.

  • DetectSchema – Booleano.

    Se o esquema deve ser determinado automaticamente a partir dos dados recebidos.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados da qual a leitura será feita.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados do qual a leitura será feita.

  • StreamingOptions – Um objeto KinesisStreamingSourceOptions.

    Opções adicionais para a fonte de dados de transmissão do Kinesis.

  • DataPreviewOptions – Um objeto StreamingDataPreviewOptions.

    Opções adicionais para previsualização de dados.

DirectKinesisSource estrutura

Especifica uma fonte de dados direta do Amazon Kinesis.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados.

  • WindowSize – Número (inteiro), não mais do que None (Nenhum).

    A quantidade de tempo gasto no processamento de cada micro lote.

  • DetectSchema – Booleano.

    Se o esquema deve ser determinado automaticamente a partir dos dados recebidos.

  • StreamingOptions – Um objeto KinesisStreamingSourceOptions.

    Opções adicionais para a fonte de dados de transmissão do Kinesis.

  • DataPreviewOptions – Um objeto StreamingDataPreviewOptions.

    Opções adicionais para previsualização de dados.

KinesisStreamingSourceOptions estrutura

Opções adicionais para a fonte de dados de transmissão do Amazon Kinesis.

Campos
  • EndpointUrl – String UTF-8 correspondente a Custom string pattern #40.

    O URL do endpoint do Kinesis.

  • StreamName – String UTF-8 correspondente a Custom string pattern #40.

    O nome do fluxo de dados do Kinesis.

  • Classification – String UTF-8 correspondente a Custom string pattern #40.

    Uma classificação opcional.

  • Delimiter – String UTF-8 correspondente a Custom string pattern #40.

    Especifica o caractere delimitador.

  • StartingPosition – String UTF-8 (valores válidos: latest="LATEST" | trim_horizon="TRIM_HORIZON" | earliest="EARLIEST" | timestamp="TIMESTAMP").

    A posição inicial no fluxo de dados do Kinesis de onde ler os dados. Os valores possíveis são "latest", "trim_horizon", "earliest" ou uma string de timestamp no formato UTC no padrão yyyy-mm-ddTHH:MM:SSZ (onde Z representa um desvio do fuso horário UTC com +/-). Por exemplo: "2023-04-04T08:00:00-04:00"). O valor padrão é "latest".

    Observação: o uso de um valor que seja uma string de carimbo de data/hora no formato UTC para “StartingPosition” é suportado somente para AWS Glue a versão 4.0 ou posterior.

  • MaxFetchTimeInMs: número (inteiro longo), no máximo None (Nenhum).

    O tempo máximo para o executor do trabalho ler registros referentes ao lote atual do fluxo de dados do Kinesis especificado em milissegundos (ms). Várias chamadas de API GetRecords podem ser feitas nesse período. O valor padrão é 1000.

  • MaxFetchRecordsPerShard: número (inteiro longo), no máximo None (Nenhum).

    O número máximo de registros a serem obtidos por fragmento no fluxo de dados do Kinesis por microlote. Observação: o cliente poderá exceder esse limite se o trabalho de streaming já tiver lido registros extras do Kinesis (na mesma chamada get-records). Se MaxFetchRecordsPerShard precisa ser rigoroso, então precisa ser um múltiplo de MaxRecordPerRead. O valor padrão é 100000.

  • MaxRecordPerRead: número (inteiro longo), no máximo None (Nenhum).

    O número máximo de registros a serem obtidos por fragmento no fluxo de dados do Kinesis em cada operação getRecords. O valor padrão é 10000.

  • AddIdleTimeBetweenReads – Booleano.

    Adiciona um atraso de tempo entre duas operações getRecords consecutivas. O valor padrão é "False". Essa opção só pode ser configurada para o Glue versão 2.0 e posterior.

  • IdleTimeBetweenReadsInMs: número (inteiro longo), no máximo None (Nenhum).

    O atraso mínimo entre duas operações getRecords consecutivas, especificado em ms. O valor padrão é 1000. Essa opção só pode ser configurada para o Glue versão 2.0 e posterior.

  • DescribeShardInterval: número (inteiro longo), no máximo None (Nenhum).

    O intervalo mínimo de tempo entre duas chamadas de ListShards API para que seu script considere a refragmentação. O valor padrão é 1s.

  • NumRetries – Número (inteiro), não mais do que None (Nenhum).

    O número máximo de novas tentativas para solicitações de API do Kinesis Data Streams. O valor padrão é 3.

  • RetryIntervalMs: número (inteiro longo), no máximo None (Nenhum).

    O período de espera (especificado em ms) antes de repetir a chamada da API Kinesis Data Streams. O valor padrão é 1000.

  • MaxRetryIntervalMs: número (inteiro longo), no máximo None (Nenhum).

    O período de espera máximo (especificado em ms) entre duas tentativas de uma chamada de API Kinesis Data Streams. O valor padrão é 10000.

  • AvoidEmptyBatches – Booleano.

    Evita a criação de um trabalho de microlote vazio verificando se há dados não lidos no fluxo de dados do Kinesis antes do lote ser iniciado. O valor padrão é "False".

  • StreamArn – String UTF-8 correspondente a Custom string pattern #40.

    O nome de recurso da Amazon (ARN) do fluxo de dados do Kinesis.

  • RoleArn – String UTF-8 correspondente a Custom string pattern #40.

    O nome do recurso da Amazon (ARN) da função a ser assumida pelo uso do AWS Security Token Service (AWS STS). Essa função deve ter permissões para descrever ou ler operações de registro para o fluxo de dados do Kinesis. Você deve usar esse parâmetro ao acessar um fluxo de dados em uma conta diferente. Usado em conjunto com "awsSTSSessionName".

  • RoleSessionName – String UTF-8 correspondente a Custom string pattern #40.

    Um identificador para a sessão que assume a função usando o AWS STS. Você deve usar esse parâmetro ao acessar um fluxo de dados em uma conta diferente. Usado em conjunto com "awsSTSRoleARN".

  • AddRecordTimestamp – String UTF-8 correspondente a Custom string pattern #40.

    Quando essa opção for definida como "true", a saída de dados conterá uma coluna adicional denominada "__src_timestamp" que indica a hora que o registro correspondente é recebido pelo fluxo. O valor padrão é "false". Essa opção é compatível com a AWS Glue versão 4.0 ou posterior.

  • EmitConsumerLagMetrics – String UTF-8 correspondente a Custom string pattern #40.

    Quando essa opção é definida como “verdadeira”, para cada lote, ela emitirá as métricas da duração entre o registro mais antigo recebido pelo stream e o horário em AWS Glue que ele chega. CloudWatch O nome da métrica é “glue.driver.streaming”. maxConsumerLagInMs”. O valor padrão é "false". Essa opção é compatível com o AWS Glue versão 4.0 ou posterior.

  • StartingTimestamp – String UTF-8.

    O timestamp do registro no fluxo de dados do Kinesis para começar a ler os dados. Os valores possíveis são uma string de timestamp no formato UTC no padrão yyyy-mm-ddTHH:MM:SSZ (onde Z representa um desvio do fuso horário UTC com +/-). Por exemplo: "2023-04-04T08:00:00+08:00").

CatalogKafkaSource estrutura

Especifica um datastore do Apache Kafka no catálogo de dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do datastore.

  • WindowSize – Número (inteiro), não mais do que None (Nenhum).

    A quantidade de tempo gasto no processamento de cada micro lote.

  • DetectSchema – Booleano.

    Se o esquema deve ser determinado automaticamente a partir dos dados recebidos.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados da qual a leitura será feita.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados do qual a leitura será feita.

  • StreamingOptions – Um objeto KafkaStreamingSourceOptions.

    Especifica as opções de transmissão.

  • DataPreviewOptions – Um objeto StreamingDataPreviewOptions.

    Especifica opções relacionadas à previsualização de dados para exibir uma amostra de seus dados.

DirectKafkaSource estrutura

Especifica um datastore do Apache Kafka.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do datastore.

  • StreamingOptions – Um objeto KafkaStreamingSourceOptions.

    Especifica as opções de transmissão.

  • WindowSize – Número (inteiro), não mais do que None (Nenhum).

    A quantidade de tempo gasto no processamento de cada micro lote.

  • DetectSchema – Booleano.

    Se o esquema deve ser determinado automaticamente a partir dos dados recebidos.

  • DataPreviewOptions – Um objeto StreamingDataPreviewOptions.

    Especifica opções relacionadas à previsualização de dados para exibir uma amostra de seus dados.

KafkaStreamingSourceOptions estrutura

Opções adicionais para transmissões.

Campos
  • BootstrapServers – String UTF-8 correspondente a Custom string pattern #40.

    Uma lista de URLs do servidor de bootstrap, por exemplo, como b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094. Essa opção deve ser especificada na chamada de API ou definida nos metadados da tabela no Data Catalog.

  • SecurityProtocol – String UTF-8 correspondente a Custom string pattern #40.

    O protocolo usado para se comunicar com os agentes. Os valores possíveis são "SSL" ou "PLAINTEXT".

  • ConnectionName – String UTF-8 correspondente a Custom string pattern #40.

    O nome da conexão.

  • TopicName – String UTF-8 correspondente a Custom string pattern #40.

    O nome do tópico conforme especificado no Apache Kafka. É necessário especificar pelo menos um "topicName", "assign" ou "subscribePattern".

  • Assign – String UTF-8 correspondente a Custom string pattern #40.

    As TopicPartitions específicas a consumir. É necessário especificar pelo menos um "topicName", "assign" ou "subscribePattern".

  • SubscribePattern – String UTF-8 correspondente a Custom string pattern #40.

    Uma string regex Java que identifica a lista de tópicos para assinar. É necessário especificar pelo menos um "topicName", "assign" ou "subscribePattern".

  • Classification – String UTF-8 correspondente a Custom string pattern #40.

    Uma classificação opcional.

  • Delimiter – String UTF-8 correspondente a Custom string pattern #40.

    Especifica o caractere delimitador.

  • StartingOffsets – String UTF-8 correspondente a Custom string pattern #40.

    A posição inicial no tópico do Kafka de onde ler os dados. Os valores possíveis são "earliest" ou "latest". O valor padrão é "latest".

  • EndingOffsets – String UTF-8 correspondente a Custom string pattern #40.

    O ponto final quando uma consulta em lote é encerrada. Os valores possíveis são "latest" ou uma string JSON que especifica um deslocamento final para cada TopicPartition.

  • PollTimeoutMs: número (inteiro longo), no máximo None (Nenhum).

    O tempo limite em milissegundos para sondar dados do Kafka em executores de trabalho do Spark. O valor padrão é 512.

  • NumRetries – Número (inteiro), não mais do que None (Nenhum).

    O número de novas tentativas antes de falhar em obter os deslocamentos do Kafka. O valor padrão é 3.

  • RetryIntervalMs: número (inteiro longo), no máximo None (Nenhum).

    O tempo em milissegundos a se esperar antes de tentar novamente buscar os deslocamentos do Kafka. O valor padrão é 10.

  • MaxOffsetsPerTrigger: número (inteiro longo), no máximo None (Nenhum).

    O limite de taxa no número máximo de deslocamentos que são processados por intervalo do acionador. O número total especificado de deslocamentos é dividido proporcionalmente entre topicPartitions de diferentes volumes. O valor padrão é nulo, o que significa que o consumidor lê todos os deslocamentos até o deslocamento mais recente conhecido.

  • MinPartitions – Número (inteiro), não mais do que None (Nenhum).

    O número mínimo desejado de partições a serem lidas do Kafka. O valor padrão é nulo, o que significa que o número de partições do Spark é igual ao número de partições do Kafka.

  • IncludeHeaders – Booleano.

    Se cabeçalhos do Kafka devem ser incluídos. Quando a opção estiver definida como "true", a saída de dados conterá uma coluna adicional chamada "glue_streaming_kafka_headers" com o tipo Array[Struct(key: String, value: String)]. O valor padrão é “false”. Essa opção está disponível somente na AWS Glue versão 3.0 ou posterior.

  • AddRecordTimestamp – String UTF-8 correspondente a Custom string pattern #40.

    Quando essa opção for definida como “true“, a saída de dados conterá uma coluna adicional denominada "__src_timestamp" que indica a hora que o registro correspondente é recebido pelo tópico. O valor padrão é "false". Essa opção é compatível com a AWS Glue versão 4.0 ou posterior.

  • EmitConsumerLagMetrics – String UTF-8 correspondente a Custom string pattern #40.

    Quando essa opção é definida como “verdadeira”, para cada lote, ela emitirá as métricas da duração entre o registro mais antigo recebido pelo tópico e a hora em AWS Glue que ele chega. CloudWatch O nome da métrica é “glue.driver.streaming”. maxConsumerLagInMs”. O valor padrão é "false". Essa opção é compatível com o AWS Glue versão 4.0 ou posterior.

  • StartingTimestamp – String UTF-8.

    O timestamp do registro no tópico do Kafka para começar a ler os dados. Os valores possíveis são uma string de timestamp no formato UTC no padrão yyyy-mm-ddTHH:MM:SSZ (onde Z representa um desvio do fuso horário UTC com +/-). Por exemplo: "2023-04-04T08:00:00+08:00").

    Somente um de StartingTimestamp ou StartingOffsets deve ser definido.

RedshiftSource estrutura

Especifica um datastore do Amazon Redshift.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do datastore do Amazon Redshift.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    A tabela do banco de dados da qual a leitura será feita.

  • RedshiftTmpDir – String UTF-8 correspondente a Custom string pattern #40.

    O caminho do Amazon S3 onde dados temporários podem ser preparados ao serem copiados do banco de dados.

  • TmpDirIAMRole – String UTF-8 correspondente a Custom string pattern #40.

    A função do IAM com permissões.

AmazonRedshiftSource estrutura

Especifica uma fonte do Amazon Redshift.

Campos

AmazonRedshiftNodeData estrutura

Especifica um nó do Amazon Redshift.

Campos
  • AccessType – String UTF-8 correspondente a Custom string pattern #39.

    O tipo de acesso para a conexão do Redshift. Pode ser uma conexão direta ou conexões de catálogo.

  • SourceType – String UTF-8 correspondente a Custom string pattern #39.

    O tipo de origem para especificar se uma determinada tabela é a fonte ou uma consulta personalizada.

  • Connection – Um objeto Opção.

    A AWS Glue conexão com o cluster do Redshift.

  • Schema – Um objeto Opção.

    O nome do esquema do Redshift ao trabalhar com uma conexão direta.

  • Table – Um objeto Opção.

    O nome da tabela do Redshift ao trabalhar com uma conexão direta.

  • CatalogDatabase – Um objeto Opção.

    O nome do banco de AWS Glue dados do Catálogo de Dados ao trabalhar com um catálogo de dados.

  • CatalogTable – Um objeto Opção.

    O nome da tabela do Catálogo de AWS Glue Dados ao trabalhar com um catálogo de dados.

  • CatalogRedshiftSchema – String UTF-8.

    O nome do esquema do Redshift ao trabalhar com um catálogo de dados.

  • CatalogRedshiftTable – String UTF-8.

    A tabela do banco de dados da qual a leitura será feita.

  • TempDir – String UTF-8 correspondente a Custom string pattern #40.

    O caminho do Amazon S3 onde dados temporários podem ser preparados ao serem copiados do banco de dados.

  • IamRole – Um objeto Opção.

    Opcional. O nome do perfil usado ao conectar com o S3. O perfil do IAM, quando deixado em branco, assumirá como padrão o perfil no trabalho.

  • AdvancedOptions – Uma matriz de objetos AmazonRedshiftAdvancedOption.

    Valores opcionais ao se conectar ao cluster do Redshift.

  • SampleQuery – String UTF-8.

    O SQL usado para buscar os dados de uma fonte do Redshift quando SourceType é “consulta”.

  • PreAction – String UTF-8.

    O SQL usado antes de um MERGE ou APPEND com upsert ser executado.

  • PostAction – String UTF-8.

    O SQL usado antes de um MERGE ou APPEND com upsert ser executado.

  • Action – String UTF-8.

    Especifica como a gravação em um cluster do Redshift ocorrerá.

  • TablePrefix – String UTF-8 correspondente a Custom string pattern #39.

    Especifica o prefixo de uma tabela.

  • Upsert – Booleano.

    A ação usada no Redshift vai para o coletor ao fazer um APPEND.

  • MergeAction – String UTF-8 correspondente a Custom string pattern #39.

    A ação usada para determinar como um MERGE em um coletor do Redshift será tratado.

  • MergeWhenMatched – String UTF-8 correspondente a Custom string pattern #39.

    A ação usada para determinar como um MERGE em um coletor do Redshift será tratado quando um registro existente corresponder a um novo registro.

  • MergeWhenNotMatched – String UTF-8 correspondente a Custom string pattern #39.

    A ação usada para determinar como um MERGE em um coletor do Redshift será tratado quando um registro existente não corresponder a um novo registro.

  • MergeClause – String UTF-8.

    O SQL usado em uma mesclagem personalizada para lidar com registros correspondentes.

  • CrawlerConnection – String UTF-8.

    Especifica o nome da conexão associada à tabela do catálogo usada.

  • TableSchema – Uma matriz de objetos Opção.

    A matriz de saída do esquema para um determinado nó.

  • StagingTable – String UTF-8.

    O nome da tabela de preparação temporária usada ao fazer um MERGE ou APPEND com upsert.

  • SelectedColumns – Uma matriz de objetos Opção.

    A lista de nomes de colunas usada para determinar um registro correspondente ao fazer MERGE ou APPEND com upsert.

AmazonRedshiftAdvancedOption estrutura

Especifica um valor opcional ao se conectar ao cluster do Redshift.

Campos
  • Key – String UTF-8.

    A chave para a opção de conexão adicional.

  • Value – String UTF-8.

    O valor para a opção de conexão adicional.

Estrutura Option

Especifica um valor de opção.

Campos

Estrutura S3 CatalogSource

Especifica um armazenamento de dados do Amazon S3 no AWS Glue catálogo de dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do datastore.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    A tabela do banco de dados da qual a leitura será feita.

  • PartitionPredicate – String UTF-8 correspondente a Custom string pattern #40.

    As partições que satisfazem a esse predicado são excluídas. Os arquivos dentro do período de retenção nessas partições não são excluídos. Definido como "", vazio por padrão.

  • AdditionalOptions – Um objeto S3 SourceAdditionalOptions.

    Especifica opções de conexão adicionais.

Estrutura S3 SourceAdditionalOptions

Especifica opções de conexão adicionais para o datastore do Amazon S3.

Campos
  • BoundedSize – Número (extenso).

    Define o limite superior para o tamanho de destino do conjunto de dados em bytes que serão processados.

  • BoundedFiles – Número (extenso).

    Define o limite superior para o número alvo de arquivos que serão processados.

Estrutura S3 CsvSource

Especifica um datastore CSV (valores separados por comando) armazenado no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do datastore.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.

  • CompressionType: string UTF-8 (valores válidos: gzip="GZIP" | bzip2="BZIP2").

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • Exclusions – Uma matriz de strings UTF-8.

    Uma string contendo uma lista JSON de padrões glob a excluir estilo Unix. Por exemplo, "[\"**.pdf\"]" exclui todos os arquivos PDF.

  • GroupSize – String UTF-8 correspondente a Custom string pattern #40.

    O tamanho do grupo de destino em bytes. O padrão é calculado com base no tamanho de dados de entrada e o tamanho de seu cluster. Quando há menos de 50.000 arquivos de entrada, "groupFiles" deve ser definido como "inPartition" para poder entrar em vigor.

  • GroupFiles – String UTF-8 correspondente a Custom string pattern #40.

    O agrupamento de arquivos é ativado por padrão quando a entrada contiver mais de 50.000 arquivos. Para habilitar o agrupamento com menos de 50.000 arquivos, defina esse parâmetro como "inPartition". Para desabilitar o agrupamento quando houver mais de 50.000 arquivos, defina esse parâmetro como "none".

  • Recurse – Booleano.

    Se definido como verdadeiro, recursivamente lê arquivos em todos os subdiretórios de acordo com os caminhos especificados.

  • MaxBand – Número (inteiro), não mais do que None (Nenhum).

    Esta opção controla a duração, em milissegundos, após a qual a listagem do s3 provavelmente será consistente. Arquivos com registros de data e hora de modificação dentro dos últimos milissegundos do MaxBand são rastreados especialmente quando usados JobBookmarks para contabilizar a consistência eventual do Amazon S3. A maioria dos usuários não precisa definir essa opção. O valor padrão é 900.000 milissegundos, ou 15 minutos.

  • MaxFilesInBand – Número (inteiro), não mais do que None (Nenhum).

    Esta opção especifica o número máximo de arquivos para salvar nos últimos maxBand segundos. Se esse número for excedido, os arquivos extras são ignorados e apenas processados na próxima execução do trabalho.

  • AdditionalOptions – Um objeto S3 DirectSourceAdditionalOptions.

    Especifica opções de conexão adicionais.

  • Separatorobrigatório: string UTF-8 (valores válidos: comma="COMMA" | ctrla="CTRLA" | pipe="PIPE" | semicolon="SEMICOLON" | tab="TAB").

    Especifica o caractere delimitador. O padrão é uma vírgula: ",", mas qualquer outro caractere pode ser especificado.

  • Escaper – String UTF-8 correspondente a Custom string pattern #41.

    Especifica um caractere a ser usado para escape. Essa opção é usada somente ao ler arquivos CSV. O valor padrão é none. Se ativado, o caractere que imediatamente segue é usado no estado em que se encontram, exceto para um pequeno conjunto de escapes conhecidos (\n, \r, \t e \0).

  • QuoteChar: obrigatório: string UTF-8 (valores válidos: quote="QUOTE" | quillemet="QUILLEMET" | single_quote="SINGLE_QUOTE" | disabled="DISABLED").

    Especifica o caractere a ser usado para aspas. O padrão é aspas duplas: '"'. Defina como -1 para desativar as aspas por completo.

  • Multiline – Booleano.

    Um valor booleano que especifica se um único registro pode abranger várias linhas. Isso pode ocorrer quando um campo contém um caractere de nova linha entre aspas. Você deve definir essa opção como True (Verdadeira) se qualquer registro ocupar várias linhas. O valor padrão é False, que permite uma divisão de arquivos mais radical durante a análise.

  • WithHeader – Booleano.

    Um valor booleano que especifica se é necessário tratar a primeira linha como um cabeçalho. O valor padrão é False.

  • WriteHeader – Booleano.

    Um valor booleano que especifica se é necessário escrever o cabeçalho na saída. O valor padrão é True.

  • SkipFirst – Booleano.

    Um valor booleano que especifica se é necessário ignorar a primeira linha de dados. O valor padrão é False.

  • OptimizePerformance – Booleano.

    Um valor booleano que especifica se deve usar o leitor SIMD para CSV avançado junto com formatos de memória colunar baseados no Apache Arrow. Disponível somente na AWS Glue versão 3.0.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte CSV do S3.

Estrutura DirectJDBCSource

Especifica a conexão direta da fonte JDBC.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da conexão da fonte JDBC.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O banco de dados da conexão da fonte JDBC.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    A tabela da conexão da fonte JDBC.

  • ConnectionNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da conexão da fonte JDBC.

  • ConnectionTypeobrigatório: string UTF-8 (valores válidos: sqlserver | mysql | oracle | postgresql | redshift).

    O tipo de conexão da fonte JDBC.

  • RedshiftTmpDir – String UTF-8 correspondente a Custom string pattern #40.

    O diretório temporário da fonte JDBC do Redshift.

Estrutura S3 DirectSourceAdditionalOptions

Especifica opções de conexão adicionais para o datastore do Amazon S3.

Campos
  • BoundedSize – Número (extenso).

    Define o limite superior para o tamanho de destino do conjunto de dados em bytes que serão processados.

  • BoundedFiles – Número (extenso).

    Define o limite superior para o número alvo de arquivos que serão processados.

  • EnableSamplePath – Booleano.

    Define a opção para ativar um caminho de exemplo.

  • SamplePath – String UTF-8 correspondente a Custom string pattern #40.

    Se ativado, especifica o caminho de exemplo.

Estrutura S3 JsonSource

Especifica um datastore JSON armazenado no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do datastore.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.

  • CompressionType: string UTF-8 (valores válidos: gzip="GZIP" | bzip2="BZIP2").

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • Exclusions – Uma matriz de strings UTF-8.

    Uma string contendo uma lista JSON de padrões glob a excluir estilo Unix. Por exemplo, "[\"**.pdf\"]" exclui todos os arquivos PDF.

  • GroupSize – String UTF-8 correspondente a Custom string pattern #40.

    O tamanho do grupo de destino em bytes. O padrão é calculado com base no tamanho de dados de entrada e o tamanho de seu cluster. Quando há menos de 50.000 arquivos de entrada, "groupFiles" deve ser definido como "inPartition" para poder entrar em vigor.

  • GroupFiles – String UTF-8 correspondente a Custom string pattern #40.

    O agrupamento de arquivos é ativado por padrão quando a entrada contiver mais de 50.000 arquivos. Para habilitar o agrupamento com menos de 50.000 arquivos, defina esse parâmetro como "inPartition". Para desabilitar o agrupamento quando houver mais de 50.000 arquivos, defina esse parâmetro como "none".

  • Recurse – Booleano.

    Se definido como verdadeiro, recursivamente lê arquivos em todos os subdiretórios de acordo com os caminhos especificados.

  • MaxBand – Número (inteiro), não mais do que None (Nenhum).

    Esta opção controla a duração, em milissegundos, após a qual a listagem do s3 provavelmente será consistente. Arquivos com registros de data e hora de modificação dentro dos últimos milissegundos do MaxBand são rastreados especialmente quando usados JobBookmarks para contabilizar a consistência eventual do Amazon S3. A maioria dos usuários não precisa definir essa opção. O valor padrão é 900.000 milissegundos, ou 15 minutos.

  • MaxFilesInBand – Número (inteiro), não mais do que None (Nenhum).

    Esta opção especifica o número máximo de arquivos para salvar nos últimos maxBand segundos. Se esse número for excedido, os arquivos extras são ignorados e apenas processados na próxima execução do trabalho.

  • AdditionalOptions – Um objeto S3 DirectSourceAdditionalOptions.

    Especifica opções de conexão adicionais.

  • JsonPath – String UTF-8 correspondente a Custom string pattern #40.

    Uma JsonPath string definindo os dados JSON.

  • Multiline – Booleano.

    Um valor booleano que especifica se um único registro pode abranger várias linhas. Isso pode ocorrer quando um campo contém um caractere de nova linha entre aspas. Você deve definir essa opção como True (Verdadeira) se qualquer registro ocupar várias linhas. O valor padrão é False, que permite uma divisão de arquivos mais radical durante a análise.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte JSON do S3.

Estrutura S3 ParquetSource

Especifica um datastore do Apache Parquet armazenado no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do datastore.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.

  • CompressionType – String UTF-8 (valores válidos: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE").

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • Exclusions – Uma matriz de strings UTF-8.

    Uma string contendo uma lista JSON de padrões glob a excluir estilo Unix. Por exemplo, "[\"**.pdf\"]" exclui todos os arquivos PDF.

  • GroupSize – String UTF-8 correspondente a Custom string pattern #40.

    O tamanho do grupo de destino em bytes. O padrão é calculado com base no tamanho de dados de entrada e o tamanho de seu cluster. Quando há menos de 50.000 arquivos de entrada, "groupFiles" deve ser definido como "inPartition" para poder entrar em vigor.

  • GroupFiles – String UTF-8 correspondente a Custom string pattern #40.

    O agrupamento de arquivos é ativado por padrão quando a entrada contiver mais de 50.000 arquivos. Para habilitar o agrupamento com menos de 50.000 arquivos, defina esse parâmetro como "inPartition". Para desabilitar o agrupamento quando houver mais de 50.000 arquivos, defina esse parâmetro como "none".

  • Recurse – Booleano.

    Se definido como verdadeiro, recursivamente lê arquivos em todos os subdiretórios de acordo com os caminhos especificados.

  • MaxBand – Número (inteiro), não mais do que None (Nenhum).

    Esta opção controla a duração, em milissegundos, após a qual a listagem do s3 provavelmente será consistente. Arquivos com registros de data e hora de modificação dentro dos últimos milissegundos do MaxBand são rastreados especialmente quando usados JobBookmarks para contabilizar a consistência eventual do Amazon S3. A maioria dos usuários não precisa definir essa opção. O valor padrão é 900.000 milissegundos, ou 15 minutos.

  • MaxFilesInBand – Número (inteiro), não mais do que None (Nenhum).

    Esta opção especifica o número máximo de arquivos para salvar nos últimos maxBand segundos. Se esse número for excedido, os arquivos extras são ignorados e apenas processados na próxima execução do trabalho.

  • AdditionalOptions – Um objeto S3 DirectSourceAdditionalOptions.

    Especifica opções de conexão adicionais.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte Parquet do S3.

Estrutura S3 DeltaSource

Especifica uma fonte de dados do Delta Lake armazenada em Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte do Delta Lake.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.

  • AdditionalDeltaOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Especifica opções de conexão adicionais.

  • AdditionalOptions – Um objeto S3 DirectSourceAdditionalOptions.

    Especifica opções adicionais para o conector.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte do Delta Lake.

Estrutura S3 CatalogDeltaSource

Especifica uma fonte de dados do Delta Lake que está registrada no Catálogo AWS Glue de Dados. A fonte de dados deve ser armazenada em Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados do Delta Lake.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados da qual a leitura será feita.

  • AdditionalDeltaOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Especifica opções de conexão adicionais.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte do Delta Lake.

CatalogDeltaSource estrutura

Especifica uma fonte de dados do Delta Lake que está registrada no Catálogo AWS Glue de Dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados do Delta Lake.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados da qual a leitura será feita.

  • AdditionalDeltaOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Especifica opções de conexão adicionais.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte do Delta Lake.

Estrutura S3 HudiSource

Especifica uma fonte de dados Hudi armazenada em. Amazon S3

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte Hudi.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.

  • AdditionalHudiOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Especifica opções de conexão adicionais.

  • AdditionalOptions – Um objeto S3 DirectSourceAdditionalOptions.

    Especifica opções adicionais para o conector.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte Hudi.

Estrutura S3 CatalogHudiSource

Especifica uma fonte de dados Hudi que está registrada no Catálogo de AWS Glue Dados. A fonte de dados Hudi deve ser armazenada em Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados Hudi.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados da qual a leitura será feita.

  • AdditionalHudiOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Especifica opções de conexão adicionais.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte Hudi.

CatalogHudiSource estrutura

Especifica uma fonte de dados Hudi que está registrada no Catálogo de AWS Glue Dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados Hudi.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados da qual a leitura será feita.

  • AdditionalHudiOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Especifica opções de conexão adicionais.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a fonte Hudi.

Estrutura do DynamoDB CatalogSource

Especifica uma fonte de dados do DynamoDB no catálogo de dados. AWS Glue

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados da qual a leitura será feita.

RelationalCatalogSource estrutura

Especifica uma fonte de dados de banco de dados relacional no AWS Glue Data Catalog.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados da qual a leitura será feita.

Estrutura do JDBC ConnectorTarget

Especifica um destino de dados que grava no Amazon S3 no armazenamento colunar do Apache Parquet.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • ConnectionNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da conexão associada ao conector.

  • ConnectionTableObrigatório: string UTF-8, correspondente a Custom string pattern #41.

    O nome da tabela no destino dos dados.

  • ConnectorNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome de um conector que será usado.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O tipo de conexão, como marketplace.jdbc ou custom.jdbc, designando uma conexão com um destino de dados JDBC.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Opções de conexão adicionais para o conector.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para o destino do JDBC.

SparkConnectorTarget estrutura

Especifica um destino que usa um conector Apache Spark.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • ConnectionNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome de uma conexão para um conector do Apache Spark.

  • ConnectorNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome de um conector do Apache Spark.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O tipo de conexão, como marketplace.spark ou custom.spark, designando uma conexão com um datastore do Apache Spark.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Opções de conexão adicionais para o conector.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para o destino do Spark personalizado.

BasicCatalogTarget estrutura

Especifica um destino que usa uma tabela do Catálogo AWS Glue de Dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do seu destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O banco de dados que contém a tabela que você deseja usar como destino. Esse banco de dados já deve existir no Data Catalog.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    A tabela que define o esquema dos dados de saída. Essa tabela já deve existir no Data Catalog.

Estrutura do MySQL CatalogTarget

Especifica um destino que usa o MySQL.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados no qual gravar.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados na qual gravar.

Estrutura do PostgreSQL CatalogTarget

Especifica um destino que usa o Postgres SQL.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados no qual gravar.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados na qual gravar.

Estrutura do OracleSQL CatalogTarget

Especifica um destino que usa o Oracle SQL.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados no qual gravar.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados na qual gravar.

Estrutura Microsoft SQL ServerCatalogTarget

Especifica um destino que usa o Microsoft SQL.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados no qual gravar.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados na qual gravar.

RedshiftTarget estrutura

Especifica um destino que usa o Amazon Redshift.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados no qual gravar.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados na qual gravar.

  • RedshiftTmpDir – String UTF-8 correspondente a Custom string pattern #40.

    O caminho do Amazon S3 onde dados temporários podem ser preparados ao serem copiados do banco de dados.

  • TmpDirIAMRole – String UTF-8 correspondente a Custom string pattern #40.

    A função do IAM com permissões.

  • UpsertRedshiftOptions – Um objeto UpsertRedshiftTargetOptions.

    O conjunto de opções para configurar uma operação upsert ao gravar em um destino do Redshift.

AmazonRedshiftTarget estrutura

Especifica um destino do Amazon Redshift.

Campos
  • Name – String UTF-8 correspondente a Custom string pattern #43.

    O nome do destino do Amazon Redshift.

  • Data – Um objeto AmazonRedshiftNodeData.

    Especifica os dados do nó de destino do Amazon Redshift.

  • Inputs: uma matriz de strings UTF-8, com não menos que 1 nem mais que 1 string.

    Os nós que são entradas para o destino de dados.

UpsertRedshiftTargetOptions estrutura

As opções para configurar uma operação upsert ao gravar em um destino do Redshift.

Campos
  • TableLocation – String UTF-8 correspondente a Custom string pattern #40.

    A localização física da tabela do Redshift.

  • ConnectionName – String UTF-8 correspondente a Custom string pattern #40.

    O nome da conexão a ser usada para gravar no Redshift.

  • UpsertKeys – Uma matriz de strings UTF-8.

    As chaves usadas para determinar se uma atualização ou uma inserção será executada.

Estrutura S3 CatalogTarget

Especifica um destino de dados que grava no Amazon S3 usando AWS Glue o catálogo de dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados na qual gravar.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados no qual gravar.

  • SchemaChangePolicy – Um objeto CatalogSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

Estrutura S3 GlueParquetTarget

Especifica um destino de dados que grava no Amazon S3 no armazenamento colunar do Apache Parquet.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • PathObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    Um único caminho do Amazon S3 no qual gravar.

  • Compression – String UTF-8 (valores válidos: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE").

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • SchemaChangePolicy – Um objeto DirectSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

CatalogSchemaChangePolicy estrutura

Uma política que especifica o comportamentos de atualização do crawler.

Campos
  • EnableUpdateCatalog – Booleano.

    Se comportamento de atualização especificado deve ser usado quando o crawler encontra um esquema alterado.

  • UpdateBehavior: string UTF-8 (valores válidos: UPDATE_IN_DATABASE | LOG).

    O comportamento de atualização quando o crawler encontra um esquema alterado.

Estrutura S3 DirectTarget

Especifica um destino de dados que grava no Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • PathObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    Um único caminho do Amazon S3 no qual gravar.

  • Compression – String UTF-8 correspondente a Custom string pattern #40.

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • Format: obrigatório: string UTF-8 (valores válidos: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    Especifica o formato de saída de dados para o destino.

  • SchemaChangePolicy – Um objeto DirectSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

Estrutura S3 HudiCatalogTarget

Especifica um destino que grava em uma fonte de dados Hudi no Catálogo de AWS Glue Dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados na qual gravar.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados no qual gravar.

  • AdditionalOptions: obrigatório: uma matriz de mapa dos pares de chave-valor.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Especifica as opções de conexão adicionais para o conector.

  • SchemaChangePolicy – Um objeto CatalogSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

Estrutura S3 HudiDirectTarget

Especifica um destino que grava em uma fonte de dados Hudi em. Amazon S3

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PathObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O caminho do Amazon S3 da fonte de dados Hudi na qual gravar.

  • Compression: obrigatório: string UTF-8 (valores válidos: gzip="GZIP" | lzo="LZO" | uncompressed="UNCOMPRESSED" | snappy="SNAPPY").

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • Format: obrigatório: string UTF-8 (valores válidos: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    Especifica o formato de saída de dados para o destino.

  • AdditionalOptions: obrigatório: uma matriz de mapa dos pares de chave-valor.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Especifica as opções de conexão adicionais para o conector.

  • SchemaChangePolicy – Um objeto DirectSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

Estrutura S3 DeltaCatalogTarget

Especifica um destino que grava em uma fonte de dados do Delta Lake no Catálogo AWS Glue de Dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados na qual gravar.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados no qual gravar.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Especifica as opções de conexão adicionais para o conector.

  • SchemaChangePolicy – Um objeto CatalogSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

Estrutura S3 DeltaDirectTarget

Especifica um destino que grava em uma fonte de dados do Delta Lake em Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • PathObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O caminho do Amazon S3 da fonte de dados do Delta Lake na qual gravar.

  • CompressionObrigatório: string UTF-8 (valores válidos: uncompressed="UNCOMPRESSED" | snappy="SNAPPY").

    Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são "gzip" e "bzip").

  • Format: obrigatório: string UTF-8 (valores válidos: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    Especifica o formato de saída de dados para o destino.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Especifica as opções de conexão adicionais para o conector.

  • SchemaChangePolicy – Um objeto DirectSchemaChangePolicy.

    Uma política que especifica o comportamentos de atualização do crawler.

DirectSchemaChangePolicy estrutura

Uma política que especifica o comportamentos de atualização do crawler.

Campos
  • EnableUpdateCatalog – Booleano.

    Se comportamento de atualização especificado deve ser usado quando o crawler encontra um esquema alterado.

  • UpdateBehavior: string UTF-8 (valores válidos: UPDATE_IN_DATABASE | LOG).

    O comportamento de atualização quando o crawler encontra um esquema alterado.

  • Table – String UTF-8 correspondente a Custom string pattern #40.

    Especifica a tabela no banco de dados à qual a política de alteração de esquema se aplica.

  • Database – String UTF-8 correspondente a Custom string pattern #40.

    Especifica o banco de dados no qual a política de alteração de esquema se aplica.

ApplyMapping estrutura

Especifica uma transformação que mapeia chaves de propriedade de dados na fonte dos dados para chaves de propriedade de dados no destino dos dados. Você pode renomear chaves, modificar os tipos de dados para chaves e escolher quais chaves remover do conjunto de dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • MappingObrigatório: uma matriz de objetos Mapeamento.

    Especifica o mapeamento das chaves de propriedade de dados na fonte dos dados para chaves de propriedade de dados no destino dos dados.

Estrutura Mapping

Especifica o mapeamento de chaves de propriedade de dados.

Campos
  • ToKey – String UTF-8 correspondente a Custom string pattern #40.

    Após o mapeamento de aplicação, qual deve ser o nome da coluna. Pode ser igual a FromPath.

  • FromPath – Uma matriz de strings UTF-8.

    A tabela ou coluna a ser modificada.

  • FromType – String UTF-8 correspondente a Custom string pattern #40.

    O tipo dos dados a serem modificados.

  • ToType – String UTF-8 correspondente a Custom string pattern #40.

    O tipo de dados para o qual os dados devem ser modificados.

  • Dropped – Booleano.

    Se verdadeiro, a coluna será removida.

  • Children – Uma matriz de objetos Mapeamento.

    Aplicável somente a estruturas de dados aninhadas. Se você quiser alterar a estrutura pai, mas também um de seus filhos, você pode preencher esta estrutura de dados. É também Mapping, mas seu FromPath será o FromPath dos pais mais o FromPath dessa estrutura.

    Para a parte dos filhos, suponha que você tenha a estrutura:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

    É possível especificar um Mapping parecido com:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

SelectFields estrutura

Especifica uma transformação que escolhe as chaves de propriedade de dados que você deseja manter.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Um caminho JSON para uma variável na estrutura de dados.

DropFields estrutura

Especifica uma transformação que escolhe as chaves de propriedade de dados que você deseja descartar.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Um caminho JSON para uma variável na estrutura de dados.

RenameField estrutura

Especifica uma transformação que renomeia uma única chave de propriedade de dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • SourcePath: obrigatório: uma matriz de strings UTF-8.

    Um caminho JSON para uma variável na estrutura de dados para os dados da fonte.

  • TargetPath: obrigatório: uma matriz de strings UTF-8.

    Um caminho JSON para uma variável na estrutura de dados para os dados do destino.

Estrutura Spigot

Especifica uma transformação que grava amostras dos dados em um bucket do Amazon S3.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • PathObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    Um caminho no Amazon S3 onde a transformação grava um subconjunto de registros do conjunto de dados em um arquivo JSON, em um bucket do Amazon S3.

  • Topk: número (inteiro), não mais do que 100.

    Especifica vários registros a serem gravados a partir do início do conjunto de dados.

  • Prob: número (double), no máximo 1.

    A probabilidade (um valor decimal com um valor máximo de 1) de escolher qualquer registro. Um valor de 1 indica que cada linha lida do conjunto de dados deve ser incluída na saída de amostra.

Estrutura Join

Especifica uma transformação que une dois conjuntos de dados em um só, usando uma frase de comparação nas chaves de propriedade de dados especificadas. Você pode usar junção inner (interna), outer (externa), left (à esquerda), right (à direita), left semi (semi à esquerda) e left anti (anti à esquerda).

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 2 ou mais de 2 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • JoinTypeobrigatório: string UTF-8 (valores válidos: equijoin="EQUIJOIN" | left="LEFT" | right="RIGHT" | outer="OUTER" | leftsemi="LEFT_SEMI" | leftanti="LEFT_ANTI").

    Especifica o tipo de junção a ser executada nos conjuntos de dados.

  • Columns: obrigatório: uma matriz de objetos JoinColumn, não menos de 2 ou mais de 2 estruturas.

    Uma lista das duas colunas a serem unidas.

JoinColumn estrutura

Especifica uma coluna a ser unida.

Campos
  • FromObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    A coluna a ser unida.

  • Keys: obrigatório: uma matriz de strings UTF-8.

    A chave da coluna a ser unida.

SplitFields estrutura

Especifica uma transformação que divide chaves de propriedade de dados em dois DynamicFrames. A saída é uma coleção de DynamicFrames: um com chaves de propriedade de dados selecionadas e outro com as chaves de propriedade de dados restantes.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • Paths: obrigatório: uma matriz de strings UTF-8.

    Um caminho JSON para uma variável na estrutura de dados.

SelectFromCollection estrutura

Especifica uma transformação que escolhe um DynamicFrame de uma coleção de DynamicFrames. A saída é o DynamicFrame selecionado.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • IndexObrigatório: número (inteiro), não mais do que Nenhum.

    O índice do DynamicFrame a ser selecionado.

FillMissingValues estrutura

Especifica uma transformação que localiza registros no conjunto de dados que tenham valores ausentes e adiciona um novo campo com um valor determinado por imputação. O conjunto de dados de entrada é usado para treinar o modelo de machine learning que determina qual deve ser o valor ausente.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • ImputedPathObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    Um caminho JSON para uma variável na estrutura de dados para o conjunto de dados imputado.

  • FilledPath – String UTF-8 correspondente a Custom string pattern #40.

    Um caminho JSON para uma variável na estrutura de dados para o conjunto de dados preenchido.

Estrutura Filter

Especifica uma transformação que divide um conjunto de dados em dois, com base em uma condição de filtro.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • LogicalOperatorObrigatório: string UTF-8 (valores válidos: AND | OR).

    O operador costumava filtrar linhas comparando o valor da chave com um valor especificado.

  • FiltersObrigatório: uma matriz de objetos FilterExpression.

    Especifica uma expressão de filtro.

FilterExpression estrutura

Especifica uma expressão de filtro.

Campos
  • Operation: obrigatório: string UTF-8 (valores válidos: EQ | LT | GT | LTE | GTE | REGEX | ISNULL).

    O tipo de operação a ser executada na expressão.

  • Negated – Booleano.

    Se a expressão deve ser negada.

  • ValuesObrigatório: uma matriz de objetos FilterValue.

    Uma lista de valores de filtro.

FilterValue estrutura

Representa uma única entrada na lista de valores de uma FilterExpression.

Campos
  • TypeObrigatório: string UTF-8 (valores válidos: COLUMNEXTRACTED | CONSTANT).

    O tipo de valor do filtro.

  • Value: obrigatório: uma matriz de strings UTF-8.

    O valor a ser associado.

CustomCode estrutura

Especifica uma transformação que usa código personalizado que você fornece para executar a transformação de dados. A saída é uma coleção de DynamicFrames.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • InputsObrigatório: uma matriz de strings UTF-8, pelo menos 1 string.

    As entradas de dados identificadas por seus nomes de nós.

  • CodeObrigatório: string UTF-8, correspondente a Custom string pattern #35.

    O código personalizado usado para executar a transformação de dados.

  • ClassNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome definido para a classe de nó de código personalizado.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a transformação de código personalizada.

Estrutura SparkSQL

Especifica uma transformação em que você insere uma consulta de SQL usando a sintaxe do Spark SQL para transformar os dados. A saída é um único DynamicFrame.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • InputsObrigatório: uma matriz de strings UTF-8, pelo menos 1 string.

    As entradas de dados identificadas por seus nomes de nós. Você pode associar um nome de tabela a cada nó de entrada a ser usado na consulta SQL. O nome escolhido deve atender às restrições de nomenclatura do Spark SQL.

  • SqlQueryObrigatório: string UTF-8, correspondente a Custom string pattern #42.

    Uma consulta SQL que deve usar a sintaxe do Spark SQL e retornar um único conjunto de dados.

  • SqlAliasesObrigatório: uma matriz de objetos SqlAlias.

    Uma lista de aliases. Um alias permite especificar qual nome usar no SQL para uma determinada entrada. Por exemplo, você tem uma fonte de dados chamada "”MyDataSource. Se você especificar From como MyDataSource e Alias como SqlName, em seu SQL você poderá fazer:

    select * from SqlName

    e isso obtém dados de MyDataSource.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a transformação do SparkSQL.

SqlAlias estrutura

Representa uma única entrada na lista de valores de SqlAliases.

Campos
  • FromObrigatório: string UTF-8, correspondente a Custom string pattern #39.

    Uma tabela ou uma coluna em uma tabela.

  • AliasObrigatório: string UTF-8, correspondente a Custom string pattern #41.

    Um nome temporário dado a uma tabela ou a uma coluna em uma tabela.

DropNullFields estrutura

Especifica uma transformação que remove colunas do conjunto de dados se todos os valores na coluna forem 'null'. Por padrão, o AWS Glue Studio reconhecerá objetos nulos, mas alguns valores, como cadeias de caracteres vazias, sequências de caracteres “nulas”, números inteiros -1 ou outros espaços reservados, como zeros, não são automaticamente reconhecidos como nulos.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • NullCheckBoxList – Um objeto NullCheckBoxList.

    Uma estrutura que representa se determinados valores são reconhecidos como valores nulos para remoção.

  • NullTextList – Uma matriz de NullValueField objetos, não mais de 50 estruturas.

    Uma estrutura que especifica uma lista de NullValueField estruturas que representam um valor nulo personalizado, como zero ou outro valor usado como um espaço reservado nulo exclusivo para o conjunto de dados.

    A transformação DropNullFields remove valores nulos personalizados somente se o valor do espaço reservado nulo e o tipo de dados corresponderem aos dados.

NullCheckBoxList estrutura

Representa se determinados valores são reconhecidos como valores nulos para remoção.

Campos
  • IsEmpty – Booleano.

    Especifica que uma string vazia é considerada como um valor nulo.

  • IsNullString – Booleano.

    Especifica que um valor com a palavra "null" é considerado como um valor nulo.

  • IsNegOne – Booleano.

    Especifica que um valor inteiro de -1 é considerado como um valor nulo.

NullValueField estrutura

Representa um valor nulo personalizado, como zeros ou outros valores sendo usados como um espaço reservado para nulo exclusivo para o conjunto de dados.

Campos
  • ValueObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O valor do espaço reservado para nulo.

  • DatatypeObrigatório: um objeto DataType.

    O tipo de dados do valor.

Estrutura Datatype

Uma estrutura que representa o tipo de dados do valor.

Campos

Estrutura Merge

Especifica uma transformação que mescla um DynamicFrame com um DynamicFrame de preparação, de acordo com as chaves primárias especificadas para identificar registros. Registros duplicados (com as mesmas chaves primárias) não são eliminados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 2 ou mais de 2 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • SourceObrigatório: string UTF-8, correspondente a Custom string pattern #39.

    O DynamicFrame da fonte que será mesclado com um DynamicFrame de preparação.

  • PrimaryKeys: obrigatório: uma matriz de strings UTF-8.

    A lista de campos de chave primária para corresponder aos registros da fonte e quadros dinâmicos de preparação.

Estrutura Union

Especifica uma transformação que combina as linhas de dois ou mais conjuntos de dados em um único resultado.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 2 ou mais de 2 strings.

    A entrada do ID do nó na transformação.

  • UnionTypeObrigatório: string UTF-8 (valores válidos: ALL | DISTINCT).

    Indica o tipo de transformação Union.

    Especifique ALL para unir todas as linhas das fontes de dados às resultantes DynamicFrame. A união resultante não remove linhas duplicadas.

    Especifique DISTINCT para remover linhas duplicadas no resultado DynamicFrame.

Estrutura PIIDetection

Especifica uma transformação que identifica, remove ou mascara dados de PII.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    A entrada do ID do nó na transformação.

  • PiiType: obrigatório: string UTF-8 (valores válidos: RowAudit | RowMasking | ColumnAudit | ColumnMasking).

    Indica o tipo de transformação PIIDetection.

  • EntityTypesToDetect: obrigatório: uma matriz de strings UTF-8.

    Indica os tipos de entidades que a transformação PIIDetection identificará como dados de PII.

    As entidades do tipo PII incluem: PERSON_NAME, DATE, USA_SNN, EMAIL, USA_ITIN, USA_PASSPORT_NUMBER, PHONE_NUMBER, BANK_ACCOUNT, IP_ADDRESS, MAC_ADDRESS, USA_CPT_CODE, USA_HCPCS_CODE, USA_NATIONAL_DRUG_CODE, USA_MEDICARE_BENEFICIARY_IDENTIFIER, USA_HEALTH_INSURANCE_CLAIM_NUMBER,CREDIT_CARD,USA_NATIONAL_PROVIDER_IDENTIFIER,USA_DEA_NUMBER,USA_DRIVING_LICENSE

  • OutputColumnName – String UTF-8 correspondente a Custom string pattern #40.

    Indica o nome da coluna de saída que conterá qualquer tipo de entidade detectado nessa linha.

  • SampleFraction: número (double), no máximo 1.

    Indica a fração dos dados a serem amostrados ao verificar entidades de PII.

  • ThresholdFraction: número (double), no máximo 1.

    Indica a fração dos dados que devem ser atendidos para que uma coluna seja identificada como dados de PII.

  • MaskValue: string UTF-8, com não mais que 256 bytes de comprimento, correspondente a Custom string pattern #37.

    Indica o valor que substituirá a entidade detectada.

Estrutura Aggregate

Especifica uma transformação que agrupa linhas por campos escolhidos e calcula o valor agregado por função especificada.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Especifica os campos e linhas a serem usados como entradas para a transformação agregada.

  • Groups: obrigatório: uma matriz de strings UTF-8.

    Especifica os campos a serem agrupados.

  • Aggs: obrigatório: uma matriz de objetos AggregateOperation, com, no mínimo, 1 e, no máximo, 30 estruturas.

    Especifica as funções agregadas a serem executadas em campos especificados.

DropDuplicates estrutura

Especifica uma transformação que remove linhas de dados repetidos de um conjunto de dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó de transformação.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas de dados identificadas por seus nomes de nós.

  • Columns – Uma matriz de strings UTF-8.

    O nome das colunas a serem mescladas ou removidas caso sejam repetidas.

GovernedCatalogTarget estrutura

Especifica um destino de dados que grava no Amazon S3 usando AWS Glue o catálogo de dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino de dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são entradas para o destino de dados.

  • PartitionKeys – Uma matriz de strings UTF-8.

    Especifica o particionamento nativo usando uma sequência de chaves.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome da tabela no banco de dados na qual gravar.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O nome do banco de dados no qual gravar.

  • SchemaChangePolicy – Um objeto CatalogSchemaChangePolicy.

    Uma política que especifica o comportamento do catálogo governado.

GovernedCatalogSource estrutura

Especifica o armazenamento de dados no Catálogo de AWS Glue Dados controlado.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do datastore.

  • DatabaseObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O banco de dados do qual a leitura será feita.

  • TableObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    A tabela do banco de dados da qual a leitura será feita.

  • PartitionPredicate – String UTF-8 correspondente a Custom string pattern #40.

    As partições que satisfazem a esse predicado são excluídas. Os arquivos dentro do período de retenção nessas partições não são excluídos. Definido como "", vazio por padrão.

  • AdditionalOptions – Um objeto S3 SourceAdditionalOptions.

    Especifica opções de conexão adicionais.

AggregateOperation estrutura

Especifica o conjunto de parâmetros necessários para realizar agregação na transformação dinâmica.

Campos
  • Column: obrigatório: uma matriz de strings UTF-8.

    Especifica a coluna no conjunto de dados em que a função de agregação será aplicada.

  • AggFunc: obrigatório: string UTF-8 (valores válidos: avg | countDistinct | count | first | last | kurtosis | max | min | skewness | stddev_samp | stddev_pop | sum | sumDistinct | var_samp | var_pop).

    Especifica a função de agregação a ser aplicada.

    As possíveis funções de agregação incluem: avg countDistinct, count, first, last, kurtosis, max, min, skewness, stddev_samp, stddev_pop, sum, sumDistinct, var_samp, var_pop

GlueSchema estrutura

Especifica um esquema definido pelo usuário quando um esquema não pode ser determinado pelo AWS Glue.

Campos
  • Columns – Uma matriz de objetos GlueStudioSchemaColumn.

    Especifica as definições de coluna que compõem um AWS Glue esquema.

GlueStudioSchemaColumn estrutura

Especifica uma única coluna em uma definição de AWS Glue esquema.

Campos
  • Name: – Obrigatório: string UTF-8 com não mais do que 1024 bytes de comprimento, correspondente a Single-line string pattern.

    O nome da coluna no esquema do AWS Glue Studio.

  • Type – String UTF-8 com comprimento não superior a 131.072 bytes, correspondente a Single-line string pattern.

    O tipo de seção dessa coluna no esquema do AWS Glue Studio.

GlueStudioColumn estrutura

Especifica uma única coluna no AWS Glue Studio.

Campos
  • KeyObrigatório: string UTF-8, correspondente a Custom string pattern #41.

    A chave da coluna no AWS Glue Studio.

  • FullPath: obrigatório: uma matriz de strings UTF-8.

    O URL completo da coluna no AWS Glue Studio.

  • TypeObrigatório: string UTF-8 (valores válidos: array="ARRAY" | bigint="BIGINT" | bigint array="BIGINT_ARRAY" | binary="BINARY" | binary array="BINARY_ARRAY" | boolean="BOOLEAN" | boolean array="BOOLEAN_ARRAY" | byte="BYTE" | byte array="BYTE_ARRAY" | char="CHAR" | char array="CHAR_ARRAY" | choice="CHOICE" | choice array="CHOICE_ARRAY" | date="DATE" | date array="DATE_ARRAY" | decimal="DECIMAL" | decimal array="DECIMAL_ARRAY" | double="DOUBLE" | double array="DOUBLE_ARRAY" | enum="ENUM" | enum array="ENUM_ARRAY" | float="FLOAT" | float array="FLOAT_ARRAY" | int="INT" | int array="INT_ARRAY" | interval="INTERVAL" | interval array="INTERVAL_ARRAY" | long="LONG" | long array="LONG_ARRAY" | object="OBJECT" | short="SHORT" | short array="SHORT_ARRAY" | smallint="SMALLINT" | smallint array="SMALLINT_ARRAY" | string="STRING" | string array="STRING_ARRAY" | timestamp="TIMESTAMP" | timestamp array="TIMESTAMP_ARRAY" | tinyint="TINYINT" | tinyint array="TINYINT_ARRAY" | varchar="VARCHAR" | varchar array="VARCHAR_ARRAY" | null="NULL" | unknown="UNKNOWN" | unknown array="UNKNOWN_ARRAY").

    O tipo da coluna no AWS Glue Studio.

  • Children: uma matriz de estruturas.

    Os filhos da coluna principal no AWS Glue Studio.

DynamicTransform estrutura

Especifica o conjunto de parâmetros necessários para realizar a transformação dinâmica.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    Especifica o nome da transformação dinâmica.

  • TransformNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    Especifica o nome da transformação dinâmica conforme ela aparece no editor visual do AWS Glue Studio.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Especifica as entradas necessárias para a transformação dinâmica.

  • Parameters – Uma matriz de objetos TransformConfigParameter.

    Especifica os parâmetros da transformação dinâmica.

  • FunctionNameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    Especifica o nome da função da transformação dinâmica.

  • PathObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    Especifica o caminho da origem da transformação dinâmica e dos arquivos de configuração.

  • Version – String UTF-8 correspondente a Custom string pattern #40.

    Esse campo não é usado e será removido em uma versão futura.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para a transformação dinâmica.

TransformConfigParameter estrutura

Especifica os parâmetros no arquivo de configuração da transformação dinâmica.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    Especifica o nome do parâmetro no arquivo de configuração da transformação dinâmica.

  • Type: obrigatório: string UTF-8 (valores válidos: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL").

    Especifica o tipo de parâmetro no arquivo de configuração da transformação dinâmica.

  • ValidationRule – String UTF-8 correspondente a Custom string pattern #40.

    Especifica a regra de validação no arquivo de configuração da transformação dinâmica.

  • ValidationMessage – String UTF-8 correspondente a Custom string pattern #40.

    Especifica a mensagem de validação no arquivo de configuração da transformação dinâmica.

  • Value – Uma matriz de strings UTF-8.

    Especifica o valor do parâmetro no arquivo de configuração da transformação dinâmica.

  • ListType – String UTF-8 (valores válidos: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL").

    Especifica o tipo de lista do parâmetro no arquivo de configuração da transformação dinâmica.

  • IsOptional – Booleano.

    Especifica se o parâmetro é opcional ou não no arquivo de configuração da transformação dinâmica.

EvaluateDataQuality estrutura

Especifica os critérios da avaliação de qualidade dos dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da avaliação de qualidade dos dados.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    As entradas da avaliação de qualidade dos dados.

  • Ruleset: obrigatório: string UTF-8, não menos que 1 ou mais que 65.536 bytes de comprimento, correspondente ao Custom string pattern #38.

    O conjunto de regras para a avaliação de qualidade dos dados.

  • Output: string UTF-8 (valores válidos: PrimaryInput | EvaluationResults).

    As resultado da avaliação de qualidade dos dados.

  • PublishingOptions – Um objeto DQ ResultsPublishingOptions.

    Opções para configurar como os resultados são publicados.

  • StopJobOnFailureOptions – Um objeto DQ StopJobOnFailureOptions.

    Opções para configurar como o trabalho será interrompido se a avaliação de qualidade dos dados falhar.

Estrutura DQ ResultsPublishingOptions

Opções para configurar como os resultados da avaliação de qualidade dos dados são publicados.

Campos
  • EvaluationContext – String UTF-8 correspondente a Custom string pattern #39.

    O contexto da avaliação.

  • ResultsS3Prefix – String UTF-8 correspondente a Custom string pattern #40.

    O prefixo do Amazon S3 adicionado aos resultados.

  • CloudWatchMetricsEnabled – Booleano.

    Habilitar métricas para os resultados de qualidade dos dados.

  • ResultsPublishingEnabled – Booleano.

    Habilitar a publicação dos resultados de qualidade dos dados.

Estrutura DQ StopJobOnFailureOptions

Opções para configurar como o trabalho será interrompido se a avaliação de qualidade dos dados falhar.

Campos
  • StopJobOnFailureTiming: string UTF-8 (valores válidos: Immediate | AfterDataLoad).

    Quando interromper o trabalho se a avaliação de qualidade dos dados falhar. As opções são imediatas ou AfterDataLoad.

EvaluateDataQualityMultiFrame estrutura

Especifica os critérios da avaliação de qualidade dos dados.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da avaliação de qualidade dos dados.

  • InputsObrigatório: uma matriz de strings UTF-8, pelo menos 1 string.

    As entradas da avaliação de qualidade dos dados. A primeira entrada nessa lista é a fonte de dados primária.

  • AdditionalDataSources – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #43.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Os aliases de todas as fontes de dados, exceto a primária.

  • Ruleset: obrigatório: string UTF-8, não menos que 1 ou mais que 65.536 bytes de comprimento, correspondente ao Custom string pattern #38.

    O conjunto de regras para a avaliação de qualidade dos dados.

  • PublishingOptions – Um objeto DQ ResultsPublishingOptions.

    Opções para configurar como os resultados são publicados.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 (valores válidos: performanceTuning.caching="CacheOption" | observations.scope="ObservationsOption").

    Cada valor é uma sequência de caracteres UTF-8.

    Opções para configurar o comportamento do runtime da transformação.

  • StopJobOnFailureOptions – Um objeto DQ StopJobOnFailureOptions.

    Opções para configurar como o trabalho será interrompido se a avaliação de qualidade dos dados falhar.

Estrutura da fórmula

Um nó do AWS Glue Studio que usa uma AWS Glue DataBrew receita em AWS Glue trabalhos.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do nó do AWS Glue Studio.

  • Inputs: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.

    Os nós que são inseridos no nó da fórmula, identificados por ID.

  • RecipeReferenceObrigatório: um objeto RecipeReference.

    Uma referência à DataBrew receita usada pelo nó.

RecipeReference estrutura

Uma referência a uma AWS Glue DataBrew receita.

Campos
  • RecipeArnObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    O ARN da receita. DataBrew

  • RecipeVersion - obrigatório: string UTF-8, com não menos do que 1 nem mais do que 16 bytes de comprimento.

    O RecipeVersion da DataBrew receita.

SnowflakeNodeData estrutura

Especifica a configuração dos nós do Snowflake no Studio. AWS Glue

Campos
  • SourceType – String UTF-8 correspondente a Custom string pattern #39.

    Especifica como os dados recuperados são especificados. Valores válidos: "table", "query".

  • Connection – Um objeto Opção.

    Especifica uma conexão do catálogo AWS Glue de dados com um endpoint do Snowflake.

  • Schema – String UTF-8.

    Especifica um esquema de banco de dados do Snowflake para seu nó usar.

  • Table – String UTF-8.

    Especifica uma tabela do Snowflake para seu nó usar.

  • Database – String UTF-8.

    Especifica um banco de dados do Snowflake para seu nó usar.

  • TempDir – String UTF-8 correspondente a Custom string pattern #40.

    Não utilizado no momento.

  • IamRole – Um objeto Opção.

    Não utilizado no momento.

  • AdditionalOptions – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #40.

    Cada valor é uma string UTF-8 que corresponde a Custom string pattern #40.

    Especifica opções adicionais passadas ao conector do Snowflake. Se as opções forem especificadas em outro lugar neste nó, isso terá precedência.

  • SampleQuery – String UTF-8.

    Uma string SQL usada para recuperar dados com o tipo de fonte query.

  • PreAction – String UTF-8.

    Uma string SQL executada antes que o conector do Snowflake execute suas ações padrão.

  • PostAction – String UTF-8.

    Uma string SQL executada depois que o conector do Snowflake executa suas ações padrão.

  • Action – String UTF-8.

    Especifica a ação a ser realizada ao gravar em uma tabela com dados preexistentes. Valores válidos: append, merge, truncate, drop.

  • Upsert – Booleano.

    Usado quando a ação é append. Especifica o comportamento da resolução quando uma linha já existe. Se verdadeiro, as linhas preexistentes serão atualizadas. Se falso, essas linhas serão inseridas.

  • MergeAction – String UTF-8 correspondente a Custom string pattern #39.

    Especifica uma ação de mesclagem. Valores válidos: simple, custom. Se for simples, o comportamento de mesclagem será definido por MergeWhenMatched e MergeWhenNotMatched. Se for personalizado, será definido por MergeClause.

  • MergeWhenMatched – String UTF-8 correspondente a Custom string pattern #39.

    Especifica como resolver registros que correspondam a dados preexistentes durante a mesclagem. Valores válidos: update, delete.

  • MergeWhenNotMatched – String UTF-8 correspondente a Custom string pattern #39.

    Especifica como processar registros que não correspondem a dados preexistentes durante a mesclagem. Valores válidos: insert, none.

  • MergeClause – String UTF-8.

    Uma instrução SQL que especifica um comportamento de mesclagem personalizado.

  • StagingTable – String UTF-8.

    O nome de uma tabela de preparação usada ao executar merge ou fazer o upsert das ações append. Os dados são gravados nessa tabela e, em seguida, movidos para a table por uma pós-ação gerada.

  • SelectedColumns – Uma matriz de objetos Opção.

    Especifica as colunas combinadas para identificar um registro ao detectar correspondências para mesclagens e upserts. Uma lista de estruturas com as chaves value, label e description. Cada estrutura descreve uma coluna.

  • AutoPushdown – Booleano.

    Especifica se o pushdown de consultas está habilitado. Se o pushdown estiver habilitado, quando uma consulta for executada no Spark, se for possível fazer pushdown de parte da consulta para o servidor do Snowflake, isso ocorrerá. Isso melhora a performance de algumas consultas.

  • TableSchema – Uma matriz de objetos Opção.

    Define manualmente o esquema de destino para o nó. Uma lista de estruturas com as chaves value, label e description. Cada estrutura define uma coluna.

SnowflakeSource estrutura

Especifica uma fonte de dados do Snowflake.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome da fonte de dados do Snowflake.

  • DataObrigatório: um objeto SnowflakeNodeData.

    Configuração da fonte de dados do Snowflake.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica esquemas definidos pelo usuário para seus dados de saída.

SnowflakeTarget estrutura

Especifica um destino do Snowflake.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome do destino do Snowflake.

  • DataObrigatório: um objeto SnowflakeNodeData.

    Especifica os dados do nó de destino do Snowflake.

  • Inputs: uma matriz de strings UTF-8, com não menos que 1 nem mais que 1 string.

    Os nós que são entradas para o destino de dados.

ConnectorDataSource estrutura

Especifica uma fonte gerada com opções de conexão padrão.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome desse nó de origem.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    OconnectionType, conforme fornecido à AWS Glue biblioteca subjacente. Esse tipo de nó é compatível com os seguintes tipos de conexão:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Data: obrigatório: uma matriz de mapa dos pares de chave-valor.

    Cada chave é uma sequência de caracteres UTF-8.

    Cada valor é uma sequência de caracteres UTF-8.

    Um mapa que especifica as opções de conexão para o nó. Você pode encontrar opções de conexão padrão para o tipo de conexão correspondente na seção Parâmetros de conexão da AWS Glue documentação.

  • OutputSchemas – Uma matriz de objetos GlueSchema.

    Especifica o esquema de dados para esta fonte.

ConnectorDataTarget estrutura

Especifica um destino gerado com opções de conexão padrão.

Campos
  • NameObrigatório: string UTF-8, correspondente a Custom string pattern #43.

    O nome desse nó de destino.

  • ConnectionTypeObrigatório: string UTF-8, correspondente a Custom string pattern #40.

    OconnectionType, conforme fornecido à AWS Glue biblioteca subjacente. Esse tipo de nó é compatível com os seguintes tipos de conexão:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Data: obrigatório: uma matriz de mapa dos pares de chave-valor.

    Cada chave é uma sequência de caracteres UTF-8.

    Cada valor é uma sequência de caracteres UTF-8.

    Um mapa que especifica as opções de conexão para o nó. Você pode encontrar opções de conexão padrão para o tipo de conexão correspondente na seção Parâmetros de conexão da AWS Glue documentação.

  • Inputs: uma matriz de strings UTF-8, com não menos que 1 nem mais que 1 string.

    Os nós que são entradas para o destino de dados.