시각적 작업 API - AWS Glue
 -  데이터 유형  -CodeGenConfigurationNodeJDBC ConnectorOptionsStreamingDataPreviewOptionsAthenaConnectorSourceJDBC ConnectorSourceSparkConnectorSourceCatalogSourceMySQL CatalogSourcePostgreSQL CatalogSource오라클 SQL CatalogSource마이크로소프트 SQL ServerCatalogSourceCatalogKinesisSourceDirectKinesisSourceKinesisStreamingSourceOptionsCatalogKafkaSourceDirectKafkaSourceKafkaStreamingSourceOptionsRedshiftSourceAmazonRedshiftSourceAmazonRedshiftNodeDataAmazonRedshiftAdvancedOption옵션S3 CatalogSourceS3 SourceAdditionalOptionsS3 CsvSourceDirectJDBCSourceS3 DirectSourceAdditionalOptionsS3 JsonSourceS3 ParquetSourceS3 DeltaSourceS3 CatalogDeltaSourceCatalogDeltaSourceS3 HudiSourceS3 CatalogHudiSourceCatalogHudiSourceDynamoDB CatalogSourceRelationalCatalogSourceJDBC ConnectorTargetSparkConnectorTargetBasicCatalogTargetMySQL CatalogTargetPostgreSQL CatalogTarget오라클 SQL CatalogTarget마이크로소프트 SQL ServerCatalogTargetRedshiftTargetAmazonRedshiftTargetUpsertRedshiftTargetOptionsS3 CatalogTargetS3 GlueParquetTargetCatalogSchemaChangePolicyS3 DirectTargetS3 HudiCatalogTargetS3 HudiDirectTargetS3 DeltaCatalogTargetS3 DeltaDirectTargetDirectSchemaChangePolicyApplyMappingMappingSelectFieldsDropFieldsRenameFieldSpigot조인JoinColumnSplitFieldsSelectFromCollectionFillMissingValuesFilterFilterExpressionFilterValueCustomCodeSparkSQLSqlAliasDropNullFieldsNullCheckBoxListNullValueField데이터 형식병합UnionPIIDetectionAggregateDropDuplicatesGovernedCatalogTargetGovernedCatalogSourceAggregateOperationGlueSchemaGlueStudioSchemaColumnGlueStudioColumnDynamicTransformTransformConfigParameterEvaluateDataQualityDQ ResultsPublishingOptionsDQ StopJobOnFailureOptionsEvaluateDataQualityMultiFrame레시피RecipeReferenceSnowflakeNodeDataSnowflakeSourceSnowflakeTargetConnectorDataSourceConnectorDataTarget

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

시각적 작업 API

시각적 작업 API를 사용하면 작업의 시각적 구성을 나타내는 JSON 개체의 AWS Glue API를 사용하여 데이터 통합 작업을 만들 수 있습니다. AWS Glue

AWS Glue Studio에서 생성된 작업에 대해 DAG를 등록하고 관련 코드를 생성하기 위한 작업 생성 또는 업데이트 API에 목록이 CodeGenConfigurationNodes 제공됩니다.

데이터 타입

CodeGenConfigurationNode 구조

CodeGenConfigurationNode는 유효한 모든 노드 유형을 열거합니다. 멤버 변수 중 하나만 채울 수 있습니다.

필드
  • AthenaConnectorSourceAthenaConnectorSource 객체입니다.

    Amazon Athena 데이터 원본에 대한 커넥터를 지정합니다.

  • JDBCConnectorSourceJDBC ConnectorSource 객체입니다.

    JDBC 데이터 원본에 대한 커넥터를 지정합니다.

  • SparkConnectorSourceSparkConnectorSource 객체입니다.

    Apache Spark 데이터 원본에 대한 커넥터를 지정합니다.

  • CatalogSourceCatalogSource 객체입니다.

    데이터 카탈로그의 AWS Glue 데이터 저장소를 지정합니다.

  • RedshiftSourceRedshiftSource 객체입니다.

    Amazon Redshift 데이터 스토어를 지정합니다.

  • S3CatalogSourceS3 CatalogSource 객체입니다.

    데이터 카탈로그에 Amazon S3 데이터 스토어를 지정합니다. AWS Glue

  • S3CsvSourceS3 CsvSource 객체입니다.

    Amazon S3에 저장된 CSV(쉼표로 구분된 값) 데이터 스토어를 지정합니다.

  • S3JsonSourceS3 JsonSource 객체입니다.

    Amazon S3에 저장된 JSON 데이터 스토어를 지정합니다.

  • S3ParquetSourceS3 ParquetSource 객체입니다.

    Amazon S3에 저장된 Apache Parquet 데이터 스토어를 지정합니다.

  • RelationalCatalogSourceRelationalCatalogSource 객체입니다.

    데이터 카탈로그의 관계형 카탈로그 데이터 스토어를 지정합니다. AWS Glue

  • DynamoDBCatalogSourceDynamoDB CatalogSource 객체입니다.

    데이터 카탈로그의 DynamoDB 카탈로그 데이터 스토어를 지정합니다. AWS Glue

  • JDBCConnectorTargetJDBC ConnectorTarget 객체입니다.

    Apache Parquet 열 형식 스토리지의 Amazon S3에 쓰는 데이터 대상을 지정합니다.

  • SparkConnectorTargetSparkConnectorTarget 객체입니다.

    Apache Spark 커넥터를 사용하는 대상을 지정합니다.

  • CatalogTargetBasicCatalogTarget 객체입니다.

    AWS Glue 데이터 카탈로그 테이블을 사용하는 대상을 지정합니다.

  • RedshiftTargetRedshiftTarget 객체입니다.

    Amazon Redshift를 사용하는 대상을 지정합니다.

  • S3CatalogTargetS3 CatalogTarget 객체입니다.

    데이터 카탈로그를 사용하여 Amazon S3에 쓰는 AWS Glue 데이터 대상을 지정합니다.

  • S3GlueParquetTargetS3 GlueParquetTarget 객체입니다.

    Apache Parquet 열 형식 스토리지의 Amazon S3에 쓰는 데이터 대상을 지정합니다.

  • S3DirectTargetS3 DirectTarget 객체입니다.

    Amazon S3에 쓰는 데이터 대상을 지정합니다.

  • ApplyMappingApplyMapping 객체입니다.

    데이터 원본의 데이터 속성 키를 데이터 대상의 데이터 속성 키에 매핑하는 변환을 지정합니다. 키의 이름을 바꾸고 키의 데이터 유형을 수정하고 데이터 집합에서 삭제할 키를 선택할 수 있습니다.

  • SelectFieldsSelectFields 객체입니다.

    유지할 데이터 속성 키를 선택하는 변환을 지정합니다.

  • DropFieldsDropFields 객체입니다.

    삭제할 데이터 속성 키를 선택하는 변환을 지정합니다.

  • RenameFieldRenameField 객체입니다.

    단일 데이터 속성 키의 이름을 바꾸는 변환을 지정합니다.

  • SpigotSpigot 객체입니다.

    Amazon S3 버킷에 데이터 샘플을 쓰는 변환을 지정합니다.

  • Join조인 객체입니다.

    지정된 데이터 속성 키의 비교 구문을 사용하여 두 데이터 집합을 하나의 데이터 집합으로 조인하는 변환을 지정합니다. 내부, 외부, 왼쪽, 오른쪽, 왼쪽 반 및 왼쪽 안티 조인을 사용할 수 있습니다.

  • SplitFieldsSplitFields 객체입니다.

    데이터 속성 키를 두 개의 DynamicFrames로 분할하는 변환을 지정합니다. 출력은 DynamicFrames 컬렉션입니다. 하나에는 선택한 데이터 속성 키가 있고 다른 하나에는 나머지 데이터 속성 키가 있습니다.

  • SelectFromCollectionSelectFromCollection 객체입니다.

    DynamicFrames 컬렉션에서 하나의 DynamicFrame을 선택하는 변환을 지정합니다. 출력은 선택한 DynamicFrame입니다.

  • FillMissingValuesFillMissingValues 객체입니다.

    데이터 집합에서 누락된 값이 있는 레코드를 찾고 대체를 통해 결정된 값으로 새 필드를 추가하는 변환을 지정합니다. 입력 데이터 집합은 누락 값을 결정하는 기계 학습 모델을 훈련하는 데 사용됩니다.

  • FilterFilter 객체입니다.

    필터 조건에 따라 하나의 데이터 집합을 두 개로 분할하는 변환을 지정합니다.

  • CustomCodeCustomCode 객체입니다.

    제공한 사용자 지정 코드를 사용하여 데이터 변환을 수행하는 변환을 지정합니다. 출력은 의 컬렉션입니다 DynamicFrames.

  • SparkSQLSparkSQL 객체입니다.

    데이터를 변환하기 위해 Spark SQL 구문을 사용하여 SQL 쿼리를 입력하는 변환을 지정합니다. 출력은 단일 DynamicFrame입니다.

  • DirectKinesisSourceDirectKinesisSource 객체입니다.

    직접적인 Amazon Kinesis 데이터 원본을 지정합니다.

  • DirectKafkaSourceDirectKafkaSource 객체입니다.

    Apache Kafka 데이터 스토어를 지정합니다.

  • CatalogKinesisSourceCatalogKinesisSource 객체입니다.

    데이터 카탈로그의 Kinesis 데이터 소스를 지정합니다. AWS Glue

  • CatalogKafkaSourceCatalogKafkaSource 객체입니다.

    데이터 카탈로그의 Apache Kafka 데이터 스토어를 지정합니다.

  • DropNullFieldsDropNullFields 객체입니다.

    열의 모든 값이 'null'인 경우 데이터 집합에서 열을 제거하는 변환을 지정합니다. 기본적으로 AWS Glue Studio는 null 객체를 인식하지만 빈 문자열, “null”인 문자열, -1 정수 또는 기타 자리 표시자 (예: 0) 와 같은 일부 값은 자동으로 null로 인식되지 않습니다.

  • Merge병합 객체입니다.

    레코드를 식별하기 위해 지정된 기본 키를 기준으로 DynamicFrame을 스테이징 DynamicFrame과 병합하는 변환을 지정합니다. 중복 레코드(기본 키가 동일한 레코드)는 중복 제거되지 않습니다.

  • UnionUnion 객체입니다.

    둘 이상 데이터 집합의 행을 단일 결과로 결합하는 변환을 지정합니다.

  • PIIDetectionPIIDetection 객체입니다.

    PII 데이터를 식별, 제거 또는 마스킹하는 변환을 지정합니다.

  • AggregateAggregate 객체입니다.

    선택한 필드별로 행을 그룹화하고 지정된 함수에 의해 집계된 값을 계산하는 변환을 지정합니다.

  • DropDuplicatesDropDuplicates 객체입니다.

    데이터 세트에서 반복 데이터의 행을 제거하는 변환을 지정합니다.

  • GovernedCatalogTargetGovernedCatalogTarget 객체입니다.

    관리 카탈로그에 작성하는 데이터 대상을 지정합니다.

  • GovernedCatalogSourceGovernedCatalogSource 객체입니다.

    관리 데이터 카탈로그의 데이터 소스를 지정합니다.

  • MicrosoftSQLServerCatalogSource마이크로소프트 SQL ServerCatalogSource 객체입니다.

    AWS Glue 데이터 카탈로그의 Microsoft SQL 서버 데이터 소스를 지정합니다.

  • MySQLCatalogSourceMySQL CatalogSource 객체입니다.

    데이터 카탈로그의 MySQL 데이터 원본을 지정합니다. AWS Glue

  • OracleSQLCatalogSource오라클 SQL CatalogSource 객체입니다.

    데이터 카탈로그에서 Oracle 데이터 원본을 지정합니다. AWS Glue

  • PostgreSQLCatalogSourcePostgreSQL CatalogSource 객체입니다.

    데이터 카탈로그에서 PostgreSQL 데이터 원본을 지정합니다. AWS Glue

  • MicrosoftSQLServerCatalogTarget마이크로소프트 SQL ServerCatalogTarget 객체입니다.

    Microsoft SQL을 사용하는 대상을 지정합니다.

  • MySQLCatalogTargetMySQL CatalogTarget 객체입니다.

    MySQL을 사용하는 대상을 지정합니다.

  • OracleSQLCatalogTarget오라클 SQL CatalogTarget 객체입니다.

    Oracle SQL을 사용하는 대상을 지정합니다.

  • PostgreSQLCatalogTargetPostgreSQL CatalogTarget 객체입니다.

    Postgres SQL을 사용하는 대상을 지정합니다.

  • DynamicTransformDynamicTransform 객체입니다.

    사용자가 생성한 사용자 지정 시각적 변환을 지정합니다.

  • EvaluateDataQualityEvaluateDataQuality 객체입니다.

    데이터 품질 평가 기준을 지정합니다.

  • S3CatalogHudiSourceS3 CatalogHudiSource 객체입니다.

    데이터 카탈로그에 등록된 Hudi 데이터 소스를 지정합니다. AWS Glue 데이터 소스는 에 Amazon S3저장되어야 합니다.

  • CatalogHudiSourceCatalogHudiSource 객체입니다.

    데이터 카탈로그에 등록된 Hudi 데이터 원본을 지정합니다. AWS Glue

  • S3HudiSourceS3 HudiSource 객체입니다.

    에 저장된 Hudi 데이터 원본을 지정합니다. Amazon S3

  • S3HudiCatalogTargetS3 HudiCatalogTarget 객체입니다.

    데이터 카탈로그의 Hudi 데이터 원본에 AWS Glue 쓰는 대상을 지정합니다.

  • S3HudiDirectTargetS3 HudiDirectTarget 객체입니다.

    에서 Hudi 데이터 원본에 쓰는 대상을 지정합니다. Amazon S3

  • S3CatalogDeltaSourceS3 CatalogDeltaSource 객체입니다.

    데이터 카탈로그에 등록된 Delta Lake AWS Glue 데이터 원본을 지정합니다. 데이터 원본은 에 저장되어야 합니다 Amazon S3.

  • CatalogDeltaSourceCatalogDeltaSource 객체입니다.

    데이터 카탈로그에 등록된 Delta Lake AWS Glue 데이터 원본을 지정합니다.

  • S3DeltaSourceS3 DeltaSource 객체입니다.

    에 저장된 델타 레이크 데이터 원본을 지정합니다 Amazon S3.

  • S3DeltaCatalogTargetS3 DeltaCatalogTarget 객체입니다.

    데이터 카탈로그의 Delta Lake 데이터 원본에 AWS Glue 쓰는 대상을 지정합니다.

  • S3DeltaDirectTargetS3 DeltaDirectTarget 객체입니다.

    델타 레이크 데이터 원본에 쓰는 대상을 지정합니다 Amazon S3.

  • AmazonRedshiftSourceAmazonRedshiftSource 객체입니다.

    Amazon Redshift에서 데이터 소스에 작성하는 대상을 지정합니다.

  • AmazonRedshiftTargetAmazonRedshiftTarget 객체입니다.

    Amazon Redshift에서 데이터 대상에 작성하는 대상을 지정합니다.

  • EvaluateDataQualityMultiFrameEvaluateDataQualityMultiFrame 객체입니다.

    데이터 품질 평가 기준을 지정합니다. 여러 입력 데이터를 허용하고 동적 프레임 컬렉션을 반환합니다.

  • Recipe레시피 객체입니다.

    AWS Glue DataBrew 레시피 노드를 지정합니다.

  • SnowflakeSourceSnowflakeSource 객체입니다.

    Snowflake 데이터 소스를 지정합니다.

  • SnowflakeTargetSnowflakeTarget 객체입니다.

    Snowflake 데이터 소스에 작성하는 대상을 지정합니다.

  • ConnectorDataSourceConnectorDataSource 객체입니다.

    표준 연결 옵션으로 생성된 소스를 지정합니다.

  • ConnectorDataTargetConnectorDataTarget 객체입니다.

    표준 연결 옵션으로 생성된 대상을 지정합니다.

JDBC 구조 ConnectorOptions

커넥터에 대한 추가 연결 옵션입니다.

필드
  • FilterPredicateCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    소스에서 데이터를 필터링하기 위한 추가 조건 절입니다. 예:

    BillingCity='Mountain View'

    테이블 이름 대신 쿼리를 사용하는 경우 쿼리가 지정된 filterPredicate에서 작동하는지 검증해야 합니다.

  • PartitionColumnCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    분할에 사용되는 정수 열의 이름입니다. 이 옵션은 lowerBound, upperBoundnumPartitions에 포함되는 경우에만 작동합니다. 이 옵션은 Spark SQL JDBC 리더에서와 같은 방식으로 작동합니다.

  • LowerBound – None 이하의 숫자(정수)입니다.

    파티션 스트라이드를 결정하는 데 사용되는 partitionColumn의 최소값입니다.

  • UpperBound – None 이하의 숫자(정수)입니다.

    파티션 스트라이드를 결정하는 데 사용되는 partitionColumn의 최대값입니다.

  • NumPartitions – None 이하의 숫자(정수)입니다.

    파티션 수입니다. 이 값은 lowerBound(포함) 및 upperBound(배타)와 함께 partitionColumn을 분할하는 데 사용되는 생성된 WHERE 절 표현에 대한 파티션 스트라이드를 형성합니다.

  • JobBookmarkKeys – UTF-8 문자열의 배열입니다.

    정렬할 작업 북마크 키의 이름입니다.

  • JobBookmarkKeysSortOrderCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    오름차순 또는 내림차순 정렬 순서를 지정합니다.

  • DataTypeMapping – 키-값 페어의 맵 배열입니다.

    각 키는 UTF-8 문자열입니다(유효한 값: ARRAY | BIGINT | BINARY | BIT | BLOB | BOOLEAN | CHAR | CLOB | DATALINK | DATE | DECIMAL | DISTINCT | DOUBLE | FLOAT | INTEGER | JAVA_OBJECT | LONGNVARCHAR | LONGVARBINARY | LONGVARCHAR | NCHAR | NCLOB | NULL | NUMERIC | NVARCHAR | OTHER | REAL | REF | REF_CURSOR | ROWID | SMALLINT | SQLXML | STRUCT | TIME | TIME_WITH_TIMEZONE | TIMESTAMP | TIMESTAMP_WITH_TIMEZONE | TINYINT | VARBINARY | VARCHAR).

    각 값은 UTF-8 문자열입니다(유효한 값: DATE | STRING | TIMESTAMP | INT | FLOAT | LONG | BIGDECIMAL | BYTE | SHORT | DOUBLE).

    JDBC 데이터 유형에서 AWS Glue 데이터 유형으로의 매핑을 구축하는 사용자 지정 데이터 유형 매핑입니다. 예를 들어, 옵션은 드라이버의 ResultSet.getString() 메서드를 호출하여 JDBC String 유형의 FLOAT 데이터 필드를 Java 유형으로 "dataTypeMapping":{"FLOAT":"STRING"} 매핑하고 이를 사용하여 레코드를 작성합니다. AWS Glue ResultSet 객체는 각 드라이버에 의해 구현되므로 동작은 사용하는 드라이버에 따라 다릅니다. 드라이버가 변환을 수행하는 방법을 이해하려면 JDBC 드라이버에 대한 설명서를 참조하세요.

StreamingDataPreviewOptions 구조체

데이터 샘플을 보기 위한 데이터 미리 보기와 관련된 옵션을 지정합니다.

필드
  • PollingTime - 최소 10 이상의 숫자(long)입니다.

    밀리초 단위의 폴링 시간입니다.

  • RecordPollingLimit - 최소 1 이상의 숫자(long)입니다.

    폴링되는 레코드 수에 대한 제한입니다.

AthenaConnectorSource 구조

Amazon Athena 데이터 원본에 대한 커넥터를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • ConnectionName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    커넥터와 연관된 연결 이름입니다.

  • ConnectorName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    AWS Glue Studio의 데이터 저장소에 액세스하는 데 도움이 되는 커넥터의 이름.

  • ConnectionType필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Amazon Athena 데이터 스토어에 대한 연결을 지정하는 marketplace.athena 또는 custom.athena와 같은 연결 유형입니다.

  • ConnectionTableCustom string pattern #41과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본에 있는 테이블의 이름입니다.

  • SchemaName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 CloudWatch 로그 그룹의 이름입니다. 예: /aws-glue/jobs/output.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    사용자 지정 Athena 소스에 대한 데이터 스키마를 지정합니다.

JDBC 구조 ConnectorSource

JDBC 데이터 원본에 대한 커넥터를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • ConnectionName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    커넥터와 연관된 연결 이름입니다.

  • ConnectorName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Studio의 데이터 저장소에 액세스하는 데 도움이 되는 커넥터의 이름. AWS Glue

  • ConnectionType필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    JDBC 데이터 스토어에 대한 연결을 지정하는 marketplace.jdbc 또는 custom.jdbc와 같은 연결 유형입니다.

  • AdditionalOptionsJDBC ConnectorOptions 객체입니다.

    커넥터에 대한 추가 연결 옵션입니다.

  • ConnectionTableCustom string pattern #41과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본에 있는 테이블의 이름입니다.

  • QueryCustom string pattern #42과(와) 일치하는 UTF-8 문자열입니다.

    데이터를 가져올 테이블 또는 SQL 쿼리입니다. ConnectionTable 또는 query을 지정할 수 있지만 둘 다 함께 지정할 수는 없습니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    사용자 지정 JDBC 소스에 대한 데이터 스키마를 지정합니다.

SparkConnectorSource 구조

Apache Spark 데이터 원본에 대한 커넥터를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • ConnectionName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    커넥터와 연관된 연결 이름입니다.

  • ConnectorName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    AWS Glue Studio의 데이터 저장소에 액세스하는 데 도움이 되는 커넥터의 이름.

  • ConnectionType필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Apache Spark 데이터 스토어에 대한 연결을 지정하는 marketplace.spark 또는 custom.spark와 같은 연결 유형입니다.

  • AdditionalOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    커넥터에 대한 추가 연결 옵션입니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    사용자 지정 Spark 소스에 대한 데이터 스키마를 지정합니다.

CatalogSource 구조

데이터 카탈로그의 AWS Glue 데이터 저장소를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

MySQL 구조 CatalogSource

데이터 카탈로그의 MySQL 데이터 원본을 지정합니다. AWS Glue

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

PostgreSQL 구조 CatalogSource

데이터 카탈로그에서 PostgreSQL 데이터 원본을 지정합니다. AWS Glue

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

오라클 SQL 구조 CatalogSource

데이터 카탈로그에서 Oracle 데이터 소스를 지정합니다. AWS Glue

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

마이크로소프트/SQL 구조 ServerCatalogSource

AWS Glue 데이터 카탈로그의 Microsoft SQL 서버 데이터 소스를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

CatalogKinesisSource 구조

데이터 카탈로그의 Kinesis 데이터 소스를 지정합니다. AWS Glue

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • WindowSize – None 이하의 숫자(정수)입니다.

    각 마이크로 배치를 처리하는 데 사용할 시간입니다.

  • DetectSchema – 부울입니다.

    들어오는 데이터의 스키마를 자동으로 결정할지 여부입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • StreamingOptionsKinesisStreamingSourceOptions 객체입니다.

    Kinesis 스트리밍 데이터 원본에 대한 추가 옵션입니다.

  • DataPreviewOptionsStreamingDataPreviewOptions 객체입니다.

    데이터 미리 보기에 대한 추가 옵션입니다.

DirectKinesisSource 구조

직접적인 Amazon Kinesis 데이터 원본을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • WindowSize – None 이하의 숫자(정수)입니다.

    각 마이크로 배치를 처리하는 데 사용할 시간입니다.

  • DetectSchema – 부울입니다.

    들어오는 데이터의 스키마를 자동으로 결정할지 여부입니다.

  • StreamingOptionsKinesisStreamingSourceOptions 객체입니다.

    Kinesis 스트리밍 데이터 원본에 대한 추가 옵션입니다.

  • DataPreviewOptionsStreamingDataPreviewOptions 객체입니다.

    데이터 미리 보기에 대한 추가 옵션입니다.

KinesisStreamingSourceOptions 구조

Amazon Kinesis 스트리밍 데이터 원본에 대한 추가 옵션입니다.

필드
  • EndpointUrlCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Kinesis 엔드포인트의 URL입니다.

  • StreamNameCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Kinesis 데이터 스트림의 이름입니다.

  • ClassificationCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    선택적 분류입니다.

  • DelimiterCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    구분 기호 문자열을 지정합니다.

  • StartingPosition – UTF-8 문자열입니다(유효한 값: latest="LATEST" | trim_horizon="TRIM_HORIZON" | earliest="EARLIEST" | timestamp="TIMESTAMP").

    데이터를 읽을 Kinesis 데이터 스트림의 시작 위치입니다. 가능한 값은 "latest", "trim_horizon", "earliest" 또는 yyyy-mm-ddTHH:MM:SSZ 패턴에서 UTC 형식의 타임스탬프 문자열입니다(여기서, Z는 UTC 시간대 오프셋(+/-)임, 예: '2023-04-04T08:00:00-04:00'). 기본 값은 "latest"입니다.

    참고: “StartingPosition”에 UTC 형식의 타임스탬프 문자열 값을 사용하는 것은 AWS Glue 버전 4.0 이상에서만 지원됩니다.

  • MaxFetchTimeInMs – None 이하의 숫자(정수)입니다.

    작업 실행기가 Kinesis 데이터 스트림에서 현재 배치에 대한 레코드를 읽는 데 걸리는 최대 시간(밀리초(ms) 단위로 지정)입니다. 이 시간 내에 여러 개의 GetRecords API 호출을 할 수 있습니다. 기본 값은 1000입니다.

  • MaxFetchRecordsPerShard – None 이하의 숫자(정수)입니다.

    마이크로 배치에 따라 Kinesis 데이터 스트림에서 샤드당 가져올 최대 레코드 수입니다. 참고: 스트리밍 작업이 이미 Kinesis의 동일한 get-records 호출에서 추가 레코드를 읽은 경우 클라이언트가 이 제한을 초과할 수 있습니다. MaxFetchRecordsPerShard가 엄격해야 한다면 MaxRecordPerRead의 배수여야 합니다. 기본 값은 100000입니다.

  • MaxRecordPerRead – None 이하의 숫자(정수)입니다.

    각 getRecords 작업에서 Kinesis 데이터 스트림으로부터 가져올 최대 레코드 수입니다. 기본 값은 10000입니다.

  • AddIdleTimeBetweenReads – 부울입니다.

    두 개의 연속 getRecords 작업 사이에 시간 지연을 추가합니다. 기본 값은 "False"입니다. 이 옵션은 Glue 버전 2.0 이상에서만 구성할 수 있습니다.

  • IdleTimeBetweenReadsInMs – None 이하의 숫자(정수)입니다.

    두 개의 연속 getRecords 작업 사이의 최소 시간 지연으로, ms 단위로 지정됩니다. 기본 값은 1000입니다. 이 옵션은 Glue 버전 2.0 이상에서만 구성할 수 있습니다.

  • DescribeShardInterval – None 이하의 숫자(정수)입니다.

    스크립트에서 리샤딩을 고려하기 위한 두 ListShards API 호출 사이의 최소 시간 간격입니다. 기본 값은 1s입니다.

  • NumRetries – None 이하의 숫자(정수)입니다.

    Kinesis Data Streams API 요청의 최대 재시도 횟수입니다. 기본 값은 3입니다.

  • RetryIntervalMs – None 이하의 숫자(정수)입니다.

    Kinesis Data Streams API 호출을 재시도하기 전의 휴지 기간(ms 단위로 지정)입니다. 기본 값은 1000입니다.

  • MaxRetryIntervalMs – None 이하의 숫자(정수)입니다.

    Kinesis Data Streams API 호출을 두 번 재시도하는 사이의 최대 휴지 시간(ms 단위로 지정)입니다. 기본 값은 10000입니다.

  • AvoidEmptyBatches – 부울입니다.

    배치가 시작되기 전에 Kinesis 데이터 스트림에서 읽지 않은 데이터를 확인하여 빈 마이크로 배치 작업 생성을 방지합니다. 기본 값은 "False"입니다.

  • StreamArnCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Kinesis 데이터 스트림의 Amazon 리소스 이름(ARN)입니다.

  • RoleArnCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    AWS Security Token Service(AWS STS)를 사용하여 맡을 역할의 Amazon 리소스 이름(ARN)입니다. 이 역할에는 Kinesis 데이터 스트림에 대한 레코드 작업을 설명하거나 읽을 수 있는 권한이 있어야 합니다. 다른 계정의 데이터 스트림에 액세스할 때 이 파라미터를 사용해야 합니다. "awsSTSSessionName"과(와) 함께 사용합니다.

  • RoleSessionNameCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    AWS STS를 사용하여 역할을 맡는 세션의 식별자입니다. 다른 계정의 데이터 스트림에 액세스할 때 이 파라미터를 사용해야 합니다. "awsSTSRoleARN"과(와) 함께 사용합니다.

  • AddRecordTimestampCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    이 옵션이 'true'로 설정되면 데이터 출력에는 이름이 '__src_timestamp'라는 추가 열이 포함됩니다. 이 열은 스트림에서 해당 레코드를 수신한 시간을 나타냅니다. 기본값은 'false'입니다. 이 옵션은 AWS Glue 버전 4.0 이상에서 지원됩니다.

  • EmitConsumerLagMetricsCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    이 옵션을 'true'로 설정하면 각 배치에 대해 스트림이 수신한 가장 오래된 레코드와 스트림이 수신된 시간 사이의 기간 동안 메트릭이 내보내집니다. AWS Glue CloudWatch 메트릭의 이름은 “glue.driver.streaming입니다. maxConsumerLagInMs”. 기본값은 'false'입니다. 이 옵션은 AWS Glue 버전 4.0 이상에서 지원됩니다.

  • StartingTimestamp – UTF-8 문자열입니다.

    Kinesis 데이터 스트림에서 데이터 읽기를 시작하는 레코드의 타임스탬프입니다. 가능한 값은 yyyy-mm-ddTHH:MM:SSZ 패턴에서 UTC 형식의 타임스탬프 문자열입니다(여기서, Z는 UTC 시간대 오프셋(+/-)임, 예: '2023-04-04T08:00:00+08:00').

CatalogKafkaSource 구조

데이터 카탈로그의 Apache Kafka 데이터 스토어를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • WindowSize – None 이하의 숫자(정수)입니다.

    각 마이크로 배치를 처리하는 데 사용할 시간입니다.

  • DetectSchema – 부울입니다.

    들어오는 데이터의 스키마를 자동으로 결정할지 여부입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • StreamingOptionsKafkaStreamingSourceOptions 객체입니다.

    스트리밍 옵션을 지정합니다.

  • DataPreviewOptionsStreamingDataPreviewOptions 객체입니다.

    데이터 샘플을 보기 위한 데이터 미리 보기와 관련된 옵션을 지정합니다.

DirectKafkaSource 구조

Apache Kafka 데이터 스토어를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • StreamingOptionsKafkaStreamingSourceOptions 객체입니다.

    스트리밍 옵션을 지정합니다.

  • WindowSize – None 이하의 숫자(정수)입니다.

    각 마이크로 배치를 처리하는 데 사용할 시간입니다.

  • DetectSchema – 부울입니다.

    들어오는 데이터의 스키마를 자동으로 결정할지 여부입니다.

  • DataPreviewOptionsStreamingDataPreviewOptions 객체입니다.

    데이터 샘플을 보기 위한 데이터 미리 보기와 관련된 옵션을 지정합니다.

KafkaStreamingSourceOptions 구조

스트리밍에 대한 추가 옵션입니다.

필드
  • BootstrapServersCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    부트스트랩 서버 URL 목록입니다(예: b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094). 이 옵션은 API 호출에 지정하거나 데이터 카탈로그의 테이블 메타데이터에 정의해야 합니다.

  • SecurityProtocolCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    브로커와 통신하는 데 사용되는 프로토콜입니다. 가능한 값은 "SSL" 또는 "PLAINTEXT"입니다.

  • ConnectionNameCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    연결의 이름입니다.

  • TopicNameCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Apache Kafka에 지정된 주제 이름입니다. "topicName", "assign" 또는 "subscribePattern" 중 하나 이상을 지정해야 합니다.

  • AssignCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    사용할 특정 TopicPartitions입니다. "topicName", "assign" 또는 "subscribePattern" 중 하나 이상을 지정해야 합니다.

  • SubscribePatternCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    구독할 주제 목록을 식별하는 Java 정규식 문자열입니다. "topicName", "assign" 또는 "subscribePattern" 중 하나 이상을 지정해야 합니다.

  • ClassificationCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    선택적 분류입니다.

  • DelimiterCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    구분 기호 문자열을 지정합니다.

  • StartingOffsetsCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    데이터를 읽을 Kafka 주제의 시작 위치입니다. 가능한 값은 "earliest" 또는 "latest"입니다. 기본값은 "latest"입니다.

  • EndingOffsetsCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    배치 쿼리가 종료되는 엔드포인트입니다. 가능한 값은 "latest" 또는 각 TopicPartition의 끝 오프셋을 지정하는 JSON 문자열입니다.

  • PollTimeoutMs – None 이하의 숫자(정수)입니다.

    Spark 작업 실행기에서 Kafka의 데이터를 폴링하는 시간 제한(밀리초)입니다. 기본 값은 512입니다.

  • NumRetries – None 이하의 숫자(정수)입니다.

    Kafka 오프셋 가져오기에 실패하기 전에 재시도할 횟수입니다. 기본 값은 3입니다.

  • RetryIntervalMs – None 이하의 숫자(정수)입니다.

    Kafka 오프셋 가져오기를 재시도하기 전에 대기할 시간(밀리초)입니다. 기본 값은 10입니다.

  • MaxOffsetsPerTrigger – None 이하의 숫자(정수)입니다.

    트리거 간격당 처리되는 최대 오프셋 수에 대한 속도 제한입니다. 지정된 총 오프셋 수는 서로 다른 볼륨의 topicPartitions에 비례하여 분할됩니다. 기본값은 null입니다. 즉, 소비자가 알려진 최신 오프셋까지 모든 오프셋을 읽습니다.

  • MinPartitions – None 이하의 숫자(정수)입니다.

    Kafka에서 읽을 원하는 최소 파티션 수입니다. 기본값은 null이며 이는 Spark 파티션의 수가 Kafka 파티션의 수와 동일함을 의미합니다.

  • IncludeHeaders – 부울입니다.

    Kafka 헤더를 포함할지 여부입니다. 옵션이 "true"로 설정되면 데이터 출력에는 유형이 Array[Struct(key: String, value: String)]인 "glue_streaming_kafka_headers"라는 추가 열이 포함됩니다. 기본값은 "false"입니다. 이 옵션은 AWS Glue 버전 3.0 이상에서만 사용할 수 있습니다.

  • AddRecordTimestampCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    이 옵션이 'true'로 설정되면 데이터 출력에는 이름이 '__src_timestamp'라는 추가 열이 포함됩니다. 이 열은 주제에서 해당 레코드를 수신한 시간을 나타냅니다. 기본값은 'false'입니다. 이 옵션은 AWS Glue 버전 4.0 이상에서 지원됩니다.

  • EmitConsumerLagMetricsCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    이 옵션을 'true'로 설정하면 각 배치에 대해 주제가 수신한 가장 오래된 레코드와 해당 레코드가 도착한 시간 사이의 기간 동안 메트릭이 내보내집니다. AWS Glue CloudWatch 메트릭의 이름은 “glue.driver.streaming입니다. maxConsumerLagInMs”. 기본값은 'false'입니다. 이 옵션은 AWS Glue 버전 4.0 이상에서 지원됩니다.

  • StartingTimestamp – UTF-8 문자열입니다.

    Kafka 주제에서 데이터 읽기를 시작하는 레코드의 타임스탬프입니다. 가능한 값은 yyyy-mm-ddTHH:MM:SSZ 패턴에서 UTC 형식의 타임스탬프 문자열입니다(여기서, Z는 UTC 시간대 오프셋(+/-)임, 예: '2023-04-04T08:00:00+08:00').

    StartingTimestamp 또는 StartingOffsets 중 하나만 설정해야 합니다.

RedshiftSource 구조

Amazon Redshift 데이터 스토어를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    Amazon Redshift 데이터 스토어의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽어야 할 데이터베이스입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽어야 할 데이터베이스 테이블입니다.

  • RedshiftTmpDirCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    데이터베이스 외부에서 복사할 때 임시 데이터를 스테이징할 수 있는 Amazon S3 경로입니다.

  • TmpDirIAMRoleCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    권한이 있는 IAM 역할입니다.

AmazonRedshiftSource 구조

Amazon Redshift 소스를 지정합니다.

필드
  • NameCustom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    Amazon Redshift 소스의 이름입니다.

  • DataAmazonRedshiftNodeData 객체입니다.

    Amazon Resshift 소스 노드의 데이터를 지정합니다.

AmazonRedshiftNodeData 구조

Amazon Redshift 노드를 지정합니다.

필드
  • AccessTypeCustom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    Redshift 연결을 위한 액세스 유형입니다. 직접 연결 또는 카탈로그 연결일 수 있습니다.

  • SourceTypeCustom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    특정 테이블이 소스인지 또는 사용자 지정 쿼리인지를 지정하기 위한 소스 유형입니다.

  • Connection옵션 객체입니다.

    Redshift 클러스터에 대한 AWS Glue 연결입니다.

  • Schema옵션 객체입니다.

    직접 연결로 작업하는 경우 Redshift 스키마 이름입니다.

  • Table옵션 객체입니다.

    직접 연결로 작업하는 경우 Redshift 테이블 이름입니다.

  • CatalogDatabase옵션 객체입니다.

    데이터 카탈로그로 작업할 때 사용되는 AWS Glue 데이터 카탈로그 데이터베이스의 이름.

  • CatalogTable옵션 객체입니다.

    AWS Glue 데이터 카탈로그로 작업할 때의 데이터 카탈로그 테이블 이름.

  • CatalogRedshiftSchema – UTF-8 문자열입니다.

    데이터 카탈로그로 작업하는 경우 Redshift 스키마 이름입니다.

  • CatalogRedshiftTable – UTF-8 문자열입니다.

    읽어야 할 데이터베이스 테이블입니다.

  • TempDirCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    데이터베이스 외부에서 복사할 때 임시 데이터를 스테이징할 수 있는 Amazon S3 경로입니다.

  • IamRole옵션 객체입니다.

    선택 사항입니다. S3에 연결할 때 사용하는 역할 이름입니다. 비어 있는 경우 IAM 역할은 기본적으로 작업의 역할을 사용합니다.

  • AdvancedOptionsAmazonRedshiftAdvancedOption 객체의 배열입니다.

    Redshift 클러스터에 연결하는 경우 선택적 값입니다.

  • SampleQuery – UTF-8 문자열입니다.

    '쿼리'일 때 Redshift 소스에서 데이터를 가져오는 데 사용되는 SQL입니다 SourceType.

  • PreAction – UTF-8 문자열입니다.

    업서트와 함께 MERGE 또는 APPEND를 실행하기 전에 사용되는 SQL입니다.

  • PostAction – UTF-8 문자열입니다.

    업서트와 함께 MERGE 또는 APPEND를 실행하기 전에 사용되는 SQL입니다.

  • Action – UTF-8 문자열입니다.

    Redshift 클러스터에 쓰는 방법을 지정합니다.

  • TablePrefixCustom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    테이블의 접두사를 지정합니다.

  • Upsert – 부울입니다.

    APPEND를 수행하는 경우 Redshift 싱크에서 사용되는 작업입니다.

  • MergeActionCustom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    Redshift 싱크에서 MERGE 처리 방식을 결정할 때 사용되는 작업입니다.

  • MergeWhenMatchedCustom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    기존 레코드가 새 레코드와 일치하는 경우 Redshift 싱크에서 MERGE 처리 방식을 결정할 때 사용되는 작업입니다.

  • MergeWhenNotMatchedCustom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    기존 레코드가 새 레코드와 일치하지 않는 경우 Redshift 싱크에서 MERGE 처리 방식을 결정할 때 사용되는 작업입니다.

  • MergeClause – UTF-8 문자열입니다.

    일치하는 레코드를 처리하기 위해 사용자 지정 병합에 사용되는 SQL입니다.

  • CrawlerConnection – UTF-8 문자열입니다.

    사용된 카탈로그 테이블과 연관된 연결 이름을 지정합니다.

  • TableSchema옵션 객체의 배열입니다.

    지정된 노드에 대한 스키마 출력 배열입니다.

  • StagingTable – UTF-8 문자열입니다.

    업서트와 함께 MERGE 또는 APPEND를 수행할 때 사용되는 임시 스테이징 테이블의 이름입니다.

  • SelectedColumns옵션 객체의 배열입니다.

    업서트와 함께 MERGE 또는 APPEND를 수행할 때 일치하는 레코드를 결정하는 데 사용되는 열 이름 목록입니다.

AmazonRedshiftAdvancedOption 구조

Redshift 클러스터에 연결할 때 선택적 값을 지정합니다.

필드
  • Key – UTF-8 문자열입니다.

    추가 연결 옵션의 키입니다.

  • Value – UTF-8 문자열입니다.

    추가 연결 옵션의 값입니다.

옵션 구조

옵션 값을 지정합니다.

필드

S3 CatalogSource 구조

데이터 카탈로그에 Amazon S3 데이터 스토어를 지정합니다. AWS Glue

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽어야 할 데이터베이스입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽어야 할 데이터베이스 테이블입니다.

  • PartitionPredicateCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    이 조건자를 충족하는 파티션이 삭제됩니다. 이러한 파티션에서 보존 기간 내에 있는 파일은 삭제되지 않습니다. 기본적으로 ""(비움)로 설정합니다.

  • AdditionalOptionsS3 SourceAdditionalOptions 객체입니다.

    추가 연결 옵션을 지정합니다.

S3 SourceAdditionalOptions 구조

Amazon S3 데이터 스토어에 대한 추가 연결 옵션을 지정합니다.

필드
  • BoundedSize - 숫자(정수)입니다.

    처리될 데이터 집합의 대상 크기에 대한 상한을 바이트 단위로 설정합니다.

  • BoundedFiles - 숫자(정수)입니다.

    처리될 대상 파일 수에 대한 상한을 설정합니다.

S3 CsvSource 구조

Amazon S3에 저장된 CSV(쉼표로 구분된 값) 데이터 스토어를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • Paths필수: UTF-8 문자열의 배열입니다.

    읽을 Amazon S3 경로 목록입니다.

  • CompressionType – UTF-8 문자열입니다(유효 값: gzip="GZIP" | bzip2="BZIP2").

    데이터 압축 방식을 지정합니다. 이 작업은 데이터에 표준 파일 확장자가 있는 경우에는 필요하지 않습니다. 가능한 값은 "gzip""bzip"입니다).

  • Exclusions – UTF-8 문자열의 배열입니다.

    제외할 Unix 스타일 glob 패턴의 JSON 목록이 포함된 문자열입니다. 예를 들어 "[\"**.pdf\"]"는 모든 PDF 파일을 배제합니다.

  • GroupSizeCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    대상 그룹 크기(바이트)입니다. 입력 데이터 크기와 클러스터 크기에 따라 기본값을 계산합니다. 입력 파일이 50,000개 미만일 때는 "groupFiles""inPartition"으로 설정해야 적용됩니다.

  • GroupFilesCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    입력에 50,000개 이상의 파일이 포함된 경우 기본값으로 파일 그룹화가 설정됩니다. 50,000개 미만인 파일로 그룹화를 설정하려면 이 파라미터를 "inPartition"으로 설정합니다. 파일이 50,000개 이상일 때 그룹화를 비활성화하려면 이 파라미터를 "none"으로 설정합니다.

  • Recurse – 부울입니다.

    true로 설정할 경우 지정된 경로의 모든 하위 디렉터리에 있는 파일을 재귀적으로 읽습니다.

  • MaxBand – None 이하의 숫자(정수)입니다.

    이 옵션은 s3 목록이 일정하게 유지되기 시작할 가능성이 있는 기간(밀리초)을 제어합니다. 수정 타임스탬프가 마지막 MaxBand 밀리초 이내인 파일은 특히 Amazon S3의 최종 일관성을 고려하여 JobBookmarks 사용할 때 추적됩니다. 대부분의 사용자는 이 옵션을 설정할 필요가 없습니다. 기본값은 900,000밀리초 또는 15분입니다.

  • MaxFilesInBand – None 이하의 숫자(정수)입니다.

    이 옵션은 마지막 maxBand초부터 저장할 최대 파일 수를 지정합니다. 이 수를 초과할 경우 추가 파일은 건너뛰고 다음 작업 실행에서만 처리됩니다.

  • AdditionalOptionsS3 DirectSourceAdditionalOptions 객체입니다.

    추가 연결 옵션을 지정합니다.

  • Separator필수: UTF-8 문자열입니다(유효한 값: comma="COMMA" | ctrla="CTRLA" | pipe="PIPE" | semicolon="SEMICOLON" | tab="TAB").

    구분 기호 문자열을 지정합니다. 기본값은 쉼표(",")지만 다른 문자도 지정할 수 있습니다.

  • EscaperCustom string pattern #41과(와) 일치하는 UTF-8 문자열입니다.

    이스케이프에 사용할 문자를 지정합니다. 이 옵션은 CSV 파일을 읽을 때만 사용됩니다. 기본 값은 none입니다. 활성화된 경우 바로 다음에 나오는 문자가 잘 알려진 이스케이프 세트(\n, \r, \t\0)를 제외하고는 있는 그대로 사용됩니다.

  • QuoteChar필수: UTF-8 문자열입니다(유효한 값: quote="QUOTE" | quillemet="QUILLEMET" | single_quote="SINGLE_QUOTE" | disabled="DISABLED").

    인용에 사용할 문자를 지정합니다. 기본 문자는 큰 따옴표(")입니다: '"'. 전체 인용을 해제하려면 이 값을 -1로 설정합니다.

  • Multiline – 부울입니다.

    단일 기록이 다양한 라인을 포괄할 수 있는지 여부를 지정하는 부울 값입니다. 필드가 인용된 새로운 라인 문자를 포함할 때 발생합니다. 레코드가 여러 줄에 걸쳐 있는 경우 이 옵션을 True로 설정해야 합니다. 기본값은 False이라서 파싱 동안 더 많은 공격적 파일 쪼개기가 가능합니다.

  • WithHeader – 부울입니다.

    첫 번째 라인을 헤더로 취급할지 여부를 지정하는 부울 값입니다. 기본 값은 False입니다.

  • WriteHeader – 부울입니다.

    헤더를 작성하여 출력할지 여부를 지정하는 부울 값입니다. 기본 값은 True입니다.

  • SkipFirst – 부울입니다.

    첫 번째 데이터 라인을 건너뛸지 여부를 지정하는 부울 값입니다. 기본 값은 False입니다.

  • OptimizePerformance – 부울입니다.

    Apache Arrow 기반 열 형식 메모리 포맷과 함께 고급 SIMD CSV 리더를 사용할지 여부를 지정하는 부울 값입니다. 버전 3.0에서만 사용할 수 있습니다. AWS Glue

  • OutputSchemasGlueSchema 객체의 배열입니다.

    S3 CSV 소스에 대한 데이터 스키마를 지정합니다.

DirectJDBCSource 구조

직접 JDBC 소스 연결을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    JDBC 소스 연결의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    JDBC 소스 연결의 데이터베이스입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    JDBC 소스 연결의 테이블입니다.

  • ConnectionName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    JDBC 소스의 연결 이름입니다.

  • ConnectionType필수: UTF-8 문자열입니다(유효한 값: sqlserver | mysql | oracle | postgresql | redshift).

    JDBC 소스의 연결 유형입니다.

  • RedshiftTmpDirCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    JDBC Redshift 소스의 임시 디렉터리입니다.

S3 DirectSourceAdditionalOptions 구조

Amazon S3 데이터 스토어에 대한 추가 연결 옵션을 지정합니다.

필드
  • BoundedSize - 숫자(정수)입니다.

    처리될 데이터 집합의 대상 크기에 대한 상한을 바이트 단위로 설정합니다.

  • BoundedFiles - 숫자(정수)입니다.

    처리될 대상 파일 수에 대한 상한을 설정합니다.

  • EnableSamplePath – 부울입니다.

    샘플 경로를 사용 설정하는 옵션을 설정합니다.

  • SamplePathCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    사용 설정된 경우 샘플 경로를 지정합니다.

S3 JsonSource 구조

Amazon S3에 저장된 JSON 데이터 스토어를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • Paths필수: UTF-8 문자열의 배열입니다.

    읽을 Amazon S3 경로 목록입니다.

  • CompressionType – UTF-8 문자열입니다(유효 값: gzip="GZIP" | bzip2="BZIP2").

    데이터 압축 방식을 지정합니다. 이 작업은 데이터에 표준 파일 확장자가 있는 경우에는 필요하지 않습니다. 가능한 값은 "gzip""bzip"입니다).

  • Exclusions – UTF-8 문자열의 배열입니다.

    제외할 Unix 스타일 glob 패턴의 JSON 목록이 포함된 문자열입니다. 예를 들어 "[\"**.pdf\"]"는 모든 PDF 파일을 배제합니다.

  • GroupSizeCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    대상 그룹 크기(바이트)입니다. 입력 데이터 크기와 클러스터 크기에 따라 기본값을 계산합니다. 입력 파일이 50,000개 미만일 때는 "groupFiles""inPartition"으로 설정해야 적용됩니다.

  • GroupFilesCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    입력에 50,000개 이상의 파일이 포함된 경우 기본값으로 파일 그룹화가 설정됩니다. 50,000개 미만인 파일로 그룹화를 설정하려면 이 파라미터를 "inPartition"으로 설정합니다. 파일이 50,000개 이상일 때 그룹화를 비활성화하려면 이 파라미터를 "none"으로 설정합니다.

  • Recurse – 부울입니다.

    true로 설정할 경우 지정된 경로의 모든 하위 디렉터리에 있는 파일을 재귀적으로 읽습니다.

  • MaxBand – None 이하의 숫자(정수)입니다.

    이 옵션은 s3 목록이 일정하게 유지되기 시작할 가능성이 있는 기간(밀리초)을 제어합니다. 수정 타임스탬프가 마지막 MaxBand 밀리초 이내인 파일은 특히 Amazon S3의 최종 일관성을 고려하여 JobBookmarks 사용할 때 추적됩니다. 대부분의 사용자는 이 옵션을 설정할 필요가 없습니다. 기본값은 900,000밀리초 또는 15분입니다.

  • MaxFilesInBand – None 이하의 숫자(정수)입니다.

    이 옵션은 마지막 maxBand초부터 저장할 최대 파일 수를 지정합니다. 이 수를 초과할 경우 추가 파일은 건너뛰고 다음 작업 실행에서만 처리됩니다.

  • AdditionalOptionsS3 DirectSourceAdditionalOptions 객체입니다.

    추가 연결 옵션을 지정합니다.

  • JsonPathCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    JSON 데이터를 정의하는 문자열. JsonPath

  • Multiline – 부울입니다.

    단일 기록이 다양한 라인을 포괄할 수 있는지 여부를 지정하는 부울 값입니다. 필드가 인용된 새로운 라인 문자를 포함할 때 발생합니다. 레코드가 여러 줄에 걸쳐 있는 경우 이 옵션을 True로 설정해야 합니다. 기본값은 False이라서 파싱 동안 더 많은 공격적 파일 쪼개기가 가능합니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    S3 JSON 소스에 대한 데이터 스키마를 지정합니다.

S3 구조 ParquetSource

Amazon S3에 저장된 Apache Parquet 데이터 스토어를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • Paths필수: UTF-8 문자열의 배열입니다.

    읽을 Amazon S3 경로 목록입니다.

  • CompressionType – UTF-8 문자열입니다(유효한 값: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE").

    데이터 압축 방식을 지정합니다. 이 작업은 데이터에 표준 파일 확장자가 있는 경우에는 필요하지 않습니다. 가능한 값은 "gzip""bzip"입니다).

  • Exclusions – UTF-8 문자열의 배열입니다.

    제외할 Unix 스타일 glob 패턴의 JSON 목록이 포함된 문자열입니다. 예를 들어 "[\"**.pdf\"]"는 모든 PDF 파일을 배제합니다.

  • GroupSizeCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    대상 그룹 크기(바이트)입니다. 입력 데이터 크기와 클러스터 크기에 따라 기본값을 계산합니다. 입력 파일이 50,000개 미만일 때는 "groupFiles""inPartition"으로 설정해야 적용됩니다.

  • GroupFilesCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    입력에 50,000개 이상의 파일이 포함된 경우 기본값으로 파일 그룹화가 설정됩니다. 50,000개 미만인 파일로 그룹화를 설정하려면 이 파라미터를 "inPartition"으로 설정합니다. 파일이 50,000개 이상일 때 그룹화를 비활성화하려면 이 파라미터를 "none"으로 설정합니다.

  • Recurse – 부울입니다.

    true로 설정할 경우 지정된 경로의 모든 하위 디렉터리에 있는 파일을 재귀적으로 읽습니다.

  • MaxBand – None 이하의 숫자(정수)입니다.

    이 옵션은 s3 목록이 일정하게 유지되기 시작할 가능성이 있는 기간(밀리초)을 제어합니다. 수정 타임스탬프가 마지막 MaxBand 밀리초 이내인 파일은 특히 Amazon S3의 최종 일관성을 고려하여 JobBookmarks 사용할 때 추적됩니다. 대부분의 사용자는 이 옵션을 설정할 필요가 없습니다. 기본값은 900,000밀리초 또는 15분입니다.

  • MaxFilesInBand – None 이하의 숫자(정수)입니다.

    이 옵션은 마지막 maxBand초부터 저장할 최대 파일 수를 지정합니다. 이 수를 초과할 경우 추가 파일은 건너뛰고 다음 작업 실행에서만 처리됩니다.

  • AdditionalOptionsS3 DirectSourceAdditionalOptions 객체입니다.

    추가 연결 옵션을 지정합니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    S3 Parquet 소스에 대한 데이터 스키마를 지정합니다.

S3 구조 DeltaSource

델타 레이크 데이터 원본을 저장하도록 지정합니다 Amazon S3.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    Delta Lake 소스의 이름입니다.

  • Paths필수: UTF-8 문자열의 배열입니다.

    읽을 Amazon S3 경로 목록입니다.

  • AdditionalDeltaOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    추가 연결 옵션을 지정합니다.

  • AdditionalOptionsS3 DirectSourceAdditionalOptions 객체입니다.

    커넥터의 추가 옵션을 지정합니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    Delta Lake 소스에 대한 데이터 스키마를 지정합니다.

S3 CatalogDeltaSource 구조

데이터 카탈로그에 등록된 Delta Lake AWS Glue 데이터 소스를 지정합니다. 데이터 원본은 에 저장되어야 합니다 Amazon S3.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    Delta Lake 데이터 소스의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

  • AdditionalDeltaOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    추가 연결 옵션을 지정합니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    Delta Lake 소스에 대한 데이터 스키마를 지정합니다.

CatalogDeltaSource 구조

데이터 카탈로그에 등록된 Delta Lake AWS Glue 데이터 원본을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    Delta Lake 데이터 소스의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

  • AdditionalDeltaOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    추가 연결 옵션을 지정합니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    Delta Lake 소스에 대한 데이터 스키마를 지정합니다.

S3 HudiSource 구조

에 Amazon S3저장된 Hudi 데이터 소스를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    Hudi 테이블의 이름입니다.

  • Paths필수: UTF-8 문자열의 배열입니다.

    읽을 Amazon S3 경로 목록입니다.

  • AdditionalHudiOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    추가 연결 옵션을 지정합니다.

  • AdditionalOptionsS3 DirectSourceAdditionalOptions 객체입니다.

    커넥터의 추가 옵션을 지정합니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    Hudi 소스에 대한 데이터 스키마를 지정합니다.

S3 구조 CatalogHudiSource

데이터 카탈로그에 등록된 Hudi AWS Glue 데이터 소스를 지정합니다. Hudi 데이터 소스는 에 저장되어야 합니다. Amazon S3

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    Hudi 데이터 소스의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

  • AdditionalHudiOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    추가 연결 옵션을 지정합니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    Hudi 소스에 대한 데이터 스키마를 지정합니다.

CatalogHudiSource 구조

데이터 카탈로그에 등록된 Hudi AWS Glue 데이터 소스를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    Hudi 데이터 소스의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

  • AdditionalHudiOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    추가 연결 옵션을 지정합니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    Hudi 소스에 대한 데이터 스키마를 지정합니다.

DynamoDB 구조 CatalogSource

데이터 카탈로그의 DynamoDB 데이터 소스를 지정합니다. AWS Glue

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

RelationalCatalogSource 구조

AWS Glue 데이터 카탈로그의 관계형 데이터베이스 데이터 소스를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

JDBC 구조 ConnectorTarget

Apache Parquet 열 형식 스토리지의 Amazon S3에 쓰는 데이터 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • ConnectionName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    커넥터와 연관된 연결 이름입니다.

  • ConnectionTable필수: Custom string pattern #41과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상에 있는 테이블의 이름입니다.

  • ConnectorName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    사용할 커넥터의 이름입니다.

  • ConnectionType필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    JDBC 데이터 대상에 대한 연결을 지정하는 marketplace.jdbc 또는 custom.jdbc와 같은 연결 유형입니다.

  • AdditionalOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    커넥터에 대한 추가 연결 옵션입니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    JDBC 대상의 데이터 스키마를 지정합니다.

SparkConnectorTarget 구조

Apache Spark 커넥터를 사용하는 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • ConnectionName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Apache Spark 커넥터에 대한 연결 이름입니다.

  • ConnectorName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Apache Spark 커넥터의 이름입니다.

  • ConnectionType필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Apache Spark 데이터 스토어에 대한 연결을 지정하는 marketplace.spark 또는 custom.spark와 같은 연결 유형입니다.

  • AdditionalOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    커넥터에 대한 추가 연결 옵션입니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    사용자 지정 Spark 대상에 대한 데이터 스키마를 지정합니다.

BasicCatalogTarget 구조

AWS Glue 데이터 카탈로그 테이블을 사용하는 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    대상으로 사용할 테이블이 포함된 데이터베이스입니다. 이 데이터베이스가 데이터 카탈로그에 이미 존재해야 합니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    출력 데이터의 스키마를 정의하는 테이블입니다. 이 테이블이 데이터 카탈로그에 이미 존재해야 합니다.

MySQL 구조 CatalogTarget

MySQL을 사용하는 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

PostgreSQL 구조 CatalogTarget

Postgres SQL을 사용하는 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

오라클 SQL 구조 CatalogTarget

Oracle SQL을 사용하는 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

마이크로소프트 SQL 구조 ServerCatalogTarget

Microsoft SQL을 사용하는 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

RedshiftTarget 구조

Amazon Redshift를 사용하는 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

  • RedshiftTmpDirCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    데이터베이스 외부에서 복사할 때 임시 데이터를 스테이징할 수 있는 Amazon S3 경로입니다.

  • TmpDirIAMRoleCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    권한이 있는 IAM 역할입니다.

  • UpsertRedshiftOptionsUpsertRedshiftTargetOptions 객체입니다.

    Redshift 대상에 쓸 때 업서트 작업을 구성하는 옵션 세트입니다.

AmazonRedshiftTarget 구조

Amazon Redshift 대상을 지정합니다.

필드
  • NameCustom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    Amazon Redshift 대상의 이름입니다.

  • DataAmazonRedshiftNodeData 객체입니다.

    Amazon Redshift 대상 노드의 데이터를 지정합니다.

  • Inputs – UTF-8 문자열의 배열입니다(1개의 문자열).

    데이터 대상에 대한 입력인 노드입니다.

UpsertRedshiftTargetOptions 구조

Redshift 대상에 쓸 때 업서트 작업을 구성하는 옵션입니다.

필드
  • TableLocationCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Redshift 테이블의 물리적 위치입니다.

  • ConnectionNameCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Redshift에 쓰는 데 사용할 연결 이름입니다.

  • UpsertKeys – UTF-8 문자열의 배열입니다.

    업데이트 또는 삽입 수행 여부를 결정하는 데 사용되는 키입니다.

S3 CatalogTarget 구조

데이터 카탈로그를 사용하여 Amazon S3에 쓰는 AWS Glue 데이터 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • PartitionKeys – UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • SchemaChangePolicyCatalogSchemaChangePolicy 객체입니다.

    크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

S3 GlueParquetTarget 구조

Apache Parquet 열 형식 스토리지의 Amazon S3에 쓰는 데이터 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • PartitionKeys – UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Path필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 단일 Amazon S3 경로입니다.

  • Compression – UTF-8 문자열입니다(유효한 값: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE").

    데이터 압축 방식을 지정합니다. 이 작업은 데이터에 표준 파일 확장자가 있는 경우에는 필요하지 않습니다. 가능한 값은 "gzip""bzip"입니다).

  • SchemaChangePolicyDirectSchemaChangePolicy 객체입니다.

    크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

CatalogSchemaChangePolicy 구조

크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

필드
  • EnableUpdateCatalog – 부울입니다.

    크롤러가 변경된 스키마를 찾았을 때 지정된 업데이트 동작을 사용할지 여부입니다.

  • UpdateBehavior – UTF-8 문자열입니다(유효 값: UPDATE_IN_DATABASE | LOG).

    크롤러가 변화된 객체를 찾을 때 업데이트 동작.

S3 DirectTarget 구조

Amazon S3에 쓰는 데이터 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • PartitionKeys – UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Path필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 단일 Amazon S3 경로입니다.

  • CompressionCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    데이터 압축 방식을 지정합니다. 이 작업은 데이터에 표준 파일 확장자가 있는 경우에는 필요하지 않습니다. 가능한 값은 "gzip""bzip"입니다).

  • Format필수: UTF-8 문자열입니다(유효한 값: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    대상에 대한 데이터 출력 포맷을 지정합니다.

  • SchemaChangePolicyDirectSchemaChangePolicy 객체입니다.

    크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

S3 HudiCatalogTarget 구조

데이터 카탈로그의 Hudi 데이터 소스에 AWS Glue 쓰는 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • PartitionKeys – UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • AdditionalOptions필수(Required): 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    커넥터에 대한 추가 연결 옵션을 지정합니다.

  • SchemaChangePolicyCatalogSchemaChangePolicy 객체입니다.

    크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

S3 구조 HudiDirectTarget

에서 Hudi 데이터 소스에 쓰는 대상을 지정합니다. Amazon S3

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • Path필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 Hudi 데이터 소스의 Amazon S3 경로입니다.

  • Compression필수: UTF-8 문자열입니다(유효한 값: gzip="GZIP" | lzo="LZO" | uncompressed="UNCOMPRESSED" | snappy="SNAPPY").

    데이터 압축 방식을 지정합니다. 이 작업은 데이터에 표준 파일 확장자가 있는 경우에는 필요하지 않습니다. 가능한 값은 "gzip""bzip"입니다).

  • PartitionKeys – UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Format필수: UTF-8 문자열입니다(유효한 값: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    대상에 대한 데이터 출력 포맷을 지정합니다.

  • AdditionalOptions필수(Required): 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    커넥터에 대한 추가 연결 옵션을 지정합니다.

  • SchemaChangePolicyDirectSchemaChangePolicy 객체입니다.

    크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

S3 구조 DeltaCatalogTarget

데이터 카탈로그의 Delta Lake 데이터 소스에 쓰는 대상을 지정합니다. AWS Glue

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • PartitionKeys – UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • AdditionalOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    커넥터에 대한 추가 연결 옵션을 지정합니다.

  • SchemaChangePolicyCatalogSchemaChangePolicy 객체입니다.

    크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

S3 DeltaDirectTarget 구조

델타 레이크 데이터 소스에 쓰는 대상을 지정합니다 Amazon S3.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • PartitionKeys – UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Path필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 Delta Lake 데이터 소스의 Amazon S3 경로입니다.

  • Compression필수: UTF-8 문자열입니다(유효한 값: uncompressed="UNCOMPRESSED" | snappy="SNAPPY").

    데이터 압축 방식을 지정합니다. 이 작업은 데이터에 표준 파일 확장자가 있는 경우에는 필요하지 않습니다. 가능한 값은 "gzip""bzip"입니다).

  • Format필수: UTF-8 문자열입니다(유효한 값: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    대상에 대한 데이터 출력 포맷을 지정합니다.

  • AdditionalOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    커넥터에 대한 추가 연결 옵션을 지정합니다.

  • SchemaChangePolicyDirectSchemaChangePolicy 객체입니다.

    크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

DirectSchemaChangePolicy 구조

크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

필드
  • EnableUpdateCatalog – 부울입니다.

    크롤러가 변경된 스키마를 찾았을 때 지정된 업데이트 동작을 사용할지 여부입니다.

  • UpdateBehavior – UTF-8 문자열입니다(유효 값: UPDATE_IN_DATABASE | LOG).

    크롤러가 변화된 객체를 찾을 때 업데이트 동작.

  • TableCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    스키마 변경 정책이 적용되는 데이터베이스의 테이블을 지정합니다.

  • DatabaseCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    스키마 변경 정책이 적용되는 데이터베이스를 지정합니다.

ApplyMapping 구조

데이터 원본의 데이터 속성 키를 데이터 대상의 데이터 속성 키에 매핑하는 변환을 지정합니다. 키의 이름을 바꾸고 키의 데이터 유형을 수정하고 데이터 집합에서 삭제할 키를 선택할 수 있습니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Mapping필수: Mapping 객체의 배열입니다.

    데이터 원본의 데이터 속성 키를 데이터 대상의 데이터 속성 키에 매핑하도록 지정합니다.

Mapping 구조

데이터 속성 키의 매핑을 지정합니다.

필드
  • ToKeyCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    매핑을 적용한 후의 열 이름입니다. FromPath와 같을 수 있습니다.

  • FromPath – UTF-8 문자열의 배열입니다.

    수정할 테이블 또는 열입니다.

  • FromTypeCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    수정할 데이터 유형입니다.

  • ToTypeCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    데이터가 수정되는 데이터 유형입니다.

  • Dropped – 부울입니다.

    true인 경우 열이 제거됩니다.

  • Children – Mapping 객체의 배열입니다.

    중첩된 데이터 구조에만 적용됩니다. 상위 구조뿐만 아니라 하위 구조 중 하나도 변경하려는 경우 이 데이터 구조를 작성할 수 있습니다. 마찬가지로 Mapping이지만 해당 FromPath도 상위 구조의 FromPath와 이 구조의 FromPath가 됩니다.

    하위 부분의 경우 다음과 같은 구조가 있다고 가정합니다.

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

    다음과 같은 Mapping을 지정할 수 있습니다.

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

SelectFields 구조

유지할 데이터 속성 키를 선택하는 변환을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Paths필수: UTF-8 문자열의 배열입니다.

    데이터 구조의 변수에 대한 JSON 경로입니다.

DropFields 구조

삭제할 데이터 속성 키를 선택하는 변환을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Paths필수: UTF-8 문자열의 배열입니다.

    데이터 구조의 변수에 대한 JSON 경로입니다.

RenameField 구조

단일 데이터 속성 키의 이름을 바꾸는 변환을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • SourcePath필수: UTF-8 문자열의 배열입니다.

    소스 데이터에 대한 데이터 구조의 변수에 대한 JSON 경로입니다.

  • TargetPath필수: UTF-8 문자열의 배열입니다.

    대상 데이터에 대한 데이터 구조의 변수에 대한 JSON 경로입니다.

Spigot 구조

Amazon S3 버킷에 데이터 샘플을 쓰는 변환을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Path필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    변환이 데이터 집합의 레코드 하위 집합을 Amazon S3 버킷의 JSON 파일에 쓰는 Amazon S3의 경로입니다.

  • Topk – 100 이하의 숫자(정수)입니다.

    데이터 집합의 시작 부분부터 쓸 레코드 수를 지정합니다.

  • Prob – 1 이하의 숫자(double)입니다.

    지정된 레코드를 선택할 확률(최대값이 1인 소수 값)입니다. 값 1은 데이터 집합에서 읽은 각 행이 샘플 출력에 포함되어야 함을 나타냅니다.

조인 구조

지정된 데이터 속성 키의 비교 구문을 사용하여 두 데이터 집합을 하나의 데이터 집합으로 조인하는 변환을 지정합니다. 내부, 외부, 왼쪽, 오른쪽, 왼쪽 반 및 왼쪽 안티 조인을 사용할 수 있습니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(2개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • JoinType필수: UTF-8 문자열입니다(유효한 값: equijoin="EQUIJOIN" | left="LEFT" | right="RIGHT" | outer="OUTER" | leftsemi="LEFT_SEMI" | leftanti="LEFT_ANTI").

    데이터 집합에서 수행할 조인 유형을 지정합니다.

  • Columns필수(Required): 2개 이상의 구조로 이루어진 JoinColumn 객체의 배열입니다.

    조인할 두 열의 목록입니다.

JoinColumn 구조

조인할 열을 지정합니다.

필드
  • From필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    조인할 열입니다.

  • Keys필수: UTF-8 문자열의 배열입니다.

    조인할 열의 키입니다.

SplitFields 구조

데이터 속성 키를 두 개의 DynamicFrames로 분할하는 변환을 지정합니다. 출력은 DynamicFrames 컬렉션입니다. 하나에는 선택한 데이터 속성 키가 있고 다른 하나에는 나머지 데이터 속성 키가 있습니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Paths필수: UTF-8 문자열의 배열입니다.

    데이터 구조의 변수에 대한 JSON 경로입니다.

SelectFromCollection 구조

DynamicFrames 컬렉션에서 하나의 DynamicFrame을 선택하는 변환을 지정합니다. 출력은 선택한 DynamicFrame입니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Index필수(Required): None 이하의 숫자(정수)입니다.

    선택할 인덱스입니다. DynamicFrame

FillMissingValues 구조

데이터 집합에서 누락된 값이 있는 레코드를 찾고 대체를 통해 결정된 값으로 새 필드를 추가하는 변환을 지정합니다. 입력 데이터 집합은 누락 값을 결정하는 기계 학습 모델을 훈련하는 데 사용됩니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • ImputedPath필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    대체된 데이터 집합에 대한 데이터 구조의 변수에 대한 JSON 경로입니다.

  • FilledPathCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    작성된 데이터 집합에 대한 데이터 구조의 변수에 대한 JSON 경로입니다.

Filter 구조

필터 조건에 따라 하나의 데이터 집합을 두 개로 분할하는 변환을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • LogicalOperator필수: UTF-8 문자열입니다(유효한 값: AND | OR).

    키 값을 지정된 값과 비교하여 행을 필터링하는 데 사용되는 연산자입니다.

  • Filters필수: FilterExpression 객체의 배열입니다.

    필터 표현식을 지정합니다.

FilterExpression 구조

필터 표현식을 지정합니다.

필드
  • Operation필수: UTF-8 문자열입니다(유효한 값: EQ | LT | GT | LTE | GTE | REGEX | ISNULL).

    표현식에서 수행할 작업의 유형입니다.

  • Negated – 부울입니다.

    표현식을 부정할지 여부입니다.

  • Values필수: FilterValue 객체의 배열입니다.

    필터 값 목록입니다.

FilterValue 구조

FilterExpression의 값 목록에 있는 단일 항목을 나타냅니다.

필드
  • Type필수: UTF-8 문자열입니다(유효한 값: COLUMNEXTRACTED | CONSTANT).

    필터 값 유형입니다.

  • Value필수: UTF-8 문자열의 배열입니다.

    연결할 값입니다.

CustomCode 구조

제공한 사용자 지정 코드를 사용하여 데이터 변환을 수행하는 변환을 지정합니다. 출력은 의 모음입니다 DynamicFrames.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수: UTF-8 문자열의 배열이며 문자열은 1개 이상입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Code필수: Custom string pattern #35과(와) 일치하는 UTF-8 문자열입니다.

    데이터 변환을 수행하는 데 사용되는 사용자 지정 코드입니다.

  • ClassName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    사용자 지정 코드 노드 클래스에 대해 정의된 이름입니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    사용자 지정 코드 변환에 대한 데이터 스키마를 지정합니다.

SparkSQL 구조

데이터를 변환하기 위해 Spark SQL 구문을 사용하여 SQL 쿼리를 입력하는 변환을 지정합니다. 출력은 단일 DynamicFrame입니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수: UTF-8 문자열의 배열이며 문자열은 1개 이상입니다.

    노드 이름으로 식별된 데이터 입력입니다. SQL 쿼리에 사용할 각 입력 노드와 테이블 이름을 연결할 수 있습니다. 선택한 이름은 Spark SQL 이름 지정 제한을 충족해야 합니다.

  • SqlQuery필수: Custom string pattern #42과(와) 일치하는 UTF-8 문자열입니다.

    Spark SQL 구문을 사용하고 단일 데이터 집합을 반환해야 하는 SQL 쿼리입니다.

  • SqlAliases필수: SqlAlias 객체의 배열입니다.

    별칭 목록입니다. 별칭을 사용하면 지정된 입력에 대해 SQL에서 사용할 이름을 지정할 수 있습니다. 예를 들어 이름이 "“MyDataSource인 데이터 원본이 있습니다. as와 From MyDataSource Alias SqlName as를 지정하면 SQL에서 다음을 수행할 수 있습니다.

    select * from SqlName

    그리고 여기서 데이터를 가져옵니다 MyDataSource.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    SparkSQL 변환에 대한 데이터 스키마를 지정합니다.

SqlAlias 구조

SqlAliases의 값 목록에 있는 단일 항목을 나타냅니다.

필드
  • From필수: Custom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    테이블 또는 테이블의 열입니다.

  • Alias필수: Custom string pattern #41과(와) 일치하는 UTF-8 문자열입니다.

    테이블 또는 테이블의 열에 지정된 임시 이름입니다.

DropNullFields 구조

열의 모든 값이 'null'인 경우 데이터 집합에서 열을 제거하는 변환을 지정합니다. 기본적으로 AWS Glue Studio는 null 객체를 인식하지만 빈 문자열, “null”인 문자열, -1 정수 또는 0과 같은 기타 자리 표시자와 같은 일부 값은 자동으로 null로 인식되지 않습니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • NullCheckBoxListNullCheckBoxList 객체입니다.

    특정 값을 제거하기 위해 Null 값으로 인식할지 여부를 나타내는 구조입니다.

  • NullTextListNullValueField 객체의 배열이며 구조는 50개 이하입니다.

    데이터셋에 고유한 null 자리 표시자로 사용되는 0이나 기타 값과 같은 사용자 지정 Null 값을 나타내는 NullValueField 구조 목록을 지정하는 구조체입니다.

    DropNullFields 변환은 Null 자리 표시자의 값과 데이터 유형이 모두 데이터와 일치하는 경우에만 사용자 지정 Null 값을 제거합니다.

NullCheckBoxList 구조

제거를 위해 특정 값을 Null 값으로 인식할지 여부를 나타냅니다.

필드
  • IsEmpty – 부울입니다.

    빈 문자열이 Null 값으로 간주되도록 지정합니다.

  • IsNullString – 부울입니다.

    'null'이라는 단어의 철자를 사용하는 값이 Null 값으로 간주되도록 지정합니다.

  • IsNegOne – 부울입니다.

    정수 값 -1이 Null 값으로 간주되도록 지정합니다.

NullValueField 구조

0이나 데이터 집합에 고유한 Null 자리 표시자로 사용되는 다른 값과 같은 사용자 지정 Null 값을 나타냅니다.

필드
  • Value필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Null 자리 표시자의 값입니다.

  • Datatype필수(Required): 데이터 형식 객체입니다.

    값의 데이터 유형입니다.

데이터 형식 구조

값의 데이터 유형을 나타내는 구조입니다.

필드
  • Id필수: Custom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    값의 데이터 유형입니다.

  • Label필수: Custom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    데이터 유형에 할당된 레이블입니다.

병합 구조

레코드를 식별하기 위해 지정된 기본 키를 기준으로 DynamicFrame을 스테이징 DynamicFrame과 병합하는 변환을 지정합니다. 중복 레코드(기본 키가 동일한 레코드)는 중복 제거되지 않습니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(2개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Source필수: Custom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    스테이징 DynamicFrame과 병합되는 소스 DynamicFrame입니다.

  • PrimaryKeys필수: UTF-8 문자열의 배열입니다.

    소스 및 스테이징 동적 프레임의 레코드와 일치시킬 기본 키 필드 목록입니다.

결합 구조

둘 이상 데이터 집합의 행을 단일 결과로 결합하는 변환을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(2개 이상)입니다.

    노드 ID가 변환에 입력됩니다.

  • UnionType필수: UTF-8 문자열입니다(유효한 값: ALL | DISTINCT).

    Union 변환 유형을 나타냅니다.

    데이터 소스의 모든 행을 결과 행에 ALL 결합하도록 지정합니다 DynamicFrame. 결과 union 구조는 중복 행을 제거하지 않습니다.

    결과에서 중복된 행을 DISTINCT 제거하도록 지정합니다 DynamicFrame.

PIIDetection 구조

PII 데이터를 식별, 제거 또는 마스킹하는 변환을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수: UTF-8 문자열의 배열(1개 이상)입니다.

    노드 ID가 변환에 입력됩니다.

  • PiiType필수: UTF-8 문자열입니다(유효한 값: RowAudit | RowMasking | ColumnAudit | ColumnMasking).

    PIIDetection 변환 유형을 나타냅니다.

  • EntityTypesToDetect필수: UTF-8 문자열의 배열입니다.

    PIIDetection 변환이 PII 데이터로 식별할 엔터티 유형을 나타냅니다.

    PII 유형 엔터티는 다음을 포함합니다. PERSON_NAME, DATE, USA_SNN, EMAIL, USA_ITIN, USA_PASSPORT_NUMBER, PHONE_NUMBER, BANK_ACCOUNT, IP_ADDRESS, MAC_ADDRESS, USA_CPT_CODE, USA_HCPCS_CODE, USA_NATIONAL_DRUG_CODE, USA_MEDICARE_BENEFICIARY_IDENTIFIER, USA_HEALTH_INSURANCE_CLAIM_NUMBER,CREDIT_CARD,USA_NATIONAL_PROVIDER_IDENTIFIER,USA_DEA_NUMBER,USA_DRIVING_LICENSE

  • OutputColumnNameCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    해당 행에서 감지된 모든 엔터티 유형을 포함할 출력 열 이름을 나타냅니다.

  • SampleFraction – 1 이하의 숫자(실수)입니다.

    PII 엔터티를 스캔할 때 샘플링할 데이터의 비율을 나타냅니다.

  • ThresholdFraction – 1 이하의 숫자(실수)입니다.

    열을 PII 데이터로 식별하기 위해 충족되어야 하는 데이터의 비율을 나타냅니다.

  • MaskValueCustom string pattern #37과(와) 일치하는 256바이트 이하 길이의 UTF-8 문자열입니다.

    감지된 개체를 대체할 값을 나타냅니다.

집계 구조

선택한 필드별로 행을 그룹화하고 지정된 함수에 의해 집계된 값을 계산하는 변환을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수: UTF-8 문자열의 배열(1개 이상)입니다.

    집계 변환에 대해 입력으로 사용할 필드와 행을 지정합니다.

  • Groups필수: UTF-8 문자열의 배열입니다.

    그룹화할 필드를 지정합니다.

  • Aggs필수(Required): AggregateOperation 객체의 배열이며 구조는 1~30개입니다.

    지정된 필드에서 수행할 집계 함수를 지정합니다.

DropDuplicates 구조

데이터 세트에서 반복 데이터의 행을 제거하는 변환을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Columns – UTF-8 문자열의 배열입니다.

    반복될 경우 병합하거나 제거할 열의 이름입니다.

GovernedCatalogTarget 구조

데이터 카탈로그를 사용하여 Amazon S3에 쓰는 AWS Glue 데이터 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • PartitionKeys – UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • SchemaChangePolicyCatalogSchemaChangePolicy 객체입니다.

    관리 카탈로그에 대한 업데이트 동작을 지정하는 정책입니다.

GovernedCatalogSource 구조

관리되는 데이터 카탈로그의 AWS Glue 데이터 저장소를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • Database필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽어야 할 데이터베이스입니다.

  • Table필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    읽어야 할 데이터베이스 테이블입니다.

  • PartitionPredicateCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    이 조건자를 충족하는 파티션이 삭제됩니다. 이러한 파티션에서 보존 기간 내에 있는 파일은 삭제되지 않습니다. 기본적으로 ""(비움)로 설정합니다.

  • AdditionalOptionsS3 SourceAdditionalOptions 객체입니다.

    추가 연결 옵션을 지정합니다.

AggregateOperation 구조

집계 변환에서 집계를 수행하는 데 필요한 파라미터 세트를 지정합니다.

필드
  • Column필수: UTF-8 문자열의 배열입니다.

    집계 함수가 적용될 데이터 세트의 열을 지정합니다.

  • AggFunc필수(Required): UTF-8 문자열입니다(유효 값: avg | countDistinct | count | first | last | kurtosis | max | min | skewness | stddev_samp | stddev_pop | sum | sumDistinct | var_samp | var_pop).

    적용할 집계 함수를 지정합니다.

    가능한 집계 함수로는 평균 개수별, 개수, 첫 번째, 마지막, kurtosis, 최대, 최소, 왜도, stddev_samp, stddev_pop, 합계, sumDistinct, var_samp, var_pop 등이 있습니다.

GlueSchema 구조

스키마를 AWS Glue에서 결정할 수 없는 경우 사용자 정의 스키마를 지정합니다.

필드
  • ColumnsGlueStudioSchemaColumn 객체의 배열입니다.

    AWS Glue 스키마를 구성하는 열 정의를 지정합니다.

GlueStudioSchemaColumn 구조

AWS Glue 스키마 정의에서 단일 열을 지정합니다.

필드
  • Name필수: Single-line string pattern과 일치하는 1,024바이트 이하 길이의 UTF-8 문자열입니다.

    AWS Glue Studio 스키마의 열 이름.

  • TypeSingle-line string pattern과(와) 일치하는 131,072바이트 이하 길이의 UTF-8 문자열입니다.

    AWS Glue Studio 스키마에서 이 열의 하이브 유형입니다.

GlueStudioColumn 구조

AWS Glue Studio에서 단일 열을 지정합니다.

필드
  • Key필수: Custom string pattern #41과(와) 일치하는 UTF-8 문자열입니다.

    AWS Glue Studio의 열 키입니다.

  • FullPath필수: UTF-8 문자열의 배열입니다.

    AWS Glue 스튜디오에 있는 칼럼의 전체 URL.

  • Type필수: UTF-8 문자열(유효한 값: array="ARRAY" | bigint="BIGINT" | bigint array="BIGINT_ARRAY" | binary="BINARY" | binary array="BINARY_ARRAY" | boolean="BOOLEAN" | boolean array="BOOLEAN_ARRAY" | byte="BYTE" | byte array="BYTE_ARRAY" | char="CHAR" | char array="CHAR_ARRAY" | choice="CHOICE" | choice array="CHOICE_ARRAY" | date="DATE" | date array="DATE_ARRAY" | decimal="DECIMAL" | decimal array="DECIMAL_ARRAY" | double="DOUBLE" | double array="DOUBLE_ARRAY" | enum="ENUM" | enum array="ENUM_ARRAY" | float="FLOAT" | float array="FLOAT_ARRAY" | int="INT" | int array="INT_ARRAY" | interval="INTERVAL" | interval array="INTERVAL_ARRAY" | long="LONG" | long array="LONG_ARRAY" | object="OBJECT" | short="SHORT" | short array="SHORT_ARRAY" | smallint="SMALLINT" | smallint array="SMALLINT_ARRAY" | string="STRING" | string array="STRING_ARRAY" | timestamp="TIMESTAMP" | timestamp array="TIMESTAMP_ARRAY" | tinyint="TINYINT" | tinyint array="TINYINT_ARRAY" | varchar="VARCHAR" | varchar array="VARCHAR_ARRAY" | null="NULL" | unknown="UNKNOWN" | unknown array="UNKNOWN_ARRAY").

    AWS Glue 스튜디오의 컬럼 유형.

  • Children - 구조의 배열입니다.

    AWS Glue Studio에 있는 상위 컬럼의 하위 항목입니다.

DynamicTransform 구조

동적 변환을 수행하는 데 필요한 파라미터 세트를 지정합니다.

필드
  • Name필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    동적 변환의 이름을 지정합니다.

  • TransformName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    AWS Glue Studio 비주얼 에디터에 나타나는 동적 변환의 이름을 지정합니다.

  • Inputs필수: UTF-8 문자열의 배열(1개 이상)입니다.

    필요한 동적 변환에 대한 입력을 지정합니다.

  • ParametersTransformConfigParameter 객체의 배열입니다.

    동적 변환의 파라미터를 지정합니다.

  • FunctionName필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    동적 변환의 함수 이름을 지정합니다.

  • Path필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    동적 변환 소스 및 구성 파일의 경로를 지정합니다.

  • VersionCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    이 필드는 사용되지 않으며 향후 릴리스에서 사용 중단됩니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    동적 변환에 대한 데이터 스키마를 지정합니다.

TransformConfigParameter 구조

동적 변환 구성 파일의 파라미터를 지정합니다.

필드
  • Name필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    동적 변환 구성 파일의 파라미터 이름을 지정합니다.

  • Type필수: UTF-8 문자열입니다(유효한 값: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL").

    동적 변환 구성 파일의 파라미터 유형을 지정합니다.

  • ValidationRuleCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    동적 변환 구성 파일의 검증 규칙을 지정합니다.

  • ValidationMessageCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    동적 변환 구성 파일의 검증 메시지를 지정합니다.

  • Value – UTF-8 문자열의 배열입니다.

    동적 변환 구성 파일의 파라미터 값을 지정합니다.

  • ListType – UTF-8 문자열입니다(유효한 값: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL").

    동적 변환 구성 파일의 파라미터 목록 유형을 지정합니다.

  • IsOptional – 부울입니다.

    파라미터가 동적 변환 구성 파일에서 선택 사항인지 여부를 지정합니다.

EvaluateDataQuality 구조

데이터 품질 평가 기준을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 품질 평가의 이름입니다.

  • Inputs필수: UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 품질 평가의 입력입니다.

  • Ruleset필수: Custom string pattern #38과(와) 일치하는 1~65536바이트 길이의 UTF-8 문자열입니다.

    데이터 품질 평가를 위한 규칙 세트입니다.

  • Output – UTF-8 문자열입니다(유효한 값: PrimaryInput | EvaluationResults).

    데이터 품질 평가의 출력입니다.

  • PublishingOptionsDQ ResultsPublishingOptions 객체입니다.

    결과 게시 방법을 구성하는 옵션입니다.

  • StopJobOnFailureOptionsDQ StopJobOnFailureOptions 객체입니다.

    데이터 품질 평가에 실패할 경우 작업을 중지하는 방법을 구성하는 옵션입니다.

DQ 구조 ResultsPublishingOptions

데이터 품질 평가 결과 게시 방법을 구성하는 옵션입니다.

필드
  • EvaluationContextCustom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    평가의 컨텍스트입니다.

  • ResultsS3PrefixCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    결과 앞에 Amazon S3 접두사가 추가되었습니다.

  • CloudWatchMetricsEnabled – 부울입니다.

    데이터 품질 결과에 대한 지표를 활성화합니다.

  • ResultsPublishingEnabled – 부울입니다.

    데이터 품질 결과에 대한 게시를 활성화합니다.

DQ 구조 StopJobOnFailureOptions

데이터 품질 평가에 실패할 경우 작업을 중지하는 방법을 구성하는 옵션입니다.

필드
  • StopJobOnFailureTiming – UTF-8 문자열입니다(유효한 값: Immediate | AfterDataLoad).

    데이터 품질 평가에 실패할 경우에 작업을 중지할 시점입니다. 옵션은 즉시 또는 AfterDataLoad 입니다.

EvaluateDataQualityMultiFrame 구조

데이터 품질 평가 기준을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    데이터 품질 평가의 이름입니다.

  • Inputs필수: UTF-8 문자열의 배열이며 문자열은 1개 이상입니다.

    데이터 품질 평가의 입력입니다. 이 목록의 첫 번째 입력은 기본 데이터 소스입니다.

  • AdditionalDataSources – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    기본을 제외한 모든 데이터 소스의 별칭입니다.

  • Ruleset필수: Custom string pattern #38과(와) 일치하는 1~65536바이트 길이의 UTF-8 문자열입니다.

    데이터 품질 평가를 위한 규칙 세트입니다.

  • PublishingOptionsDQ ResultsPublishingOptions 객체입니다.

    결과 게시 방법을 구성하는 옵션입니다.

  • AdditionalOptions – 키-값 페어의 맵 배열입니다.

    각 키는 UTF-8 문자열(유효 값: performanceTuning.caching="CacheOption" | observations.scope="ObservationsOption")입니다.

    각 값은 UTF-8 문자열입니다.

    변환의 런타임 동작을 구성하는 옵션입니다.

  • StopJobOnFailureOptionsDQ StopJobOnFailureOptions 객체입니다.

    데이터 품질 평가에 실패할 경우 작업을 중지하는 방법을 구성하는 옵션입니다.

레시피 구조

AWS Glue 작업에서 AWS Glue DataBrew 레시피를 사용하는 AWS Glue 스튜디오 노드.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    AWS Glue 스튜디오 노드의 이름.

  • Inputs필수: UTF-8 문자열의 배열(1개 이상)입니다.

    레시피 노드에 대한 입력에 해당하는 노드로, ID로 식별됩니다.

  • RecipeReference필수: RecipeReference 객체입니다.

    노드에서 사용하는 DataBrew 레시피에 대한 참조입니다.

RecipeReference 구조

AWS Glue DataBrew 레시피에 대한 참조.

필드
  • RecipeArn필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    레시피의 ARN입니다. DataBrew

  • RecipeVersion필수: 1~16바이트 길이의 UTF-8 문자열입니다.

    RecipeVersion DataBrew 레시피의 일종입니다.

SnowflakeNodeData 구조

Studio의 스노우플레이크 노드 구성을 지정합니다. AWS Glue

필드
  • SourceTypeCustom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    검색된 데이터를 지정하는 방법을 지정합니다. 유효한 값: "table", "query".

  • Connection옵션 객체입니다.

    Snowflake 엔드포인트에 대한 AWS Glue 데이터 카탈로그 연결을 지정합니다.

  • Schema – UTF-8 문자열입니다.

    노드에서 사용할 Snowflake 데이터베이스 스키마를 지정합니다.

  • Table – UTF-8 문자열입니다.

    노드에서 사용할 Snowflake 테이블을 지정합니다.

  • Database – UTF-8 문자열입니다.

    노드에서 사용할 Snowflake 데이터베이스를 지정합니다.

  • TempDirCustom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    현재 사용 중이지 않습니다.

  • IamRole옵션 객체입니다.

    현재 사용 중이지 않습니다.

  • AdditionalOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    Snowflake 커넥터에 전달되는 추가 옵션을 지정합니다. 이 노드의 다른 위치에서 옵션이 지정된 경우 이 옵션이 우선합니다.

  • SampleQuery – UTF-8 문자열입니다.

    query 소스 유형의 데이터를 검색하는 데 사용되는 SQL 문자열입니다.

  • PreAction – UTF-8 문자열입니다.

    Snowflake 커넥터가 표준 작업을 수행하기 전에 실행되는 SQL 문자열입니다.

  • PostAction – UTF-8 문자열입니다.

    Snowflake 커넥터가 표준 작업을 수행한 후에 실행되는 SQL 문자열입니다.

  • Action – UTF-8 문자열입니다.

    기존 데이터가 있는 테이블에 쓸 때 수행할 작업을 지정합니다. 유효한 값: append, merge, truncate, drop.

  • Upsert – 부울입니다.

    append 작업일 때 사용됩니다. 행이 이미 있는 경우 확인 동작을 지정합니다. true인 경우 기존 행이 업데이트됩니다. false인 경우 해당 행이 삽입됩니다.

  • MergeActionCustom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    병합 작업을 지정합니다. 유효한 값: simple, custom. simple인 경우 병합 동작은 MergeWhenMatched MergeWhenNotMatched로 정의됩니다. custom인 경우 MergeClause로 정의됩니다.

  • MergeWhenMatchedCustom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    병합 시 기존 데이터와 일치하는 레코드를 확인하는 방법을 지정합니다. 유효한 값: update, delete.

  • MergeWhenNotMatchedCustom string pattern #39과(와) 일치하는 UTF-8 문자열입니다.

    병합 시 기존 데이터와 일치하지 않는 레코드를 처리하는 방법을 지정합니다. 유효한 값: insert, none.

  • MergeClause – UTF-8 문자열입니다.

    사용자 지정 병합 동작을 지정하는 SQL 문입니다.

  • StagingTable – UTF-8 문자열입니다.

    merge 또는 업서트 append 작업을 수행할 때 사용되는 스테이징 테이블의 이름입니다. 데이터가 이 테이블에 기록된 후에는 생성된 사후 작업에 의해 table로 이동됩니다.

  • SelectedColumns옵션 객체의 배열입니다.

    병합 및 업서트에서 일치하는 항목을 감지할 때 레코드를 식별하기 위해 결합된 열을 지정합니다. value, label description 키가 있는 구조 목록입니다. 각 구조는 열을 설명합니다.

  • AutoPushdown – 부울입니다.

    자동 쿼리 푸시다운의 활성화 여부를 지정합니다. 푸시다운이 활성화된 경우 Spark에서 쿼리를 실행할 때 쿼리의 일부를 Snowflake 서버로 '푸시다운'할 수 있으면 해당 쿼리가 푸시다운됩니다. 이렇게 하면 일부 쿼리의 성능이 향상됩니다.

  • TableSchema옵션 객체의 배열입니다.

    노드의 대상 스키마를 수동으로 정의합니다. value, labeldescription 키가 있는 구조 목록입니다. 각 구조는 열을 정의합니다.

SnowflakeSource 구조

Snowflake 데이터 소스를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    Snowflake 데이터 소스의 이름입니다.

  • Data필수: SnowflakeNodeData 객체입니다.

    Snowflake 데이터 소스의 구성입니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    출력 데이터에 대한 사용자 정의 스키마를 지정합니다.

SnowflakeTarget 구조

Snowflake 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    Snowflake 대상의 이름입니다.

  • Data필수: SnowflakeNodeData 객체입니다.

    Snowflake 대상 노드의 데이터를 지정합니다.

  • Inputs – UTF-8 문자열의 배열입니다(1개의 문자열).

    데이터 대상에 대한 입력인 노드입니다.

ConnectorDataSource 구조

표준 연결 옵션으로 생성된 소스를 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    이 소스 노드의 이름입니다.

  • ConnectionType필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    기본 AWS Glue 라이브러리에 제공된 대로입니다. connectionType 노드 유형은 다음과 같은 연결 유형을 지원합니다.

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Data필수(Required): 키-값 페어의 맵 배열입니다.

    각 키는 UTF-8 문자열입니다.

    각 값은 UTF-8 문자열입니다.

    노드에 대한 연결 옵션을 지정하는 맵입니다. AWS Glue 설명서의 연결 매개변수 섹션에서 해당 연결 유형에 대한 표준 연결 옵션을 찾을 수 있습니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    이 소스에 대한 데이터 스키마를 지정합니다.

ConnectorDataTarget 구조

표준 연결 옵션으로 생성된 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #43과(와) 일치하는 UTF-8 문자열입니다.

    이 대상 노드의 이름입니다.

  • ConnectionType필수: Custom string pattern #40과(와) 일치하는 UTF-8 문자열입니다.

    기본 AWS Glue 라이브러리에 제공된 대로입니다. connectionType 노드 유형은 다음과 같은 연결 유형을 지원합니다.

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Data필수(Required): 키-값 페어의 맵 배열입니다.

    각 키는 UTF-8 문자열입니다.

    각 값은 UTF-8 문자열입니다.

    노드에 대한 연결 옵션을 지정하는 맵입니다. AWS Glue 설명서의 연결 매개변수 섹션에서 해당 연결 유형에 대한 표준 연결 옵션을 찾을 수 있습니다.

  • Inputs – UTF-8 문자열의 배열입니다(1개의 문자열).

    데이터 대상에 대한 입력인 노드입니다.