시각적 작업 API - AWS Glue

시각적 작업 API

Visual Job API를 사용하면 AWS Glue 작업의 시각적 구성을 나타내는 JSON 객체에서 AWS Glue API를 사용하여 데이터 통합 작업을 생성할 수 있습니다.

생성된 작업에 대한 DAG를 AWS Glue Studio에 등록하고 연관된 코드를 생성하기 위해 생성 또는 업데이트 작업 API에 CodeGenConfigurationNodes 목록이 제공됩니다.

데이터 유형

CodeGenConfigurationNode 구조

CodeGenConfigurationNode는 유효한 모든 노드 유형을 열거합니다. 멤버 변수 중 하나만 채울 수 있습니다.

필드
  • AthenaConnectorSourceAthenaConnectorSource 객체입니다.

    Amazon Athena 데이터 원본에 대한 커넥터를 지정합니다.

  • JDBCConnectorSourceJDBCConnectorSource 객체입니다.

    JDBC 데이터 원본에 대한 커넥터를 지정합니다.

  • SparkConnectorSourceSparkConnectorSource 객체입니다.

    Apache Spark 데이터 원본에 대한 커넥터를 지정합니다.

  • CatalogSourceCatalogSource 객체입니다.

    AWS Glue Data Catalog의 데이터 스토어를 지정합니다.

  • RedshiftSourceRedshiftSource 객체입니다.

    Amazon Redshift 데이터 스토어를 지정합니다.

  • S3CatalogSourceS3CatalogSource 객체입니다.

    AWS Glue Data Catalog의 Amazon S3 데이터 스토어를 지정합니다.

  • S3CsvSourceS3CsvSource 객체입니다.

    Amazon S3에 저장된 CSV(쉼표로 구분된 값) 데이터 스토어를 지정합니다.

  • S3JsonSourceS3JsonSource 객체입니다.

    Amazon S3에 저장된 JSON 데이터 스토어를 지정합니다.

  • S3ParquetSourceS3ParquetSource 객체입니다.

    Amazon S3에 저장된 Apache Parquet 데이터 스토어를 지정합니다.

  • JDBCConnectorTargetJDBCConnectorTarget 객체입니다.

    Apache Parquet 열 형식 스토리지의 Amazon S3에 쓰는 데이터 대상을 지정합니다.

  • SparkConnectorTargetSparkConnectorTarget 객체입니다.

    Apache Spark 커넥터를 사용하는 대상을 지정합니다.

  • CatalogTargetBasicCatalogTarget 객체입니다.

    AWS Glue Data Catalog 테이블을 사용하는 대상을 지정합니다.

  • RedshiftTargetRedshiftTarget 객체입니다.

    Amazon Redshift를 사용하는 대상을 지정합니다.

  • S3CatalogTargetS3CatalogTarget 객체입니다.

    AWS Glue Data Catalog를 사용하여 Amazon S3에 쓰는 데이터 대상을 지정합니다.

  • S3GlueParquetTargetS3GlueParquetTarget 객체입니다.

    Apache Parquet 열 형식 스토리지의 Amazon S3에 쓰는 데이터 대상을 지정합니다.

  • S3DirectTargetS3DirectTarget 객체입니다.

    Amazon S3에 쓰는 데이터 대상을 지정합니다.

  • ApplyMappingApplyMapping 객체입니다.

    데이터 원본의 데이터 속성 키를 데이터 대상의 데이터 속성 키에 매핑하는 변환을 지정합니다. 키의 이름을 바꾸고 키의 데이터 유형을 수정하고 데이터 집합에서 삭제할 키를 선택할 수 있습니다.

  • SelectFieldsSelectFields 객체입니다.

    유지할 데이터 속성 키를 선택하는 변환을 지정합니다.

  • DropFieldsDropFields 객체입니다.

    삭제할 데이터 속성 키를 선택하는 변환을 지정합니다.

  • RenameFieldRenameField 객체입니다.

    단일 데이터 속성 키의 이름을 바꾸는 변환을 지정합니다.

  • SpigotSpigot 객체입니다.

    Amazon S3 버킷에 데이터 샘플을 쓰는 변환을 지정합니다.

  • Join조인 객체입니다.

    지정된 데이터 속성 키의 비교 구문을 사용하여 두 데이터 집합을 하나의 데이터 집합으로 조인하는 변환을 지정합니다. 내부, 외부, 왼쪽, 오른쪽, 왼쪽 반 및 왼쪽 안티 조인을 사용할 수 있습니다.

  • SplitFieldsSplitFields 객체입니다.

    데이터 속성 키를 두 개의 DynamicFrames로 분할하는 변환을 지정합니다. 출력은 DynamicFrames 컬렉션입니다. 하나에는 선택한 데이터 속성 키가 있고 다른 하나에는 나머지 데이터 속성 키가 있습니다.

  • SelectFromCollectionSelectFromCollection 객체입니다.

    DynamicFrames 컬렉션에서 하나의 DynamicFrame을 선택하는 변환을 지정합니다. 출력은 선택한 DynamicFrame입니다.

  • FillMissingValuesFillMissingValues 객체입니다.

    데이터 집합에서 누락된 값이 있는 레코드를 찾고 대체를 통해 결정된 값으로 새 필드를 추가하는 변환을 지정합니다. 입력 데이터 집합은 누락 값을 결정하는 기계 학습 모델을 훈련하는 데 사용됩니다.

  • FilterFilter 객체입니다.

    필터 조건에 따라 하나의 데이터 집합을 두 개로 분할하는 변환을 지정합니다.

  • CustomCodeCustomCode 객체입니다.

    제공한 사용자 지정 코드를 사용하여 데이터 변환을 수행하는 변환을 지정합니다. 출력은 DynamicFrames의 컬렉션입니다.

  • SparkSQLSparkSQL 객체입니다.

    데이터를 변환하기 위해 Spark SQL 구문을 사용하여 SQL 쿼리를 입력하는 변환을 지정합니다. 출력은 단일 DynamicFrame입니다.

  • DirectKinesisSourceDirectKinesisSource 객체입니다.

    직접적인 Amazon Kinesis 데이터 원본을 지정합니다.

  • DirectKafkaSourceDirectKafkaSource 객체입니다.

    Apache Kafka 데이터 스토어를 지정합니다.

  • CatalogKinesisSourceCatalogKinesisSource 객체입니다.

    AWS Glue Data Catalog의 Kinesis 데이터 원본을 지정합니다.

  • CatalogKafkaSourceCatalogKafkaSource 객체입니다.

    Data Catalog의 Apache Kafka 데이터 스토어를 지정합니다.

  • DropNullFieldsDropNullFields 객체입니다.

    열의 모든 값이 'null'인 경우 데이터 집합에서 열을 제거하는 변환을 지정합니다. 기본값으로 AWS Glue Studio는 Null 객체를 인식하지만 빈 문자열, 'null'인 문자열, -1 정수 또는 0과 같은 다른 자리 표시자 등의 일부 값은 자동으로 Null로 인식되지 않습니다.

  • Merge병합 객체입니다.

    레코드를 식별하기 위해 지정된 기본 키를 기준으로 DynamicFrame을 스테이징 DynamicFrame과 병합하는 변환을 지정합니다. 중복 레코드(기본 키가 동일한 레코드)는 중복 제거되지 않습니다.

  • UnionUnion 객체입니다.

    둘 이상 데이터 집합의 행을 단일 결과로 결합하는 변환을 지정합니다.

  • PIIDetectionPIIDetection 객체입니다.

    PII 데이터를 식별, 제거 또는 마스킹하는 변환을 지정합니다.

  • AggregateAggregate 객체입니다.

    선택한 필드별로 행을 그룹화하고 지정된 함수에 의해 집계된 값을 계산하는 변환을 지정합니다.

  • DropDuplicatesDropDuplicates 객체입니다.

    데이터 세트에서 반복 데이터의 행을 제거하는 변환을 지정합니다.

  • GovernedCatalogTargetGovernedCatalogTarget 객체입니다.

    관리 카탈로그에 작성하는 데이터 대상을 지정합니다.

  • GovernedCatalogSourceGovernedCatalogSource 객체입니다.

    관리 Data Catalog의 데이터 소스를 지정합니다.

  • MicrosoftSQLServerCatalogSourceMicrosoftSQLServerCatalogSource 객체입니다.

    AWS Glue Data Catalog의 Microsoft SQL 서버 데이터 소스를 지정합니다.

  • MySQLCatalogSourceMySQLCatalogSource 객체입니다.

    AWS Glue Data Catalog의 MySQL 데이터 소스를 지정합니다.

  • OracleSQLCatalogSourceOracleSQLCatalogSource 객체입니다.

    AWS Glue Data Catalog의 Oracle 데이터 소스를 지정합니다.

  • PostgreSQLCatalogSourcePostgreSQLCatalogSource 객체입니다.

    AWS Glue Data Catalog의 PostgresSQL 데이터 소스를 지정합니다.

  • MicrosoftSQLServerCatalogTargetMicrosoftSQLServerCatalogTarget 객체입니다.

    Microsoft SQL을 사용하는 대상을 지정합니다.

  • MySQLCatalogTargetMySQLCatalogTarget 객체입니다.

    MySQL을 사용하는 대상을 지정합니다.

  • OracleSQLCatalogTargetOracleSQLCatalogTarget 객체입니다.

    Oracle SQL을 사용하는 대상을 지정합니다.

  • PostgreSQLCatalogTargetPostgreSQLCatalogTarget 객체입니다.

    Postgres SQL을 사용하는 대상을 지정합니다.

JDBCConnectorOptions 구조

커넥터에 대한 추가 연결 옵션입니다.

필드
  • FilterPredicateCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    소스에서 데이터를 필터링하기 위한 추가 조건 절입니다. 예:

    BillingCity='Mountain View'

    테이블 이름 대신 쿼리를 사용하는 경우 쿼리가 지정된 filterPredicate에서 작동하는지 검증해야 합니다.

  • PartitionColumnCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    분할에 사용되는 정수 열의 이름입니다. 이 옵션은 lowerBound, upperBoundnumPartitions에 포함되는 경우에만 작동합니다. 이 옵션은 Spark SQL JDBC 리더에서와 같은 방식으로 작동합니다.

  • LowerBound – None 이하의 숫자(정수)입니다.

    파티션 스트라이드를 결정하는 데 사용되는 partitionColumn의 최소값입니다.

  • UpperBound – None 이하의 숫자(정수)입니다.

    파티션 스트라이드를 결정하는 데 사용되는 partitionColumn의 최대값입니다.

  • NumPartitions – None 이하의 숫자(정수)입니다.

    파티션 수입니다. 이 값은 lowerBound(포함) 및 upperBound(배타)와 함께 partitionColumn을 분할하는 데 사용되는 생성된 WHERE 절 표현에 대한 파티션 스트라이드를 형성합니다.

  • JobBookmarkKeys – UTF-8 문자열의 배열입니다.

    정렬할 작업 북마크 키의 이름입니다.

  • JobBookmarkKeysSortOrderCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    오름차순 또는 내림차순 정렬 순서를 지정합니다.

  • DataTypeMapping – 키-값 페어의 맵 배열입니다.

    각 키는 UTF-8 문자열입니다(유효한 값: ARRAY | BIGINT | BINARY | BIT | BLOB | BOOLEAN | CHAR | CLOB | DATALINK | DATE | DECIMAL | DISTINCT | DOUBLE | FLOAT | INTEGER | JAVA_OBJECT | LONGNVARCHAR | LONGVARBINARY | LONGVARCHAR | NCHAR | NCLOB | NULL | NUMERIC | NVARCHAR | OTHER | REAL | REF | REF_CURSOR | ROWID | SMALLINT | SQLXML | STRUCT | TIME | TIME_WITH_TIMEZONE | TIMESTAMP | TIMESTAMP_WITH_TIMEZONE | TINYINT | VARBINARY | VARCHAR).

    각 값은 UTF-8 문자열입니다(유효한 값: DATE | STRING | TIMESTAMP | INT | FLOAT | LONG | BIGDECIMAL | BYTE | SHORT | DOUBLE).

    JDBC 데이터 유형에서 AWS Glue 데이터 유형으로의 매핑을 구축하는 사용자 지정 데이터 유형 매핑입니다. 예를 들어 "dataTypeMapping":{"FLOAT":"STRING"} 옵션은 드라이버의 ResultSet.getString() 메서드를 호출하여 JDBC 유형 FLOAT의 데이터 필드를 Java String 유형으로 매핑하고 이를 AWS Glue 레코드를 구축하는 데 사용합니다. ResultSet 객체는 각 드라이버에 의해 구현되므로 동작은 사용하는 드라이버에 따라 다릅니다. 드라이버가 변환을 수행하는 방법을 이해하려면 JDBC 드라이버에 대한 설명서를 참조하세요.

StreamingDataPreviewOptions 구조

데이터 샘플을 보기 위한 데이터 미리 보기와 관련된 옵션을 지정합니다.

필드
  • PollingTime - 최소 10 이상의 숫자(long)입니다.

    밀리초 단위의 폴링 시간입니다.

  • RecordPollingLimit - 최소 1 이상의 숫자(long)입니다.

    폴링되는 레코드 수에 대한 제한입니다.

AthenaConnectorSource 구조

Amazon Athena 데이터 원본에 대한 커넥터를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • ConnectionName필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    커넥터와 연관된 연결 이름입니다.

  • ConnectorName필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    AWS Glue Studio에서 데이터 스토어에 액세스하는 데 도움이 되는 커넥터의 이름입니다.

  • ConnectionType필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    Amazon Athena 데이터 스토어에 대한 연결을 지정하는 marketplace.athena 또는 custom.athena와 같은 연결 유형입니다.

  • ConnectionTableCustom string pattern #31과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본에 있는 테이블의 이름입니다.

  • SchemaName필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 CloudWatch 로그 그룹의 이름입니다. 예: /aws-glue/jobs/output.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    사용자 지정 Athena 소스에 대한 데이터 스키마를 지정합니다.

JDBCConnectorSource 구조

JDBC 데이터 원본에 대한 커넥터를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • ConnectionName필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    커넥터와 연관된 연결 이름입니다.

  • ConnectorName필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    AWS Glue Studio에서 데이터 스토어에 액세스하는 데 도움이 되는 커넥터의 이름입니다.

  • ConnectionType필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    JDBC 데이터 스토어에 대한 연결을 지정하는 marketplace.jdbc 또는 custom.jdbc와 같은 연결 유형입니다.

  • AdditionalOptionsJDBCConnectorOptions 객체입니다.

    커넥터에 대한 추가 연결 옵션입니다.

  • ConnectionTableCustom string pattern #31과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본에 있는 테이블의 이름입니다.

  • QueryCustom string pattern #32과(와) 일치하는 UTF-8 문자열입니다.

    데이터를 가져올 테이블 또는 SQL 쿼리입니다. ConnectionTable 또는 query을 지정할 수 있지만 둘 다 함께 지정할 수는 없습니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    사용자 지정 JDBC 소스에 대한 데이터 스키마를 지정합니다.

SparkConnectorSource 구조

Apache Spark 데이터 원본에 대한 커넥터를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • ConnectionName필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    커넥터와 연관된 연결 이름입니다.

  • ConnectorName필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    AWS Glue Studio에서 데이터 스토어에 액세스하는 데 도움이 되는 커넥터의 이름입니다.

  • ConnectionType필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    Apache Spark 데이터 스토어에 대한 연결을 지정하는 marketplace.spark 또는 custom.spark와 같은 연결 유형입니다.

  • AdditionalOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    커넥터에 대한 추가 연결 옵션입니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    사용자 지정 Spark 소스에 대한 데이터 스키마를 지정합니다.

CatalogSource 구조

AWS Glue Data Catalog의 데이터 스토어를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

MySQLCatalogSource 구조

AWS Glue Data Catalog의 MySQL 데이터 소스를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

PostgreSQLCatalogSource 구조

AWS Glue Data Catalog의 PostgresSQL 데이터 소스를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

OracleSQLCatalogSource 구조

AWS Glue Data Catalog의 Oracle 데이터 소스를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

MicrosoftSQLServerCatalogSource 구조

AWS Glue Data Catalog의 Microsoft SQL 서버 데이터 소스를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

CatalogKinesisSource 구조

AWS Glue Data Catalog의 Kinesis 데이터 원본을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • WindowSize – None 이하의 숫자(정수)입니다.

    각 마이크로 배치를 처리하는 데 사용할 시간입니다.

  • DetectSchema – 부울입니다.

    들어오는 데이터의 스키마를 자동으로 결정할지 여부입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • StreamingOptionsKinesisStreamingSourceOptions 객체입니다.

    Kinesis 스트리밍 데이터 원본에 대한 추가 옵션입니다.

  • DataPreviewOptionsStreamingDataPreviewOptions 객체입니다.

    데이터 미리 보기에 대한 추가 옵션입니다.

DirectKinesisSource 구조

직접적인 Amazon Kinesis 데이터 원본을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • WindowSize – None 이하의 숫자(정수)입니다.

    각 마이크로 배치를 처리하는 데 사용할 시간입니다.

  • DetectSchema – 부울입니다.

    들어오는 데이터의 스키마를 자동으로 결정할지 여부입니다.

  • StreamingOptionsKinesisStreamingSourceOptions 객체입니다.

    Kinesis 스트리밍 데이터 원본에 대한 추가 옵션입니다.

  • DataPreviewOptionsStreamingDataPreviewOptions 객체입니다.

    데이터 미리 보기에 대한 추가 옵션입니다.

KinesisStreamingSourceOptions 구조

Amazon Kinesis 스트리밍 데이터 원본에 대한 추가 옵션입니다.

필드
  • EndpointUrlCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    Kinesis 엔드포인트의 URL입니다.

  • StreamNameCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    Kinesis 데이터 스트림의 이름입니다.

  • ClassificationCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    선택적 분류입니다.

  • DelimiterCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    구분 기호 문자열을 지정합니다.

  • StartingPosition – UTF-8 문자열입니다(유효한 값: latest="LATEST" | trim_horizon="TRIM_HORIZON" | earliest="EARLIEST").

    데이터를 읽을 Kinesis 데이터 스트림의 시작 위치입니다. 가능한 값은 "latest", "trim_horizon" 또는 "earliest"입니다. 기본값은 "latest"입니다.

  • MaxFetchTimeInMs – None 이하의 숫자(정수)입니다.

    Kinesis 데이터 스트림에서 샤드당 하나의 레코드를 가져오기 위해 작업 실행기에서 사용되는 최대 시간으로, 밀리초(ms) 단위로 지정됩니다. 기본값은 1000입니다.

  • MaxFetchRecordsPerShard – None 이하의 숫자(정수)입니다.

    Kinesis 데이터 스트림에서 샤드별로 가져올 최대 레코드 수입니다. 기본값은 100000입니다.

  • MaxRecordPerRead – None 이하의 숫자(정수)입니다.

    각 getRecords 작업에서 Kinesis 데이터 스트림으로부터 가져올 최대 레코드 수입니다. 기본값은 10000입니다.

  • AddIdleTimeBetweenReads – 부울입니다.

    두 개의 연속 getRecords 작업 사이에 시간 지연을 추가합니다. 기본값은 "False"입니다. 이 옵션은 Glue 버전 2.0 이상에서만 구성할 수 있습니다.

  • IdleTimeBetweenReadsInMs – None 이하의 숫자(정수)입니다.

    두 개의 연속 getRecords 작업 사이의 최소 시간 지연으로, ms 단위로 지정됩니다. 기본값은 1000입니다. 이 옵션은 Glue 버전 2.0 이상에서만 구성할 수 있습니다.

  • DescribeShardInterval – None 이하의 숫자(정수)입니다.

    스크립트가 리샤딩을 고려하기 위한 두 개의 ListShards API 호출 사이의 최소 시간 간격입니다. 기본값은 1s입니다.

  • NumRetries – None 이하의 숫자(정수)입니다.

    Kinesis Data Streams API 요청의 최대 재시도 횟수입니다. 기본값은 3입니다.

  • RetryIntervalMs – None 이하의 숫자(정수)입니다.

    Kinesis Data Streams API 호출을 재시도하기 전의 휴지 기간(ms 단위로 지정)입니다. 기본값은 1000입니다.

  • MaxRetryIntervalMs – None 이하의 숫자(정수)입니다.

    Kinesis Data Streams API 호출을 두 번 재시도하는 사이의 최대 휴지 시간(ms 단위로 지정)입니다. 기본값은 10000입니다.

  • AvoidEmptyBatches – 부울입니다.

    배치가 시작되기 전에 Kinesis 데이터 스트림에서 읽지 않은 데이터를 확인하여 빈 마이크로 배치 작업 생성을 방지합니다. 기본값은 "False"입니다.

  • StreamArnCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    Kinesis 데이터 스트림의 Amazon 리소스 이름(ARN)입니다.

  • RoleArnCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    AWS Security Token Service(AWS STS)를 사용하여 맡을 역할의 Amazon 리소스 이름(ARN)입니다. 이 역할에는 Kinesis 데이터 스트림에 대한 레코드 작업을 설명하거나 읽을 수 있는 권한이 있어야 합니다. 다른 계정의 데이터 스트림에 액세스할 때 이 파라미터를 사용해야 합니다. "awsSTSSessionName"과(와) 함께 사용합니다.

  • RoleSessionNameCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    AWS STS를 사용하여 역할을 맡는 세션의 식별자입니다. 다른 계정의 데이터 스트림에 액세스할 때 이 파라미터를 사용해야 합니다. "awsSTSRoleARN"과(와) 함께 사용합니다.

CatalogKafkaSource 구조

Data Catalog의 Apache Kafka 데이터 스토어를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • WindowSize – None 이하의 숫자(정수)입니다.

    각 마이크로 배치를 처리하는 데 사용할 시간입니다.

  • DetectSchema – 부울입니다.

    들어오는 데이터의 스키마를 자동으로 결정할지 여부입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • StreamingOptionsKafkaStreamingSourceOptions 객체입니다.

    스트리밍 옵션을 지정합니다.

  • DataPreviewOptionsStreamingDataPreviewOptions 객체입니다.

    데이터 샘플을 보기 위한 데이터 미리 보기와 관련된 옵션을 지정합니다.

DirectKafkaSource 구조

Apache Kafka 데이터 스토어를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • StreamingOptionsKafkaStreamingSourceOptions 객체입니다.

    스트리밍 옵션을 지정합니다.

  • WindowSize – None 이하의 숫자(정수)입니다.

    각 마이크로 배치를 처리하는 데 사용할 시간입니다.

  • DetectSchema – 부울입니다.

    들어오는 데이터의 스키마를 자동으로 결정할지 여부입니다.

  • DataPreviewOptionsStreamingDataPreviewOptions 객체입니다.

    데이터 샘플을 보기 위한 데이터 미리 보기와 관련된 옵션을 지정합니다.

KafkaStreamingSourceOptions 구조

스트리밍에 대한 추가 옵션입니다.

필드
  • BootstrapServersCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    부트스트랩 서버 URL 목록입니다(예: b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094). 이 옵션은 API 호출에 지정하거나 Data Catalog의 테이블 메타데이터에 정의해야 합니다.

  • SecurityProtocolCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    브로커와 통신하는 데 사용되는 프로토콜입니다. 가능한 값은 "SSL" 또는 "PLAINTEXT"입니다.

  • ConnectionNameCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    연결의 이름입니다.

  • TopicNameCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    Apache Kafka에 지정된 주제 이름입니다. "topicName", "assign" 또는 "subscribePattern" 중 하나 이상을 지정해야 합니다.

  • AssignCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    사용할 특정 TopicPartitions입니다. "topicName", "assign" 또는 "subscribePattern" 중 하나 이상을 지정해야 합니다.

  • SubscribePatternCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    구독할 주제 목록을 식별하는 Java 정규식 문자열입니다. "topicName", "assign" 또는 "subscribePattern" 중 하나 이상을 지정해야 합니다.

  • ClassificationCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    선택적 분류입니다.

  • DelimiterCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    구분 기호 문자열을 지정합니다.

  • StartingOffsetsCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    데이터를 읽을 Kafka 주제의 시작 위치입니다. 가능한 값은 "earliest" 또는 "latest"입니다. 기본값은 "latest"입니다.

  • EndingOffsetsCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    배치 쿼리가 종료되는 엔드포인트입니다. 가능한 값은 "latest" 또는 각 TopicPartition의 끝 오프셋을 지정하는 JSON 문자열입니다.

  • PollTimeoutMs – None 이하의 숫자(정수)입니다.

    Spark 작업 실행기에서 Kafka의 데이터를 폴링하는 시간 제한(밀리초)입니다. 기본값은 512입니다.

  • NumRetries – None 이하의 숫자(정수)입니다.

    Kafka 오프셋 가져오기에 실패하기 전에 재시도할 횟수입니다. 기본값은 3입니다.

  • RetryIntervalMs – None 이하의 숫자(정수)입니다.

    Kafka 오프셋 가져오기를 재시도하기 전에 대기할 시간(밀리초)입니다. 기본값은 10입니다.

  • MaxOffsetsPerTrigger – None 이하의 숫자(정수)입니다.

    트리거 간격당 처리되는 최대 오프셋 수에 대한 속도 제한입니다. 지정된 총 오프셋 수는 서로 다른 볼륨의 topicPartitions에 비례하여 분할됩니다. 기본값은 null입니다. 즉, 소비자가 알려진 최신 오프셋까지 모든 오프셋을 읽습니다.

  • MinPartitions – None 이하의 숫자(정수)입니다.

    Kafka에서 읽을 원하는 최소 파티션 수입니다. 기본값은 null이며 이는 Spark 파티션의 수가 Kafka 파티션의 수와 동일함을 의미합니다.

RedshiftSource 구조

Amazon Redshift 데이터 스토어를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    Amazon Redshift 데이터 스토어의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽어야 할 데이터베이스입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽어야 할 데이터베이스 테이블입니다.

  • RedshiftTmpDirCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    데이터베이스 외부에서 복사할 때 임시 데이터를 스테이징할 수 있는 Amazon S3 경로입니다.

  • TmpDirIAMRoleCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    권한이 있는 IAM 역할입니다.

S3CatalogSource 구조

AWS Glue Data Catalog의 Amazon S3 데이터 스토어를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽어야 할 데이터베이스입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽어야 할 데이터베이스 테이블입니다.

  • PartitionPredicateCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    이 조건자를 충족하는 파티션이 삭제됩니다. 이러한 파티션에서 보존 기간 내에 있는 파일은 삭제되지 않습니다. 기본적으로 ""(비움)로 설정합니다.

  • AdditionalOptionsS3SourceAdditionalOptions 객체입니다.

    추가 연결 옵션을 지정합니다.

GovernedCatalogSource 구조

관리 AWS Glue Data Catalog의 데이터 스토어를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽어야 할 데이터베이스입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽어야 할 데이터베이스 테이블입니다.

  • PartitionPredicateCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    이 조건자를 충족하는 파티션이 삭제됩니다. 이러한 파티션에서 보존 기간 내에 있는 파일은 삭제되지 않습니다. 기본적으로 ""(비움)로 설정합니다.

  • AdditionalOptionsS3SourceAdditionalOptions 객체입니다.

    추가 연결 옵션을 지정합니다.

S3SourceAdditionalOptions 구조

Amazon S3 데이터 스토어에 대한 추가 연결 옵션을 지정합니다.

필드
  • BoundedSize - 숫자(정수)입니다.

    처리될 데이터 집합의 대상 크기에 대한 상한을 바이트 단위로 설정합니다.

  • BoundedFiles - 숫자(정수)입니다.

    처리될 대상 파일 수에 대한 상한을 설정합니다.

S3CsvSource 구조

Amazon S3에 저장된 CSV(쉼표로 구분된 값) 데이터 스토어를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • Paths필수(Required): UTF-8 문자열의 배열입니다.

    읽을 Amazon S3 경로 목록입니다.

  • CompressionType – UTF-8 문자열입니다(유효 값: gzip="GZIP" | bzip2="BZIP2").

    데이터 압축 방식을 지정합니다. 이 작업은 데이터에 표준 파일 확장자가 있는 경우에는 필요하지 않습니다. 가능한 값은 "gzip""bzip"입니다).

  • Exclusions – UTF-8 문자열의 배열입니다.

    제외할 Unix 스타일 glob 패턴의 JSON 목록이 포함된 문자열입니다. 예를 들어 "[\"**.pdf\"]"는 모든 PDF 파일을 배제합니다.

  • GroupSizeCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    대상 그룹 크기(바이트)입니다. 입력 데이터 크기와 클러스터 크기에 따라 기본값을 계산합니다. 입력 파일이 50,000개 미만일 때는 "groupFiles""inPartition"으로 설정해야 적용됩니다.

  • GroupFilesCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    입력에 50,000개 이상의 파일이 포함된 경우 기본값으로 파일 그룹화가 설정됩니다. 50,000개 미만인 파일로 그룹화를 설정하려면 이 파라미터를 "inPartition"으로 설정합니다. 파일이 50,000개 이상일 때 그룹화를 비활성화하려면 이 파라미터를 "none"으로 설정합니다.

  • Recurse – 부울입니다.

    true로 설정할 경우 지정된 경로의 모든 하위 디렉터리에 있는 파일을 재귀적으로 읽습니다.

  • MaxBand – None 이하의 숫자(정수)입니다.

    이 옵션은 s3 목록이 일정하게 유지되기 시작할 가능성이 있는 기간(밀리초)을 제어합니다. JobBookmarks를 사용하여 Amazon S3 최종 일관성을 처리할 때 수정 타임스탬프가 마지막 maxBand 밀리초에 속하는 파일은 특별히 추적됩니다. 대부분의 사용자는 이 옵션을 설정할 필요가 없습니다. 기본값은 900,000밀리초 또는 15분입니다.

  • MaxFilesInBand – None 이하의 숫자(정수)입니다.

    이 옵션은 마지막 maxBand초부터 저장할 최대 파일 수를 지정합니다. 이 수를 초과할 경우 추가 파일은 건너뛰고 다음 작업 실행에서만 처리됩니다.

  • AdditionalOptionsS3DirectSourceAdditionalOptions 객체입니다.

    추가 연결 옵션을 지정합니다.

  • Separator필수: UTF-8 문자열입니다(유효한 값: comma="COMMA" | ctrla="CTRLA" | pipe="PIPE" | semicolon="SEMICOLON" | tab="TAB").

    구분 기호 문자열을 지정합니다. 기본값은 쉼표(",")지만 다른 문자도 지정할 수 있습니다.

  • EscaperCustom string pattern #31과(와) 일치하는 UTF-8 문자열입니다.

    이스케이프에 사용할 문자를 지정합니다. 이 옵션은 CSV 파일을 읽을 때만 사용됩니다. 기본값은 none입니다. 활성화된 경우 바로 다음에 나오는 문자가 잘 알려진 이스케이프 세트(\n, \r, \t\0)를 제외하고는 있는 그대로 사용됩니다.

  • QuoteChar필수: UTF-8 문자열입니다(유효한 값: quote="QUOTE" | quillemet="QUILLEMET" | single_quote="SINGLE_QUOTE" | disabled="DISABLED").

    인용에 사용할 문자를 지정합니다. 기본 문자는 큰 따옴표(")입니다: '"'. 전체 인용을 해제하려면 이 값을 -1로 설정합니다.

  • Multiline – 부울입니다.

    단일 기록이 다양한 라인을 포괄할 수 있는지 여부를 지정하는 부울 값입니다. 필드가 인용된 새로운 라인 문자를 포함할 때 발생합니다. 레코드가 여러 줄에 걸쳐 있는 경우 이 옵션을 True로 설정해야 합니다. 기본값은 False이라서 파싱 동안 더 많은 공격적 파일 쪼개기가 가능합니다.

  • WithHeader – 부울입니다.

    첫 번째 라인을 헤더로 취급할지 여부를 지정하는 부울 값입니다. 기본값은 False입니다.

  • WriteHeader – 부울입니다.

    헤더를 작성하여 출력할지 여부를 지정하는 부울 값입니다. 기본값은 True입니다.

  • SkipFirst – 부울입니다.

    첫 번째 데이터 라인을 건너뛸지 여부를 지정하는 부울 값입니다. 기본값은 False입니다.

  • OptimizePerformance – 부울입니다.

    Apache Arrow 기반 열 형식 메모리 포맷과 함께 고급 SIMD CSV 리더를 사용할지 여부를 지정하는 부울 값입니다. AWS Glue 버전 3.0에서만 사용할 수 있습니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    S3 CSV 소스에 대한 데이터 스키마를 지정합니다.

S3DirectSourceAdditionalOptions 구조

Amazon S3 데이터 스토어에 대한 추가 연결 옵션을 지정합니다.

필드
  • BoundedSize - 숫자(정수)입니다.

    처리될 데이터 집합의 대상 크기에 대한 상한을 바이트 단위로 설정합니다.

  • BoundedFiles - 숫자(정수)입니다.

    처리될 대상 파일 수에 대한 상한을 설정합니다.

  • EnableSamplePath – 부울입니다.

    샘플 경로를 사용 설정하는 옵션을 설정합니다.

  • SamplePathCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    사용 설정된 경우 샘플 경로를 지정합니다.

S3JsonSource 구조

Amazon S3에 저장된 JSON 데이터 스토어를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • Paths필수(Required): UTF-8 문자열의 배열입니다.

    읽을 Amazon S3 경로 목록입니다.

  • CompressionType – UTF-8 문자열입니다(유효 값: gzip="GZIP" | bzip2="BZIP2").

    데이터 압축 방식을 지정합니다. 이 작업은 데이터에 표준 파일 확장자가 있는 경우에는 필요하지 않습니다. 가능한 값은 "gzip""bzip"입니다).

  • Exclusions – UTF-8 문자열의 배열입니다.

    제외할 Unix 스타일 glob 패턴의 JSON 목록이 포함된 문자열입니다. 예를 들어 "[\"**.pdf\"]"는 모든 PDF 파일을 배제합니다.

  • GroupSizeCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    대상 그룹 크기(바이트)입니다. 입력 데이터 크기와 클러스터 크기에 따라 기본값을 계산합니다. 입력 파일이 50,000개 미만일 때는 "groupFiles""inPartition"으로 설정해야 적용됩니다.

  • GroupFilesCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    입력에 50,000개 이상의 파일이 포함된 경우 기본값으로 파일 그룹화가 설정됩니다. 50,000개 미만인 파일로 그룹화를 설정하려면 이 파라미터를 "inPartition"으로 설정합니다. 파일이 50,000개 이상일 때 그룹화를 비활성화하려면 이 파라미터를 "none"으로 설정합니다.

  • Recurse – 부울입니다.

    true로 설정할 경우 지정된 경로의 모든 하위 디렉터리에 있는 파일을 재귀적으로 읽습니다.

  • MaxBand – None 이하의 숫자(정수)입니다.

    이 옵션은 s3 목록이 일정하게 유지되기 시작할 가능성이 있는 기간(밀리초)을 제어합니다. JobBookmarks를 사용하여 Amazon S3 최종 일관성을 처리할 때 수정 타임스탬프가 마지막 maxBand 밀리초에 속하는 파일은 특별히 추적됩니다. 대부분의 사용자는 이 옵션을 설정할 필요가 없습니다. 기본값은 900,000밀리초 또는 15분입니다.

  • MaxFilesInBand – None 이하의 숫자(정수)입니다.

    이 옵션은 마지막 maxBand초부터 저장할 최대 파일 수를 지정합니다. 이 수를 초과할 경우 추가 파일은 건너뛰고 다음 작업 실행에서만 처리됩니다.

  • AdditionalOptionsS3DirectSourceAdditionalOptions 객체입니다.

    추가 연결 옵션을 지정합니다.

  • JsonPathCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    JSON 데이터를 정의하는 JsonPath 문자열입니다.

  • Multiline – 부울입니다.

    단일 기록이 다양한 라인을 포괄할 수 있는지 여부를 지정하는 부울 값입니다. 필드가 인용된 새로운 라인 문자를 포함할 때 발생합니다. 레코드가 여러 줄에 걸쳐 있는 경우 이 옵션을 True로 설정해야 합니다. 기본값은 False이라서 파싱 동안 더 많은 공격적 파일 쪼개기가 가능합니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    S3 JSON 소스에 대한 데이터 스키마를 지정합니다.

S3ParquetSource 구조

Amazon S3에 저장된 Apache Parquet 데이터 스토어를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 스토어의 이름입니다.

  • Paths필수(Required): UTF-8 문자열의 배열입니다.

    읽을 Amazon S3 경로 목록입니다.

  • CompressionType – UTF-8 문자열입니다(유효한 값: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE").

    데이터 압축 방식을 지정합니다. 이 작업은 데이터에 표준 파일 확장자가 있는 경우에는 필요하지 않습니다. 가능한 값은 "gzip""bzip"입니다).

  • Exclusions – UTF-8 문자열의 배열입니다.

    제외할 Unix 스타일 glob 패턴의 JSON 목록이 포함된 문자열입니다. 예를 들어 "[\"**.pdf\"]"는 모든 PDF 파일을 배제합니다.

  • GroupSizeCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    대상 그룹 크기(바이트)입니다. 입력 데이터 크기와 클러스터 크기에 따라 기본값을 계산합니다. 입력 파일이 50,000개 미만일 때는 "groupFiles""inPartition"으로 설정해야 적용됩니다.

  • GroupFilesCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    입력에 50,000개 이상의 파일이 포함된 경우 기본값으로 파일 그룹화가 설정됩니다. 50,000개 미만인 파일로 그룹화를 설정하려면 이 파라미터를 "inPartition"으로 설정합니다. 파일이 50,000개 이상일 때 그룹화를 비활성화하려면 이 파라미터를 "none"으로 설정합니다.

  • Recurse – 부울입니다.

    true로 설정할 경우 지정된 경로의 모든 하위 디렉터리에 있는 파일을 재귀적으로 읽습니다.

  • MaxBand – None 이하의 숫자(정수)입니다.

    이 옵션은 s3 목록이 일정하게 유지되기 시작할 가능성이 있는 기간(밀리초)을 제어합니다. JobBookmarks를 사용하여 Amazon S3 최종 일관성을 처리할 때 수정 타임스탬프가 마지막 maxBand 밀리초에 속하는 파일은 특별히 추적됩니다. 대부분의 사용자는 이 옵션을 설정할 필요가 없습니다. 기본값은 900,000밀리초 또는 15분입니다.

  • MaxFilesInBand – None 이하의 숫자(정수)입니다.

    이 옵션은 마지막 maxBand초부터 저장할 최대 파일 수를 지정합니다. 이 수를 초과할 경우 추가 파일은 건너뛰고 다음 작업 실행에서만 처리됩니다.

  • AdditionalOptionsS3DirectSourceAdditionalOptions 객체입니다.

    추가 연결 옵션을 지정합니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    S3 Parquet 소스에 대한 데이터 스키마를 지정합니다.

DynamoDBCatalogSource 구조

AWS Glue Data Catalog의 DynamoDB 데이터 소스를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

RelationalCatalogSource 구조

AWS Glue Data Catalog의 관계형 데이터베이스 데이터 소스를 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 원본의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스의 이름입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    읽을 데이터베이스 테이블의 이름입니다.

JDBCConnectorTarget 구조

Apache Parquet 열 형식 스토리지의 Amazon S3에 쓰는 데이터 대상을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • ConnectionName필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    커넥터와 연관된 연결 이름입니다.

  • ConnectionTable필수(Required): Custom string pattern #31과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상에 있는 테이블의 이름입니다.

  • ConnectorName필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    사용할 커넥터의 이름입니다.

  • ConnectionType필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    JDBC 데이터 대상에 대한 연결을 지정하는 marketplace.jdbc 또는 custom.jdbc와 같은 연결 유형입니다.

  • AdditionalOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    커넥터에 대한 추가 연결 옵션입니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    JDBC 대상의 데이터 스키마를 지정합니다.

SparkConnectorTarget 구조

Apache Spark 커넥터를 사용하는 대상을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • ConnectionName필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    Apache Spark 커넥터에 대한 연결 이름입니다.

  • ConnectorName필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    Apache Spark 커넥터의 이름입니다.

  • ConnectionType필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    Apache Spark 데이터 스토어에 대한 연결을 지정하는 marketplace.spark 또는 custom.spark와 같은 연결 유형입니다.

  • AdditionalOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    커넥터에 대한 추가 연결 옵션입니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    사용자 지정 Spark 대상에 대한 데이터 스키마를 지정합니다.

BasicCatalogTarget 구조

AWS Glue Data Catalog 테이블을 사용하는 대상을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    대상으로 사용할 테이블이 포함된 데이터베이스입니다. 이 데이터베이스가 Data Catalog에 이미 존재해야 합니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    출력 데이터의 스키마를 정의하는 테이블입니다. 이 테이블이 Data Catalog에 이미 존재해야 합니다.

MySQLCatalogTarget 구조

MySQL을 사용하는 대상을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

PostgreSQLCatalogTarget 구조

Postgres SQL을 사용하는 대상을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

OracleSQLCatalogTarget 구조

Oracle SQL을 사용하는 대상을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

MicrosoftSQLServerCatalogTarget 구조

Microsoft SQL을 사용하는 대상을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

RedshiftTarget 구조

Amazon Redshift를 사용하는 대상을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

  • RedshiftTmpDirCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    데이터베이스 외부에서 복사할 때 임시 데이터를 스테이징할 수 있는 Amazon S3 경로입니다.

  • TmpDirIAMRoleCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    권한이 있는 IAM 역할입니다.

  • UpsertRedshiftOptionsUpsertRedshiftTargetOptions 객체입니다.

    Redshift 대상에 쓸 때 업서트 작업을 구성하는 옵션 세트입니다.

UpsertRedshiftTargetOptions 구조

Redshift 대상에 쓸 때 업서트 작업을 구성하는 옵션입니다.

필드
  • TableLocationCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    Redshift 테이블의 물리적 위치입니다.

  • ConnectionNameCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    Redshift에 쓰는 데 사용할 연결 이름입니다.

  • UpsertKeys – UTF-8 문자열의 배열입니다.

    업데이트 또는 삽입 수행 여부를 결정하는 데 사용되는 키입니다.

S3CatalogTarget 구조

AWS Glue Data Catalog를 사용하여 Amazon S3에 쓰는 데이터 대상을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • PartitionKeys – EnclosedInStringProperty 멤버의 배열입니다.

    UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • SchemaChangePolicyCatalogSchemaChangePolicy 객체입니다.

    크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

GovernedCatalogTarget 구조

AWS Glue Data Catalog를 사용하여 Amazon S3에 쓰는 데이터 대상을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • PartitionKeys – EnclosedInStringProperty 멤버의 배열입니다.

    UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Table필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

  • Database필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • SchemaChangePolicyCatalogSchemaChangePolicy 객체입니다.

    관리 카탈로그에 대한 업데이트 동작을 지정하는 정책입니다.

S3GlueParquetTarget 구조

Apache Parquet 열 형식 스토리지의 Amazon S3에 쓰는 데이터 대상을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • PartitionKeys – EnclosedInStringProperty 멤버의 배열입니다.

    UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Path필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 단일 Amazon S3 경로입니다.

  • Compression – UTF-8 문자열입니다(유효한 값: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE").

    데이터 압축 방식을 지정합니다. 이 작업은 데이터에 표준 파일 확장자가 있는 경우에는 필요하지 않습니다. 가능한 값은 "gzip""bzip"입니다).

  • SchemaChangePolicyDirectSchemaChangePolicy 객체입니다.

    크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

CatalogSchemaChangePolicy 구조

크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

필드
  • EnableUpdateCatalog – 부울입니다.

    크롤러가 변경된 스키마를 찾았을 때 지정된 업데이트 동작을 사용할지 여부입니다.

  • UpdateBehavior – UTF-8 문자열입니다(유효 값: UPDATE_IN_DATABASE | LOG).

    크롤러가 변화된 객체를 찾을 때 업데이트 동작.

S3DirectTarget 구조

Amazon S3에 쓰는 데이터 대상을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • PartitionKeys – EnclosedInStringProperty 멤버의 배열입니다.

    UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Path필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 단일 Amazon S3 경로입니다.

  • CompressionCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    데이터 압축 방식을 지정합니다. 이 작업은 데이터에 표준 파일 확장자가 있는 경우에는 필요하지 않습니다. 가능한 값은 "gzip""bzip"입니다).

  • Format필수: UTF-8 문자열입니다(유효한 값: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET").

    대상에 대한 데이터 출력 포맷을 지정합니다.

  • SchemaChangePolicyDirectSchemaChangePolicy 객체입니다.

    크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

DirectSchemaChangePolicy 구조

크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

필드
  • EnableUpdateCatalog – 부울입니다.

    크롤러가 변경된 스키마를 찾았을 때 지정된 업데이트 동작을 사용할지 여부입니다.

  • UpdateBehavior – UTF-8 문자열입니다(유효 값: UPDATE_IN_DATABASE | LOG).

    크롤러가 변화된 객체를 찾을 때 업데이트 동작.

  • TableCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    스키마 변경 정책이 적용되는 데이터베이스의 테이블을 지정합니다.

  • DatabaseCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    스키마 변경 정책이 적용되는 데이터베이스를 지정합니다.

ApplyMapping 구조

데이터 원본의 데이터 속성 키를 데이터 대상의 데이터 속성 키에 매핑하는 변환을 지정합니다. 키의 이름을 바꾸고 키의 데이터 유형을 수정하고 데이터 집합에서 삭제할 키를 선택할 수 있습니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Mapping필수(Required): Mapping 객체의 배열입니다.

    데이터 원본의 데이터 속성 키를 데이터 대상의 데이터 속성 키에 매핑하도록 지정합니다.

Mapping 구조

데이터 속성 키의 매핑을 지정합니다.

필드
  • ToKeyCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    매핑을 적용한 후의 열 이름입니다. FromPath와 같을 수 있습니다.

  • FromPath – UTF-8 문자열의 배열입니다.

    수정할 테이블 또는 열입니다.

  • FromTypeCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    수정할 데이터 유형입니다.

  • ToTypeCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    데이터가 수정되는 데이터 유형입니다.

  • Dropped – 부울입니다.

    true인 경우 열이 제거됩니다.

  • Children – Mapping 객체의 배열입니다.

    중첩된 데이터 구조에만 적용됩니다. 상위 구조뿐만 아니라 하위 구조 중 하나도 변경하려는 경우 이 데이터 구조를 작성할 수 있습니다. 마찬가지로 Mapping이지만 해당 FromPath도 상위 구조의 FromPath와 이 구조의 FromPath가 됩니다.

    하위 부분의 경우 다음과 같은 구조가 있다고 가정합니다.

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

    다음과 같은 Mapping을 지정할 수 있습니다.

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

SelectFields 구조

유지할 데이터 속성 키를 선택하는 변환을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Paths - 필수: EnclosedInStringProperty 멤버의 배열입니다.

    UTF-8 문자열의 배열입니다.

    데이터 구조의 변수에 대한 JSON 경로입니다.

DropFields 구조

삭제할 데이터 속성 키를 선택하는 변환을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Paths - 필수: EnclosedInStringProperty 멤버의 배열입니다.

    UTF-8 문자열의 배열입니다.

    데이터 구조의 변수에 대한 JSON 경로입니다.

RenameField 구조

단일 데이터 속성 키의 이름을 바꾸는 변환을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • SourcePath필수(Required): UTF-8 문자열의 배열입니다.

    소스 데이터에 대한 데이터 구조의 변수에 대한 JSON 경로입니다.

  • TargetPath필수(Required): UTF-8 문자열의 배열입니다.

    대상 데이터에 대한 데이터 구조의 변수에 대한 JSON 경로입니다.

Spigot 구조

Amazon S3 버킷에 데이터 샘플을 쓰는 변환을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Path필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    변환이 데이터 집합의 레코드 하위 집합을 Amazon S3 버킷의 JSON 파일에 쓰는 Amazon S3의 경로입니다.

  • Topk – 100 이하의 숫자(정수)입니다.

    데이터 집합의 시작 부분부터 쓸 레코드 수를 지정합니다.

  • Prob – 1 이하의 숫자(double)입니다.

    지정된 레코드를 선택할 확률(최대값이 1인 소수 값)입니다. 값 1은 데이터 집합에서 읽은 각 행이 샘플 출력에 포함되어야 함을 나타냅니다.

조인 구조

지정된 데이터 속성 키의 비교 구문을 사용하여 두 데이터 집합을 하나의 데이터 집합으로 조인하는 변환을 지정합니다. 내부, 외부, 왼쪽, 오른쪽, 왼쪽 반 및 왼쪽 안티 조인을 사용할 수 있습니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(2개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • JoinType필수: UTF-8 문자열입니다(유효한 값: equijoin="EQUIJOIN" | left="LEFT" | right="RIGHT" | outer="OUTER" | leftsemi="LEFT_SEMI" | leftanti="LEFT_ANTI").

    데이터 집합에서 수행할 조인 유형을 지정합니다.

  • Columns필수(Required): 2개 이상의 구조로 이루어진 JoinColumn 객체의 배열입니다.

    조인할 두 열의 목록입니다.

JoinColumn 구조

조인할 열을 지정합니다.

필드
  • From필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    조인할 열입니다.

  • Keys - 필수: EnclosedInStringProperty 멤버의 배열입니다.

    UTF-8 문자열의 배열입니다.

    조인할 열의 키입니다.

SplitFields 구조

데이터 속성 키를 두 개의 DynamicFrames로 분할하는 변환을 지정합니다. 출력은 DynamicFrames 컬렉션입니다. 하나에는 선택한 데이터 속성 키가 있고 다른 하나에는 나머지 데이터 속성 키가 있습니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Paths - 필수: EnclosedInStringProperty 멤버의 배열입니다.

    UTF-8 문자열의 배열입니다.

    데이터 구조의 변수에 대한 JSON 경로입니다.

SelectFromCollection 구조

DynamicFrames 컬렉션에서 하나의 DynamicFrame을 선택하는 변환을 지정합니다. 출력은 선택한 DynamicFrame입니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Index필수(Required): None 이하의 숫자(정수)입니다.

    선택할 DynamicFrame의 인덱스입니다.

FillMissingValues 구조

데이터 집합에서 누락된 값이 있는 레코드를 찾고 대체를 통해 결정된 값으로 새 필드를 추가하는 변환을 지정합니다. 입력 데이터 집합은 누락 값을 결정하는 기계 학습 모델을 훈련하는 데 사용됩니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • ImputedPath필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    대체된 데이터 집합에 대한 데이터 구조의 변수에 대한 JSON 경로입니다.

  • FilledPathCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    작성된 데이터 집합에 대한 데이터 구조의 변수에 대한 JSON 경로입니다.

Filter 구조

필터 조건에 따라 하나의 데이터 집합을 두 개로 분할하는 변환을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • LogicalOperator필수: UTF-8 문자열입니다(유효한 값: AND | OR).

    키 값을 지정된 값과 비교하여 행을 필터링하는 데 사용되는 연산자입니다.

  • Filters필수(Required): FilterExpression 객체의 배열입니다.

    필터 표현식을 지정합니다.

FilterExpression 구조

필터 표현식을 지정합니다.

필드
  • Operation필수: UTF-8 문자열입니다(유효한 값: EQ | LT | GT | LTE | GTE | REGEX | ISNULL).

    표현식에서 수행할 작업의 유형입니다.

  • Negated – 부울입니다.

    표현식을 부정할지 여부입니다.

  • Values필수(Required): FilterValue 객체의 배열입니다.

    필터 값 목록입니다.

FilterValue 구조

FilterExpression의 값 목록에 있는 단일 항목을 나타냅니다.

필드
  • Type필수: UTF-8 문자열입니다(유효한 값: COLUMNEXTRACTED | CONSTANT).

    필터 값 유형입니다.

  • Value필수(Required): UTF-8 문자열의 배열입니다.

    연결할 값입니다.

CustomCode 구조

제공한 사용자 지정 코드를 사용하여 데이터 변환을 수행하는 변환을 지정합니다. 출력은 DynamicFrames의 컬렉션입니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열이며 문자열은 1개 이상입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Code필수(Required): Custom string pattern #26과(와) 일치하는 UTF-8 문자열입니다.

    데이터 변환을 수행하는 데 사용되는 사용자 지정 코드입니다.

  • ClassName필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    사용자 지정 코드 노드 클래스에 대해 정의된 이름입니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    사용자 지정 코드 변환에 대한 데이터 스키마를 지정합니다.

SparkSQL 구조

데이터를 변환하기 위해 Spark SQL 구문을 사용하여 SQL 쿼리를 입력하는 변환을 지정합니다. 출력은 단일 DynamicFrame입니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열이며 문자열은 1개 이상입니다.

    노드 이름으로 식별된 데이터 입력입니다. SQL 쿼리에 사용할 각 입력 노드와 테이블 이름을 연결할 수 있습니다. 선택한 이름은 Spark SQL 이름 지정 제한을 충족해야 합니다.

  • SqlQuery필수(Required): Custom string pattern #32과(와) 일치하는 UTF-8 문자열입니다.

    Spark SQL 구문을 사용하고 단일 데이터 집합을 반환해야 하는 SQL 쿼리입니다.

  • SqlAliases필수(Required): SqlAlias 객체의 배열입니다.

    별칭 목록입니다. 별칭을 사용하면 지정된 입력에 대해 SQL에서 사용할 이름을 지정할 수 있습니다. 예를 들어 'MyDataSource'라는 데이터 원본이 있습니다. From을 MyDataSource로, Alias를 SqlName으로 지정할 경우 SQL에서 다음을 수행할 수 있습니다.

    select * from SqlName

    그러면 MyDataSource에서 데이터를 가져옵니다.

  • OutputSchemasGlueSchema 객체의 배열입니다.

    SparkSQL 변환에 대한 데이터 스키마를 지정합니다.

SqlAlias 구조

SqlAliases의 값 목록에 있는 단일 항목을 나타냅니다.

필드
  • From필수(Required): Custom string pattern #29과(와) 일치하는 UTF-8 문자열입니다.

    테이블 또는 테이블의 열입니다.

  • Alias필수(Required): Custom string pattern #31과(와) 일치하는 UTF-8 문자열입니다.

    테이블 또는 테이블의 열에 지정된 임시 이름입니다.

DropNullFields 구조

열의 모든 값이 'null'인 경우 데이터 집합에서 열을 제거하는 변환을 지정합니다. 기본값으로 AWS Glue Studio는 Null 객체를 인식하지만 빈 문자열, 'null'인 문자열, -1 정수 또는 0과 같은 다른 자리 표시자 등의 일부 값은 자동으로 Null로 인식되지 않습니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • NullCheckBoxListNullCheckBoxList 객체입니다.

    특정 값을 제거하기 위해 Null 값으로 인식할지 여부를 나타내는 구조입니다.

  • NullTextListNullValueField 객체의 배열이며 구조는 50개 이하입니다.

    0이나 데이터 집합에 고유한 Null 자리 표시자로 사용되는 다른 값과 같은 사용자 지정 Null 값을 나타내는 NullValueField 구조 목록을 지정하는 구조입니다.

    DropNullFields 변환은 Null 자리 표시자의 값과 데이터 유형이 모두 데이터와 일치하는 경우에만 사용자 지정 Null 값을 제거합니다.

NullCheckBoxList 구조

제거를 위해 특정 값을 Null 값으로 인식할지 여부를 나타냅니다.

필드
  • IsEmpty – 부울입니다.

    빈 문자열이 Null 값으로 간주되도록 지정합니다.

  • IsNullString – 부울입니다.

    'null'이라는 단어의 철자를 사용하는 값이 Null 값으로 간주되도록 지정합니다.

  • IsNegOne – 부울입니다.

    정수 값 -1이 Null 값으로 간주되도록 지정합니다.

NullValueField 구조

0이나 데이터 집합에 고유한 Null 자리 표시자로 사용되는 다른 값과 같은 사용자 지정 Null 값을 나타냅니다.

필드
  • Value필수(Required): Custom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    Null 자리 표시자의 값입니다.

  • Datatype필수(Required): 데이터 형식 객체입니다.

    값의 데이터 유형입니다.

데이터 형식 구조

값의 데이터 유형을 나타내는 구조입니다.

필드
  • Id필수(Required): Custom string pattern #29과(와) 일치하는 UTF-8 문자열입니다.

    값의 데이터 유형입니다.

  • Label필수(Required): Custom string pattern #29과(와) 일치하는 UTF-8 문자열입니다.

    데이터 유형에 할당된 레이블입니다.

병합 구조

레코드를 식별하기 위해 지정된 기본 키를 기준으로 DynamicFrame을 스테이징 DynamicFrame과 병합하는 변환을 지정합니다. 중복 레코드(기본 키가 동일한 레코드)는 중복 제거되지 않습니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(2개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Source필수(Required): Custom string pattern #29과(와) 일치하는 UTF-8 문자열입니다.

    스테이징 DynamicFrame과 병합되는 소스 DynamicFrame입니다.

  • PrimaryKeys - 필수: EnclosedInStringProperty 멤버의 배열입니다.

    UTF-8 문자열의 배열입니다.

    소스 및 스테이징 동적 프레임의 레코드와 일치시킬 기본 키 필드 목록입니다.

DropDuplicates 구조

데이터 세트에서 반복 데이터의 행을 제거하는 변환을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 이름으로 식별된 데이터 입력입니다.

  • Columns – EnclosedInStringProperty 멤버의 배열입니다.

    UTF-8 문자열의 배열입니다.

    반복될 경우 병합하거나 제거할 열의 이름입니다.

결합 구조

둘 이상 데이터 집합의 행을 단일 결과로 결합하는 변환을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(2개 이상)입니다.

    노드 ID가 변환에 입력됩니다.

  • UnionType필수: UTF-8 문자열입니다(유효한 값: ALL | DISTINCT).

    Union 변환 유형을 나타냅니다.

    데이터 원본의 모든 행을 결과 DynamicFrame에 조인하려면 ALL을 지정합니다. 결과 union 구조는 중복 행을 제거하지 않습니다.

    결과 DynamicFrame에서 중복 행을 제거하려면 DISTINCT를 지정합니다.

PIIDetection 구조

PII 데이터를 식별, 제거 또는 마스킹하는 변환을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    노드 ID가 변환에 입력됩니다.

  • PiiType필수: UTF-8 문자열입니다(유효한 값: RowAudit | RowMasking | ColumnAudit | ColumnMasking).

    PIIDetection 변환 유형을 나타냅니다.

  • EntityTypesToDetect필수(Required): UTF-8 문자열의 배열입니다.

    PIIDetection 변환이 PII 데이터로 식별할 엔터티 유형을 나타냅니다.

    PII 유형 엔터티는 다음을 포함합니다. PERSON_NAME, DATE, USA_SNN, EMAIL, USA_ITIN, USA_PASSPORT_NUMBER, PHONE_NUMBER, BANK_ACCOUNT, IP_ADDRESS, MAC_ADDRESS, USA_CPT_CODE, USA_HCPCS_CODE, USA_NATIONAL_DRUG_CODE, USA_MEDICARE_BENEFICIARY_IDENTIFIER, USA_HEALTH_INSURANCE_CLAIM_NUMBER,CREDIT_CARD,USA_NATIONAL_PROVIDER_IDENTIFIER,USA_DEA_NUMBER,USA_DRIVING_LICENSE

  • OutputColumnNameCustom string pattern #30과(와) 일치하는 UTF-8 문자열입니다.

    해당 행에서 감지된 모든 엔터티 유형을 포함할 출력 열 이름을 나타냅니다.

  • SampleFraction – 1 이하의 숫자(double)입니다.

    PII 엔터티를 스캔할 때 샘플링할 데이터의 비율을 나타냅니다.

  • ThresholdFraction – 1 이하의 숫자(double)입니다.

    열을 PII 데이터로 식별하기 위해 충족되어야 하는 데이터의 비율을 나타냅니다.

  • MaskValueCustom string pattern #28과(와) 일치하는 256바이트 이하 길이의 UTF-8 문자열입니다.

    감지된 개체를 대체할 값을 나타냅니다.

집계 구조

선택한 필드별로 행을 그룹화하고 지정된 함수에 의해 집계된 값을 계산하는 변환을 지정합니다.

필드
  • Name필수(Required): Custom string pattern #33과(와) 일치하는 UTF-8 문자열입니다.

    변환 노드의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    집계 변환에 대해 입력으로 사용할 필드와 행을 지정합니다.

  • Groups - 필수: EnclosedInStringProperty 멤버의 배열입니다.

    UTF-8 문자열의 배열입니다.

    그룹화할 필드를 지정합니다.

  • Aggs - 필수: EnclosedInStringProperty 멤버의 배열로 1~30개 구조로 이루어집니다.

    지정된 필드에서 수행할 집계 함수를 지정합니다.

GlueSchema 구조

스키마를 AWS Glue에서 결정할 수 없는 경우 사용자 정의 스키마를 지정합니다.

필드
  • ColumnsGlueStudioSchemaColumn 객체의 배열입니다.

    AWS Glue 스키마를 구성하는 열 정의를 지정합니다.

GlueStudioSchemaColumn 구조

AWS Glue 스키마 정의에서 단일 열을 지정합니다.

필드
  • Name필수: Single-line string pattern과 일치하는 1,024바이트 이하 길이의 UTF-8 문자열입니다.

    AWS Glue Studio 스키마의 열 이름입니다.

  • TypeSingle-line string pattern과(와) 일치하는 131,072바이트 이하 길이의 UTF-8 문자열입니다.

    AWS Glue Studio 스키마의 이 열에 대한 하이브 유형입니다.

GlueStudioColumn 구조

AWS Glue Studio에서 단일 열을 지정합니다.

필드
  • Key필수(Required): Custom string pattern #31과(와) 일치하는 UTF-8 문자열입니다.

    AWS Glue Studio에서 열의 키입니다.

  • FullPath필수(Required): UTF-8 문자열의 배열입니다.

    AWS Glue Studio에서 열의 전체 URL입니다.

  • Type필수: UTF-8 문자열(유효한 값: array="ARRAY" | bigint="BIGINT" | bigint array="BIGINT_ARRAY" | binary="BINARY" | binary array="BINARY_ARRAY" | boolean="BOOLEAN" | boolean array="BOOLEAN_ARRAY" | byte="BYTE" | byte array="BYTE_ARRAY" | char="CHAR" | char array="CHAR_ARRAY" | choice="CHOICE" | choice array="CHOICE_ARRAY" | date="DATE" | date array="DATE_ARRAY" | decimal="DECIMAL" | decimal array="DECIMAL_ARRAY" | double="DOUBLE" | double array="DOUBLE_ARRAY" | enum="ENUM" | enum array="ENUM_ARRAY" | float="FLOAT" | float array="FLOAT_ARRAY" | int="INT" | int array="INT_ARRAY" | interval="INTERVAL" | interval array="INTERVAL_ARRAY" | long="LONG" | long array="LONG_ARRAY" | object="OBJECT" | short="SHORT" | short array="SHORT_ARRAY" | smallint="SMALLINT" | smallint array="SMALLINT_ARRAY" | string="STRING" | string array="STRING_ARRAY" | timestamp="TIMESTAMP" | timestamp array="TIMESTAMP_ARRAY" | tinyint="TINYINT" | tinyint array="TINYINT_ARRAY" | varchar="VARCHAR" | varchar array="VARCHAR_ARRAY" | null="NULL" | unknown="UNKNOWN" | unknown array="UNKNOWN_ARRAY").

    AWS Glue Studio에서 열의 유형입니다.

  • Children - 구조의 배열입니다.

    AWS Glue Studio에 있는 상위 열의 하위 요소입니다.