AWS Glue
개발자 안내서

기본 제공 변환

AWS Glue는 기본 설정 변환 세트를 제공하여 데이터를 사용할 수 있습니다. 이런 변환을 ETL 스크립트에서 호출할 수 있습니다. Apache Spark SQL DataFrame로의 확장인 DynamicFrame라는 데이터 구조에서 변환에서 변환으로 데이터를 전달합니다. DynamicFrame은 데이터를 포함하고 데이터 스키마를 참조하여 데이터를 진행합니다. 변환에 대한 자세한 내용은 AWS Glue PySpark 변환 참조 단원을 참조하십시오.

AWS Glue는 다음과 같은 기본 설정 변환을 제공합니다.

ApplyMapping

DynamicFrame의 소스 열과 데이터 유형을 반환된 DynamicFrame의 대상 열과 데이터 유형으로 매핑합니다. 소스 열, 소스 유형, 대상열, 대상 유형 등을 포함하는 튜플 목록인 매핑 인수를 지정합니다.

DropFields

DynamicFrame에서 필드를 제거합니다. 출력 DynamicFrame은 입력보다 적은 필드를 포함합니다. paths 입수를 사용하여 어떤 필드를 제거할지 지정합니다. paths 인수는 점 표시를 사용하여 스키마 나무 구조의 필드를 가리킵니다. 예를 들어, 나무에서 A 필드 하위인 B 필드를 제거하기 위해서는 경로에서 A.B를 입력합니다.

DropNullFields

DynamicFrame에서 널필드를 제거합니다. 출력 DynamicFrame은 스키마 널 유형의 필드를 포함하지 않습니다.

Filter

DynamicFrame에서 기록을 선택하고 필터링된 DynamicFrame을 반환합니다. 기록이 출력인지 (함수는 true를 반환합니다) 아닌지 (함수는 false를 반환합니다) 결정하는 Lambda 함수와 같은 함수를 지정합니다.

Join

두 개의 DynamicFrames을 이퀴조인합니다. 각 프레임의 스키마에서 키 필드를 지정하여 동등성을 비교합니다. 출력 DynamicFrame은 키와 일치하는 행을 포함합니다.

Map

DynamicFrame 기록에 함수를 적용하고 변환된 DynamicFrame을 반환합니다. 제공된 함수를 각 입력 기록에 적용하고 출력 기록으로 변환합니다. 맵 변환은 필드를 추가하고 삭제하며 외부 API 작업을 사용하여 검색을 실시합니다. 예외가 있다면 계속 진행하고 기록은 오류라는 것을 보여줍니다.

MapToCollection

DynamicFrameCollection의 각 DynamicFrame에 변환을 적용합니다.

Relationalize

DynamicFrame을 관계형 (행 또는 열) 형식으로 전환합니다. 데이터 스키마를 고려하여 이 변환은 중첩된 구조를 플랫하고 배열 구조에서 DynamicFrames을 생성합니다. 출력은 다양한 테이블에 쓰여진 데이터로 결과가 나타나는 DynamicFrames 컬렉션입니다.

RenameField

DynamicFrame에서 필드 이름을 바꿉니다. 출력은 이름이 바뀐 지정 필드의 DynamicFrame입니다. 새로운 이름과 경로를 스키마에 제공하여 필드의 이름을 바꿉니다.

ResolveChoice

ResolveChoice를 사용하여 열이 다양한 유형의 값을 포함하면 열을 어떻게 관리하는지 지정합니다. 열을 하나의 데이터 유형으로 보내거나 하나 이상의 유형을 버리거나 모든 유형을 개별 열 또는 구조로 유지할지 선택합니다. 각 열에 다른 해결 정책을 선택하거나 모든 열에 적용되는 글로벌 정책을 지정할 수 있습니다.

SelectFields

유지할 DynamicFrame에서 필드를 선택합니다. 출력은 선택된 필드만의 DynamicFrame입니다. 스키마에서 경로를 유지할 필드로 제공합니다.

SelectFromCollection

DynamicFrames 컬렉션에서 DynamicFrame을 하나 선택합니다. 출력은 선택된 DynamicFrame입니다. 선택할 DynamicFrame에 인덱스를 제공합니다.

Spigot

DynamicFrame에서 샘플 데이터를 작성합니다. 출력은 Amazon S3의 JSON 파일입니다. Amazon S3 위치와 DynamicFrame을 샘플링하는 방법을 지정합니다. 샘플링은 파일 시작에서 기록의 지정된 수이거나 작성할 기록을 선택하는 데 사용되는 가능성 요소일 수 있습니다.

SplitFields

필드를 두 개의 DynamicFrames으로 스플릿합니다. 출력은 DynamicFrames의 모음입니다. 하나는 선택된 필드로 또 다른 하나는 남겨진 필드로 되어 있습니다. 스키마에서 경로를 선택된 필드로 제공합니다.

SplitRows

조건자를 기본으로 DynamicFrame에서 행을 쪼갭니다. 출력은 DynamicFrames의 모음입니다. 하나는 선택된 행으로 또 다른 하나는 남겨진 행으로 되어 있습니다. 스키마의 필드를 고려해 비교 결과를 제공합니다. 예: A > 4.

개봉

DynamicFrame에서 문자열 필드를 개봉합니다. 출력은 다시 포맷된 선택된 문자열의 DynamicFrame입니다. 문자열 필드는 몇 가지 필드로 파싱 및 대체가 됩니다. 다시 포맷하고 현재 포맷 유형의 문자열 필드 스키마로 경로를 제공합니다. 예를 들어, JSON 포맷 {"a": 3, "b": "foo", "c": 1.2} 형식인 하나의 필드를 갖는 CSV를 갖고 있을 수 있습니다. 이 변환은 JSON을 세 가지 필드인 intstring, double로 다시 포맷할 수 있습니다.