AWS Glue 관리형 데이터 변환 노드 편집

AWS Glue Studio에서는 두 가지 유형의 변환을 제공합니다.

AWS Glue 네이티브 변환 - 모든 사용자가 사용할 수 있으며 AWS Glue에서 관리합니다.
사용자 지정 시각적 변환 - 자체 변환을 업로드하여 AWS Glue Studio에서 사용할 수 있습니다.

AWS Glue 관리형 데이터 변환 노드

AWS Glue Studio는 기본 설정 변환 세트를 제공하여 데이터를 사용할 수 있습니다. 데이터는 작업 다이어그램의 한 노드에서 Apache Spark SQL DataFrame의 확장인 DynamicFrame이라는 데이터 구조의 다른 노드로 전달됩니다.

작업에 대해 미리 채워진 다이어그램에서 데이터 소스와 데이터 대상 노드 사이에는 스키마 변경 변환 노드가 있습니다. 이 변환 노드를 구성하여 데이터를 수정하거나 추가 변환을 사용할 수 있습니다.

AWS Glue Studio에서 사용 가능한 기본 제공 변환은 다음과 같습니다.

ChangeSchema: 데이터 소스의 데이터 속성 키를 데이터 대상의 데이터 속성 키에 매핑합니다. 키의 이름을 바꾸고 키의 데이터 유형을 수정하고 데이터 집합에서 삭제할 키를 선택할 수 있습니다.
SelectFields: 유지할 데이터 속성 키를 선택합니다.
DropFields: 삭제할 데이터 속성 키를 선택합니다.
RenameField: 단일 데이터 속성 키의 이름을 바꿉니다.
Spigot: Amazon S3 버킷에 데이터 샘플을 씁니다.
Join: 지정된 데이터 속성 키의 비교 구문을 사용하여 두 데이터 집합을 하나의 데이터 집합으로 조인합니다. 내부, 외부, 왼쪽, 오른쪽, 왼쪽 반 및 왼쪽 안티 조인을 사용할 수 있습니다.
Union: 스키마가 동일한 둘 이상의 데이터 소스에서 행을 결합합니다.
SplitFields: 데이터 속성 키를 두 개의 DynamicFrames로 분할합니다. 출력은 DynamicFrames의 컬렉션입니다. 하나는 선택한 데이터 속성 키가 있고 다른 하나는 나머지 데이터 속성 키가 있습니다.
SelectFromCollection: DynamicFrames 컬렉션에서 DynamicFrame을 하나 선택합니다. 출력은 선택된 DynamicFrame입니다.
FillMissingValues: 데이터 집합에서 누락 값이 있는 레코드를 찾고 대체를 통해 결정된 제안 값으로 새 필드를 추가합니다.
필터(Filter): 필터 조건에 따라 하나의 데이터 집합을 두 개로 분할합니다.
Null 필드 삭제: 열의 모든 값이 'null'인 경우 데이터 집합에서 열을 제거합니다.
중복 삭제: 전체 행을 일치시키거나 키를 지정하도록 선택하여 데이터 소스에서 행을 제거합니다.
SQL: SQL 쿼리를 사용하여 데이터를 변환하려면 텍스트 입력 필드에 SparkSQL 코드를 입력합니다. 출력은 단일 DynamicFrame입니다.
집계: 선택한 필드와 행에서 계산(예: 평균, 합계, 최소, 최대)을 수행하고 새로 계산된 값으로 새 필드를 생성합니다.
Flatten: 구조체 내부의 필드를 최상위 필드로 추출합니다.
UUID: 각 행에 범용 고유 식별자가 있는 열을 추가합니다.
식별자: 각 행에 숫자 식별자가 있는 열을 추가합니다.
타임스탬프로 변환: 열을 타임스탬프 유형으로 변환합니다.
타임스탬프 형식 지정: 타임스탬프 열을 형식이 지정된 문자열로 변환합니다.
조건부 라우터 변환: 수신 데이터에 여러 조건을 적용합니다. 수신 데이터의 각 행은 그룹 필터 조건을 기준으로 평가되고 해당 그룹으로 처리됩니다.
열 연결 변환: 선택적 스페이서가 있는 다른 열의 값을 사용하여 새 문자열 열을 구축합니다.
문자열 분할 변환: 정규식을 사용하여 문자열을 토큰 배열로 분할해 분할 방식을 정의합니다.
배열을 열로 변환: 배열 유형의 열에 있는 일부 또는 모든 요소를 새 열로 추출합니다.
현재 타임스탬프 추가 변환: 데이터가 처리된 시간으로 행을 표시합니다. 이는 감사 목적이나 데이터 파이프라인에서 지연 시간을 추적하는 데 유용합니다.
행을 열로 피벗 변환: 선택한 열에서 고유 값을 교체하여 숫자 열을 집계합니다. 이 열은 새 열이 됩니다. 열을 여러 개 선택하면 값이 연결되어 새 열의 이름이 지정됩니다.
열을 행으로 피벗 취소 변환: 열을 새 열의 값으로 변환하여 각 고유 값에 대한 행을 생성합니다.
처리 균형 자동 조절 변환: 더 나은 성능을 위해 작업자 사이에서 데이터를 재배포합니다. 이는 데이터가 불균형하거나 소스에서 가져온 데이터로 인해 충분한 병렬 처리가 불가능한 경우에 유용합니다.
파생 열 변환: 상수 및 리터럴뿐만 아니라 데이터의 다른 열을 사용할 수 있는 수학 공식 또는 SQL 표현식을 기반으로 새 열을 정의합니다.
조회 변환: 키가 데이터에 정의된 조회 열과 일치하는 경우 정의된 카탈로그 테이블의 열을 추가합니다.
배열 또는 맵을 행으로 분해 변환: 중첩된 구조에서 조작하기 쉬운 개별 행으로 값을 추출합니다.
레코드 일치 변환: 기존 레코드 일치 기계 학습 데이터 분류 변환을 간접 호출합니다.
null 행 제거 변환 제거: 모든 열이 null이거나 비어 있는 행을 데이터 세트에서 제거합니다.
JSON 열 구문 분석 변환: JSON 데이터를 포함하는 문자열 열을 구문 분석하고 JSON이 객체인지 또는 배열인지에 따라 각각 해당 문자열 열을 구문 또는 배열 열로 변환합니다.
JSON 경로 추출 변환: JSON 문자열 열에서 새 열을 추출합니다.
정규식에서 문자열 조각 추출: 정규식을 사용하여 문자열 조각을 추출하고 문자열 조각에서 새 열을 생성하거나 정규식 그룹을 사용하는 경우 여러 열을 생성합니다.
사용자 지정 변환(Custom transform): 사용자 지정 변환을 사용하려면 텍스트 입력 필드에 코드를 입력합니다. 출력은 DynamicFrames의 컬렉션입니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

작업 편집기 기능

AWS Glue Studio에서 데이터 준비 레시피 사용