AWS Glue 콘솔을 사용하여 분류자 생성

분류자는 데이터의 스키마를 결정합니다. 사용자 지정 분류자를 작성하고 AWS Glue에서 분류자를 가리킬 수 있습니다.

분류자 생성

AWS Glue 콘솔에서 분류자를 추가하려면 [분류자 추가(Add classifier)]를 선택합니다. 분류자를 정의할 때 다음에 대한 값을 제공합니다.

[분류자 이름(Classifier name)] – 분류자에 대한 고유 이름을 입력합니다.
[분류자 유형(Classifier type)] – 분류자가 유추한 테이블의 분류자 유형입니다.
[마지막 업데이트(Last updated) – 이 분류자가 업데이트된 마지막 시간입니다.

분류자 이름: 분류자 고유 이름을 입력합니다.
분류자 유형: 생성할 분류자의 유형을 선택합니다.

선택한 분류기 유형에 따라 분류기에 대해 다음 속성을 구성합니다.

Grok

분류

분류된 데이터의 포맷 또는 유형을 설명하거나 사용자 정의 레이블을 제공합니다.
Grok 패턴

데이터를 구조화 스키마로 구분 분석하는 데 사용됩니다. Grok 패션은 데이터 스토어의 포맷을 보여주는 이름이 붙여진 패턴으로 구성됩니다. AWS Glue에서 제공하는 명명된 기본 제공 패턴과 [사용자 정의 패턴(Custom patterns)] 필드에 작성하고 포함하는 사용자 정의 패턴을 사용하여 이 grok 패턴을 작성합니다. Grok 디버거 결과가 AWS Glue 결과와 정확하게 일치하지 않더라도 grok 디버거를 통한 몇 가지 샘플 데이터를 사용하여 패턴을 시도해 볼 수 있습니다. Grok 디버거는 웹에서 볼 수 있습니다. AWS Glue가 제공한 이름이 붙여진 기본 설정 패턴은 웹에서 사용 가능한 grok 패턴과 일반적으로 호환됩니다.

반복적으로 이름이 붙여진 패턴을 추가하여 Grok 패턴을 만들고 디버거에서 결과를 확인합니다. 이 활동은 AWS Glue 크롤러가 grok 패턴을 실행할 때 신뢰를 줘 데이터가 구문 분석될 수 있습니다.
사용자 지정 패턴

Grok 분류자의 경우, 이것은 여러분이 작성하는 Grok pattern(Grok 패턴)의 조건부 빌딩 블록입니다. 기본 설정 패턴이 데이터를 구분 분석하지 못할 경우, 사용자 지정 패턴을 작성해야 할 수도 있습니다. 이런 사용자 지정 패턴은 이 필드에서 정의되고 Grok pattern(Grok 패턴) 필드에서 참조됩니다. 각 사용자 지정 패턴은 개별 라인에서 정의됩니다. 기본 설정 패턴과 같이 regular expression(정규식) (regex) 구문을 사용하는 이름이 붙여진 패턴 정의로 구성됩니다.

예를 들어, 다음은 뒤이어 정규식 정의가 있는 MESSAGEPREFIX 이름을 붙여 데이터를 적용하고 데이터가 패턴을 따르는지 결정합니다.
```
MESSAGEPREFIX .*-.*-.*-.*-.*
				
```

XML

행 태그

XML 분류자를 위해, 이것은 XML 문서의 테이블 행을 정의하는 XML 태그 이름입니다. < > 꺽쇠괄호없이 이름을 입력합니다. 이름은 태그에 대한 XML 규칙을 따라야 합니다.

자세한 내용은 XML 사용자 지정 분류자 작성 섹션을 참조하세요.

JSON

JSON 경로

JSON 분류자를 위해, 이것은 생성된 테이블 행을 정의하는 객체, 배열 및 값까지의 JSON 경로입니다. AWS Glue가 지원한 연산자를 사용하여 점 혹은 괄호 JSON 구문 이름을 입력합니다.

자세한 내용은 JSON 사용자 지정 분류자 작성의 연산자 목록을 참조하십시오.

CSV

열 구분 기호

행의 열 입력 항목 각각을 구분하는 것을 나타내기 위한 단일 문자 또는 기호입니다. 목록에서 구분 기호를 선택하거나 Other를 선택하여 사용자 정의 구분 기호를 입력합니다.
인용 기호

단일 열 값에 내용을 결합하는 것을 나타내기 위한 단일 문자 또는 기호입니다. 열 구분 기호와 달라야 합니다. 목록에서 따옴표 기호를 선택하거나 Other를 선택하여 사용자 정의 따옴표 문자를 입력합니다.
열 제목

열 제목을 CSV 파일에서 어떻게 탐지해야 하는지에 대한 행동을 표시합니다. Has headings, No headings 또는 Detect headings를 선택할 수 있습니다. 사용자 지정 CSV 파일에 열 제목이 포함되어 있는 경우에는 쉼표로 구분된 열 제목 목록을 입력합니다.
단일 열이 있는 파일 허용

CSV로 분류되려면 데이터는 적어도 데이터의 두 개의 열과 두 개의 행이 있어야 합니다. 하나의 열만 포함하는 파일의 처리를 허용하려면 이 옵션을 사용합니다.
열 값을 식별하기 전에 공백 트리밍

이 옵션은 열 값의 유형을 식별하기 전에 값의 트리밍 여부를 지정합니다.
사용자 지정 데이터 유형

(선택 사항) - 쉼표로 구분된 목록에 사용자 지정 데이터 유형을 입력합니다. 지원되는 데이터 유형은 “바이너리”, “부울”, “날짜”, “십진수”, “더블”, “플로트”, “정수”, “롱”, “쇼트”, “문자열”, “타임스탬프”입니다.
CSV Serde

(선택 사항) - 분류자에서 CSV를 처리하기 위한 Serde입니다. 이는 데이터 카탈로그에서 적용됩니다. Open CSV SerDe, Lazy Simple SerDe 또는 None 중에서 선택합니다. 크롤러에서 감지하려는 경우 None 값을 지정할 수 있습니다.

자세한 내용은 다양한 데이터 형식에 대한 사용자 지정 분류자 작성 섹션을 참조하세요.

분류자 보기

AWS Glue 콘솔을 https://console.aws.amazon.com/glue/에서 열고 [분류자(Classifiers)] 탭을 선택하여 생성한 모든 분류자에 대한 목록을 봅니다.

분류자 목록은 각 분류자에 대한 다음 속성을 표시합니다.

분류자 - 분류자 이름입니다. 분류자를 생성할 때는 분류자 이름을 제공해야 합니다.
[분류(Classification)] – 분류자가 유추한 테이블의 분류자 유형입니다.
[마지막 업데이트(Last updated) – 이 분류자가 업데이트된 마지막 시간입니다.

분류자 관리

AWS Glue 콘솔의 [분류자(Classifiers)] 목록에서 분류자를 추가, 편집 및 삭제할 수 있습니다. 목록에서 분류자 이름을 선택하여 분류자에 대한 더 자세한 정보를 알아봅니다. 세부 정보는 분류자를 생성할 때 정의한 정보를 포함합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

다양한 데이터 형식에 대한 사용자 지정 분류자 작성

크롤러 구성