AWS Glue
개발자 안내서

AWS Glue 데이터 카탈로그의 테이블을 정의합니다.

AWS Glue에서 테이블을 정의하면 테이블에 저장된 데이터 유형 및 형식을 나타내는 분류자 값도 지정합니다. 크롤러가 테이블을 생성하면 분류자는 내장된 분류자 또는 사용자 지정 분류자에 의해 결정됩니다. 수동으로 혹은 API를 사용하여 콘솔에 테이블을 생성하려면 테이블을 정의할 때 분류를 지정합니다. AWS Glue 콘솔을 사용하여 테이블 생성에 대한 자세한 내용은 AWS Glue 콘솔에서 테이블 관련 작업 단원을 참조하십시오.

크롤러가 테이블 메타데이터의 변화를 감지하면 새로운 버전의 테이블이 AWS Glue 데이터 카탈로그에 생성됩니다. 현재와 과거 버전의 테이블을 비교할 수 있습니다.

테이블의 스키마는 구조를 포함합니다. 스키마를 편집할 수도 있어 새로운 버전의 테이블을 생성합니다.

테이블 기록은 Data Catalog에서도 유지됩니다. 이 기록은 추출, 변환 및 로드(ETL) 작업에 의해 데이터가 업데이트될 때 모여지는 지표를 포함합니다. 작업 이름, 실행 시간, 열 추가 방법 및 작업이 실행될 때까지 시간을 찾을 수 있습니다. 기록에 있는 ETL 작업에 사용되는 스키마 버전.

테이블 파티션

() 폴더의 테이블 정의는 파티션된 테이블을 설명할 수 있습니다. 예를 들어, 쿼리 성능을 향상시키려면 파티션된 테이블이 매월 데이터를 키로써 매월 이름을 사용하여 다른 파일로 나눠야 합니다. AWS Glue에서 테이블의 파티션된 키가 테이블 정의에 포함됩니다. AWS Glue가 Amazon S3의 데이터를 평가하여 테이블을 분류하면 개별 테이블인지 또는 추가된 파티션된 테이블인지 결정합니다.

AWS Glue가 Amazon S3 폴더의 파티션된 테이블을 생성하는 것으로 간주하려면 모든 조건이 true여야 합니다.

  • AWS Glue가 결정함에 따라 파일의 스키마는 비슷합니다.

  • 파일의 데이터 형식은 동일합니다.

  • 파일의 압축 형식은 동일합니다.

예를 들어, iOS 및 안드로이드 앱 세일 데이터 모두를 저장할 수 있는 로 명명된 버킷을 소유할 수 있습니다. 데이터는 연, 월, 일별로 분할되어 있습니다. iOS 및 안드로이드 세일 데이터 파일은 동일한 스키마, 데이터 포맷 및 압축 포맷을 가지고 있습니다. AWS Glue 데이터 카탈로그에서 AWS Glue 크롤러는 연, 월, 일별 파티션 키와 함께 하나의 테이블 정의를 생성합니다.

를 기록한 다음 예제는 몇 가지 파티션을 보여 줍니다. = 부호는 파티션 키 값을 지정할 때 사용됩니다.

my-app-bucket/Sales/year='2010'/month='feb'/day='1'/iOS.csv my-app-bucket/Sales/year='2010'/month='feb'/day='1'/Android.csv my-app-bucket/Sales/year='2010'/month='feb'/day='2'/iOS.csv my-app-bucket/Sales/year='2010'/month='feb'/day='2'/Android.csv ... my-app-bucket/Sales/year='2017'/month='feb'/day='4'/iOS.csv my-app-bucket/Sales/year='2017'/month='feb'/day='4'/Android.csv

이 페이지에서: