크롤러를 사용하여 테이블 추가 - Amazon Athena

크롤러를 사용하여 테이블 추가

AWS Glue 크롤러는 데이터 집합의 스키마를 검색하고 AWS Glue 데이터 카탈로그에 테이블로 등록하는 데 도움이 됩니다. 크롤러는 데이터를 살펴보고 스키마를 결정합니다. 뿐만 아니라 파티션도 찾고 등록할 수 있습니다. 자세한 내용은 AWS Glue 개발자 안내서크롤러 정의를 참조하세요. 성공적으로 크롤링된 데이터의 테이블은 Athena에서 쿼리할 수 있습니다.

참고

Athena는 AWS Glue 크롤러에 지정한 제외 패턴을 인식하지 못합니다. 예를 들어 .csv.json 파일이 모두 포함된 Amazon S3 버킷이 있는데 .json 파일을 크롤러에서 제외한다면 Athena는 두 파일 그룹을 모두 쿼리합니다. 이 문제를 방지하려면 제외할 파일을 다른 위치에 배치하면 됩니다.

AWS Glue 크롤러 생성

Athena 콘솔에서 크롤러를 시작한 다음 통합된 방식으로 AWS Glue 콘솔을 사용하여 크롤러를 생성할 수 있습니다. 크롤러를 생성할 때 크롤링할 Amazon S3의 데이터 위치를 지정합니다.

Athena 콘솔에서 시작하여 AWS Glue에서 크롤러 생성
  1. https://console.aws.amazon.com/athena/에서 Athena 콘솔을 엽니다.

  2. 쿼리 편집기에서 테이블 및 뷰(Tables and views) 옆에 있는 생성(Create)을 선택한 다음 AWS Glue 크롤러(Glue crawler)를 선택합니다.

  3. AWS Glue 콘솔의 크롤러 추가 페이지에서 단계에 따라 크롤러를 생성합니다. 자세한 내용은 이 설명서의 AWS Glue 크롤러 사용AWS Glue 개발자 안내서AWS Glue Data Catalog 채우기를 참조하세요.

참고

Athena는 AWS Glue 크롤러에 지정한 제외 패턴을 인식하지 못합니다. 예를 들어 .csv.json 파일이 모두 포함된 Amazon S3 버킷이 있는데 .json 파일을 크롤러에서 제외한다면 Athena는 두 파일 그룹을 모두 쿼리합니다. 이 문제를 방지하려면 제외할 파일을 다른 위치에 배치하면 됩니다.

크롤링 후 AWS Glue 크롤러는 Apache Hive, Presto 및 Spark 등 다른 외부 기술과 호환되도록 특정 테이블 메타데이터를 자동으로 할당합니다. 경우에 따라 크롤러가 메타데이터 속성을 잘못 할당할 수 있습니다. Athena를 사용하여 테이블을 쿼리하기 전에 AWS Glue의 속성을 수동으로 수정하세요. 자세한 내용은 AWS Glue 개발자 안내서테이블 세부 정보 보기 및 편집을 참조하세요.

CSV 파일에 각 데이터 필드를 묶는 인용 부호가 있으면 serializationLib 속성이 잘못되어 AWS Glue이(가) 메타데이터를 잘못 할당할 수 있습니다. 자세한 내용은 따옴표로 묶은 CSV 데이터 취급 단원을 참조하십시오.