AWS Glue의 증분 크롤링 - AWS Glue

AWS Glue의 증분 크롤링

Amazon Simple Storage Service(Amazon S3) 데이터 원본의 경우 증분 크롤링은 마지막 크롤러 실행 이후에 추가된 폴더만 크롤링합니다. 이 옵션이 없으면 크롤러가 전체 데이터 집합을 크롤링합니다. 증분 크롤링으로 상당한 시간과 비용을 절약할 수 있습니다. 증분 크롤링을 수행하려면 AWS Glue 콘솔에서 [새 폴더만 크롤링(Crawl new folders only)] 옵션을 설정하거나 API의 CreateCrawler 요청에서 RecrawlPolicy 속성을 설정할 수 있습니다.

증분 크롤링은 안정적인 테이블 스키마가 있는 증분 데이터 집합에 가장 적합합니다. 각 크롤링 중에 새 파티션이 추가되는 예약된 크롤러에 많이 사용됩니다. 새 테이블은 추가되지 않습니다. 크롤러는 파티션 생성 시기를 어떻게 결정하나요?의 예를 계속하면 다음 다이어그램은 3월(March)의 파일이 추가되었음을 보여줍니다.


          폴더(사각형) 계층 구조는 단일 하위 폴더 day=1과 함께 3월(March)에 대한 사각형이 추가된다는 점을 제외하고 이전 이미지와 동일합니다. 해당 하위 폴더에는 4개의 파일이 있습니다.

[새 폴더만 크롤링(Crawl new folders only)] 옵션을 설정하면 새 폴더인 month=Mar만 크롤링됩니다.

증분 크롤링에 대한 참고 및 제한 사항

증분 크롤링에 대한 다음 추가 정보에 유의합니다.

  • 증분 크롤링의 모범 사례는 먼저 대상 데이터 집합에서 전체 크롤링을 실행하여 크롤러가 초기 스키마 및 파티션 구조를 기록할 수 있도록 하는 것입니다.

  • 이 옵션이 설정되어 있으면 크롤러를 편집할 때 Amazon S3 대상 데이터 스토어를 변경할 수 없습니다.

  • 이 옵션은 특정 크롤러 구성 설정에 영향을 줍니다. 설정하면 크롤러의 업데이트 동작 및 삭제 동작이 LOG에 기록됩니다. 이는 다음을 의미합니다.

    • 증분 크롤링이 Data Catalog에 기록된 스키마와 충분히 다른 스키마가 있는 객체를 검색하여 크롤러가 새 파티션을 생성할 수 없는 경우 크롤러는 해당 객체를 무시하고 CloudWatch Logs에 이벤트를 기록합니다.

    • 증분 크롤링이 삭제된 객체를 검색하면 해당 객체를 무시하고 Data Catalog를 업데이트하지 않습니다.

    자세한 정보는 크롤러 구성 옵션 설정을 참조하십시오.

  • 증분 크롤링이 추가된 여러 개의 새 파티션 또는 폴더를 검색하는 경우 크롤러가 이를 성공적으로 추가할 수 있도록 대부분은 Data Catalog에 기록된 스키마와 일치해야 합니다. 그렇지 않으면 스키마 종류가 너무 많아 크롤러가 파티션을 추가하지 못할 수 있습니다.