AWS Glue에 새 파티션을 추가하기 위한 점진적인 크롤링 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Glue에 새 파티션을 추가하기 위한 점진적인 크롤링

크롤러는 새 파티션을 추가하는 옵션을 제공하므로 안정적인 테이블 스키마가 있는 증분 데이터 세트의 크롤링이 더 빨라집니다. 각 크롤링 중에 새 파티션이 추가되는 예약된 크롤러에 많이 사용됩니다. 이 옵션을 켜면 먼저 크롤러가 초기 스키마 및 파티션 구조를 기록할 수 있도록 대상 데이터 세트에서 완전한 크롤링이 실행됩니다. 다시 크롤링하는 중에 스키마가 호환되는 경우 새 파티션이 기존 테이블에 추가됩니다. 스키마는 변경되지 않으며 첫 번째 크롤링 실행 후 데이터 카탈로그에 새 테이블이 추가되지 않습니다.

Amazon S3 데이터 소스를 설정할 때 이 옵션을 사용할 수 있습니다. CreateCrawler API에서 RecrawlBehavior이(가) 포함된 RecrawlPolicy을(를) "Crawl_New_Folders"로 설정하거나 후속 크롤러가 콘솔에서 새 하위 폴더만 크롤링으로 실행할 수 있습니다.

크롤러는 파티션 생성 시기를 어떻게 결정하나요?의 예를 계속하면 다음 다이어그램은 3월(March)의 파일이 추가되었음을 보여줍니다.


          다음 다이어그램은 3월의 파일이 추가되었음을 보여줍니다.

RecrawlBehavior을(를) "Crawl_New_Folders" 옵션으로 설정하면 새 폴더인 month=Mar만 크롤링됩니다.

규칙 및 제한

이 옵션이 설정되어 있으면 크롤러를 편집할 때 Amazon S3 대상 데이터 스토어를 변경할 수 없습니다. 이 옵션은 특정 크롤러 구성 설정에 영향을 줍니다. 설정하면 크롤러의 업데이트 동작 및 삭제 동작이 LOG에 기록됩니다. 이는 다음을 의미합니다.

  • 스키마가 호환되지 않는 객체를 발견하면 크롤러는 해당 객체를 데이터 카탈로그에 추가하지 않고 이 세부 정보를 로그인 로그로 추가합니다. CloudWatch

  • 데이터 카탈로그의 삭제된 개체는 업데이트되지 않습니다.

자세한 내용은 크롤러 구성 옵션 설정을(를) 참조하세요.