Crawler가 생성할 수 있는 최대 테이블 수 지정 - AWS 글루

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Crawler가 생성할 수 있는 최대 테이블 수 지정

AWS Glue 콘솔을 TableThreshold 통해 a 또는 를 지정하여 크롤러가 생성할 수 있는 최대 테이블 수를 선택적으로 지정할 수 있습니다. CLI 크롤링 중 크롤러가 탐지한 테이블이 이 입력 값보다 크면 크롤링이 실패하고 데이터 카탈로그에 데이터가 기록되지 않습니다.

이 파라미터는 크롤러에 의해 탐지되고 생성되는 테이블이 예상보다 훨씬 큰 경우에 유용합니다. 다음과 같은 여러 가지 이유가 있을 수 있습니다.

  • AWS Glue 작업을 사용하여 Amazon S3 위치를 채우면 폴더와 같은 레벨에 빈 파일이 생길 수 있습니다. 이러한 경우 이 Amazon S3 위치에서 크롤러를 실행하면 파일 및 폴더가 동일한 수준에 있기 때문에 크롤러가 여러 테이블을 생성합니다.

  • "TableGroupingPolicy": "CombineCompatibleSchemas"를 설정하지 않으면 예상보다 많은 테이블이 생성될 수 있습니다.

TableThreshold를 0보다 큰 정수 값으로 지정합니다. 이 값은 크롤러별로 구성됩니다. 즉, 모든 크롤링에 대해 이 값이 고려됩니다. 예: 크롤러의 TableThreshold 값이 5로 설정되어 있습니다. 각 크롤링에서 탐지된 테이블 수를 이 테이블 임계값 (5) 과 AWS Glue 비교하고, 감지된 테이블 수가 5개 미만이면 테이블을 데이터 카탈로그에 AWS Glue 쓰고, 그렇지 않으면 데이터 카탈로그에 기록하지 않으면 크롤링이 실패합니다.

콘솔

콘솔을 TableThreshold 사용하여 설정하려면: AWS

AWS 콘솔의 출력 및 예약 섹션에는 최대 테이블 임계값 매개변수가 표시됩니다.
CLI

다음을 TableThreshold 사용하여 설정하려면: AWS CLI

"{"Version":1.0, "CrawlerOutput": {"Tables":{"AddOrUpdateBehavior":"MergeNewColumns", "TableThreshold":5}}}";

테이블 경로를 식별하고 데이터를 정리하는 데 도움이 되도록 오류 메시지가 기록됩니다. 다음은 테이블 수가 제공된 테이블 임곗값보다 커서 크롤러가 실패한 경우 계정의 예제 로그입니다.

Table Threshold value = 28, Tables detected - 29

CloudWatch에서는 감지된 모든 테이블 위치를 INFO 메시지로 기록합니다. 오류가 실패 원인으로 기록됩니다.

ERROR com.amazonaws.services.glue.customerLogs.CustomerLogService - CustomerLogService received CustomerFacingException with message The number of tables detected by crawler: 29 is greater than the table threshold value provided: 28. Failing crawler without writing to Data Catalog. com.amazonaws.services.glue.exceptions.CustomerFacingInternalException: The number of tables detected by crawler: 29 is greater than the table threshold value provided: 28. Failing crawler without writing to Data Catalog.