AWS Glue 콘솔에서 크롤러 작업 - AWS Glue

AWS Glue 콘솔에서 크롤러 작업

크롤러가 데이터 스토어로 액세스하고 메타데이터를 추출하고 AWS Glue Data Catalog의 테이블 정의를 생성합니다. AWS Glue 콘솔의 [크롤러(Crawlers)] 창에는 생성한 모든 크롤러가 나열됩니다. 목록은 크롤러 마지막 실행의 상태와 지표를 보여줍니다.

콘솔을 사용하여 크롤러를 추가합니다.
  1. AWS Management Console에 로그인하여 AWS Glue 콘솔을 https://console.aws.amazon.com/glue/에서 엽니다. 탐색 창에서 크롤러를 선택합니다.

  2. Add crawle(크롤러 추가하기)를 선택하고 Add crawle(크롤러 추가하기)의 지시를 따릅니다.

    참고

    크롤러 추가에 대한 단계별 지침을 보려면 탐색 창의 [튜토리얼(Tutorials)]에서 [크롤러 추가(Add crawler)]를 선택합니다. [크롤러 추가(Add crawler)] 마법사를 사용하여 Amazon Simple Storage Service(Amazon S3) 데이터 스토어에 대한 권한이 포함된 정책을 연결하는 IAM 역할을 생성하고 수정할 수도 있습니다.

    선택에 따라 태그 키 와 선택 사항인 태그 값으로 크롤러에 태그를 지정할 수 있습니다. 생성된 태그 키는 읽기 전용입니다. 일부 리소스에서 태그를 이용하면 리소스를 정리하고 식별하는 데 도움이 됩니다. 자세한 정보는 AWS Glue의 AWS 태그을 참조하십시오.

    선택적으로 크롤러에 보안 구성을 추가하여 저장 데이터 암호화 옵션을 지정할 수 있습니다.

크롤러 실행 시. 제공된 IAM 역할에 크롤된 데이터 저장소에 액세스할 수 있는 권한이 있어야 합니다.

JDBC 데이터 스토어를 크롤러할 때 연결이 필요합니다. 자세한 정보는 AWS Glue 연결 추가을 참조하십시오. 제외 경로는 포함 경로와 상대적입니다. 예를 들어 테이블에서 JDBC 데이트 스토어에서 테이블을 제외하기 위해서 테이블 이름을 제외 경로에 입력합니다.

DynamoDB 테이블을 크롤할 때 계정의 DynamoDB 테이블 목록에서 테이블 이름 하나를 선택할 수 있습니다.

작은 정보

크롤러 구성에 대한 자세한 내용은 크롤러 속성 섹션을 참조하세요.

크롤러 결과 및 세부 정보 보기

크롤러 결과 및 세부 정보 보기

크롤러가 성공적으로 실행되면 Data Catalog에 테이블 정의가 생성됩니다. 탐색 창에서 [테이블(Tables)] 탭을 선택하여 지정한 데이터베이스의 크롤러가 생성한 테이블을 살펴봅니다.

다음과 같이 크롤러 자체와 관련된 정보를 볼 수 있습니다.

  • AWS Glue 콘솔의 [크롤러(Crawlers)] 페이지에는 크롤러에 대한 다음 속성이 표시됩니다.

    속성 설명
    이름

    크롤러를 생성하는 경우, 고유 이름을 붙여야 합니다.

    상태

    크롤러는 준비, 시작, 중지, 예약 및 예약 중지 상태일 수 있습니다. 실행 중인 크롤러는 시작에서 중지까지 진행합니다. 크롤러 예약을 재개하거나 중단할 수 있습니다.

    Schedule

    필요에 따라 크롤러를 실행하거나 일정 빈도수를 선택합니다. 크롤러 예약에 대한 자세한 내용은 크롤러 일정 관리를 참조하십시오.

    마지막 실행(Last run)

    크롤러가 마지막으로 실행된 날짜 및 시간입니다.

    로그(Log)

    크롤러의 마지막 실행에 대한 사용 가능한 로그에 대한 링크.

    마지막 실행 이후의 테이블 변경 사항(Tables changes from last run)

    크롤러의 마지막 실행에 따라 업데이트된 AWS Glue Data Catalog의 테이블 수입니다.

  • 크롤러의 기록을 보려면 탐색 창에서 Crawlers(크롤러)를 선택하여 생성한 크롤러를 확인합니다. 사용 가능한 크롤러 목록에서 크롤러를 선택합니다. Crawler runs(크롤러 실행) 탭에서 크롤러 속성과 크롤러 기록을 볼 수 있습니다.

    Crawler runs(크롤러 실행) 탭에는 Start time (UTC)(시작 시간(UTC)), End time (UTC)(종료 시간(UTC)), Duration(기간), Status(상태), DPU hours(DPU 시간) 및 Table changes(테이블 변경)를 비롯하여 크롤러가 실행된 각 시간에 대한 정보가 표시됩니다.

    
                        스크린샷은 크롤러의 세부 정보를 볼 때 Crawler runs(크롤러 실행) 탭을 보여줍니다.
  • 추가 정보를 보려면 크롤러 세부 정보 페이지에서 탭을 선택합니다. 각 탭에는 크롤러 관련 정보가 표시됩니다.

    • Schedule(일정): 크롤러에 대해 생성된 모든 일정이 여기에 표시됩니다.

    • Data sources(데이터 소스): 크롤러에서 스캔한 모든 데이터 소스가 여기에 표시됩니다.

    • Classifiers(분류자): 크롤러에 할당된 모든 분류자가 여기에 표시됩니다.

    • Tags(태그): 생성되고 AWS 리소스에 할당된 모든 태그가 여기에 표시됩니다.