크롤러 API - AWS Glue

크롤러 API

크롤러 API는 크롤러를 생성, 삭제, 업데이트 및 나열하기 위한 API와 함께 AWS Glue 크롤러 데이터 유형에 대해 설명합니다.

데이터 타입

크롤러 구조

데이터 원본을 검사하는 크롤러 프로그램을 지정하고 분류자를 사용하여 스키마를 결정합니다. 성공적이면 크롤러는 AWS Glue Data Catalog의 데이터 원본을 고려하여 메타데이터를 기록합니다.

필드
  • NameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    크롤러의 이름입니다.

  • Role – UTF-8 문자열입니다.

    Amazon Simple Storage Service(Amazon S3) 데이터 등의 고객 리소스에 액세스하는 데 사용되는 IAM 역할의 Amazon 리소스 이름(ARN)입니다.

  • TargetsCrawlerTargets 객체입니다.

    크롤할 대상 모음입니다.

  • DatabaseName – UTF-8 문자열입니다.

    크롤러의 출력이 저장되는 데이터베이스의 이름입니다.

  • DescriptionURI address multi-line string pattern과(와) 일치하는 2,048바이트 이하 길이의 설명 문자열입니다.

    크롤러에 대한 설명.

  • Classifiers – UTF-8 문자열의 배열입니다.

    크롤러와 연결된 사용자 지정 분류자를 지정하는 UTF-8 문자열 목록입니다.

  • RecrawlPolicyRecrawlPolicy 객체입니다.

    전체 데이터 집합을 다시 크롤링할지 아니면 마지막 크롤러 실행 이후 추가된 폴더만 크롤링할지 지정하는 정책입니다.

  • SchemaChangePolicySchemaChangePolicy 객체입니다.

    크롤러에 대한 업데이트 및 삭제 동작을 지정하는 정책입니다.

  • LineageConfigurationLineageConfiguration 객체입니다.

    크롤러에 대해 데이터 계보가 사용되는지 여부를 지정하는 구성입니다.

  • State – UTF-8 문자열입니다(유효 값: READY | RUNNING | STOPPING).

    크롤러가 실행되거나 실행되지 않았는지 여부를 나타냅니다.

  • TablePrefix – 128바이트 이하 길이의 UTF-8 문자열입니다.

    생성된 테이블 이름에 추가된 접두사.

  • Schedule일정 객체입니다.

    일정이 짜여진 크롤러를 위한 크롤러가 실행될 때의 일정.

  • CrawlElapsedTime - 숫자(정수)입니다.

    크롤러가 실행되면 마지막 크롤이 시작된 후부터 총 경과 시간.

  • CreationTime – 타임스탬프입니다.

    크롤러가 생성된 시간.

  • LastUpdated – 타임스탬프입니다.

    크롤러가 마지막으로 업데이트된 시간.

  • LastCrawlLastCrawlInfo 객체입니다.

    마지막 크롤 상태 및 오류가 발생한 잠재적 오류 정보.

  • Version - 숫자(정수)입니다.

    크롤러 버전.

  • Configuration – UTF-8 문자열입니다.

    크롤러 구성 정보. 이 버전의 JSON 문자열은 사용자가 크롤러 동작을 지정할 수 있게 만듭니다. 자세한 내용을 알아보려면 크롤러 구성 옵션 설정을 참조하세요.

  • CrawlerSecurityConfiguration – 128바이트 이하 길이의 UTF-8 문자열입니다.

    이 크롤러가 사용할 SecurityConfiguration 구조의 이름입니다.

  • LakeFormationConfigurationLakeFormationConfiguration 객체입니다.

    크롤러가 IAM 역할 자격 증명 대신 AWS Lake Formation 자격 증명을 크롤러에 사용해야 하는지 지정합니다.

일정 구조

cron을 사용하여 객체의 일정을 정하여 이벤트의 일정을 정합니다.

필드
  • ScheduleExpression – UTF-8 문자열입니다.

    일정을 지정하는 데 사용되는 cron 표현식입니다(작업 및 크롤러의 시간 기반 일정 참조). 예를 들어, 매일 오후 12시 15분(UTC)에 실행하려면 cron(15 12 * * ? *)을 지정합니다.

  • State – UTF-8 문자열입니다(유효 값: SCHEDULED | NOT_SCHEDULED | TRANSITIONING).

    일정 상태

CrawlerTargets 구조

크롤할 데이터 스토어 지정.

필드
  • S3TargetsS3Target 객체의 배열입니다.

    Amazon Simple Storage Service(Amazon S3) 대상을 지정합니다.

  • JdbcTargetsJdbcTarget 객체의 배열입니다.

    JDBC 대상 지정

  • MongoDBTargetsMongoDBTarget 객체의 배열입니다.

    Amazon DocumentDB 또는 MongoDB 대상을 지정합니다.

  • DynamoDBTargetsDynamoDBTarget 객체의 배열입니다.

    Amazon DynamoDB 대상을 지정합니다.

  • CatalogTargetsCatalogTarget 객체의 배열입니다.

    AWS Glue Data Catalog 대상을 지정합니다.

  • DeltaTargetsDeltaTarget 객체의 배열입니다.

    델타 데이터 스토어 대상을 지정합니다.

  • IcebergTargetsIcebergTarget 객체의 배열입니다.

    Apache Iceberg 데이터 스토어 대상을 지정합니다.

  • HudiTargetsHudiTarget 객체의 배열입니다.

    Apache Hudi 데이터 스토어 대상을 지정합니다.

S3Target 구조

Amazon Simple Storage Service(Amazon S3)의 데이터 스토어를 지정합니다.

필드
  • Path – UTF-8 문자열입니다.

    Amazon S3 대상에 대한 경로입니다.

  • Exclusions – UTF-8 문자열의 배열입니다.

    크롤링에서 제외하는 데 사용되는 glob 패턴 목록입니다. 자세한 내용은 크롤러를 사용하여 테이블 분류를 참조하십시오.

  • ConnectionName – UTF-8 문자열입니다.

    작업 또는 크롤러가 Amazon Virtual Private Cloud 환경(Amazon VPC) 내에서 Amazon S3의 데이터에 액세스할 수 있도록 허용하는 연결 이름입니다.

  • SampleSize - 숫자(정수)입니다.

    데이터 집합의 샘플 파일을 크롤링할 때 크롤링할 각 리프 폴더의 파일 수를 설정합니다. 설정하지 않으면 모든 파일이 크롤링됩니다. 유효한 값은 1~249의 정수입니다.

  • EventQueueArn – UTF-8 문자열입니다.

    유효한 Amazon SQS ARN입니다. 예를 들면 arn:aws:sqs:region:account:sqs입니다.

  • DlqEventQueueArn – UTF-8 문자열입니다.

    유효한 Amazon 배달 못한 편지 SQS ARN입니다. 예를 들면 arn:aws:sqs:region:account:deadLetterQueue입니다.

S3DeltaCatalogTarget 구조

AWS Glue 데이터 카탈로그의 Delta Lake 데이터 소스에 작성하는 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #37과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • PartitionKeys – UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Table필수: Custom string pattern #34과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스 테이블의 이름입니다.

  • Database필수: Custom string pattern #34과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 데이터베이스의 이름입니다.

  • AdditionalOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #34과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #34과(와) 일치하는 UTF-8 문자열입니다.

    커넥터에 대한 추가 연결 옵션을 지정합니다.

  • SchemaChangePolicyCatalogSchemaChangePolicy 객체입니다.

    크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

S3DeltaDirectTarget 구조

Amazon S3에서 Delta Lake 데이터 소스에 작성하는 대상을 지정합니다.

필드
  • Name필수: Custom string pattern #37과(와) 일치하는 UTF-8 문자열입니다.

    데이터 대상의 이름입니다.

  • Inputs필수(Required): UTF-8 문자열의 배열(1개 이상)입니다.

    데이터 대상에 대한 입력인 노드입니다.

  • PartitionKeys – UTF-8 문자열의 배열입니다.

    일련의 키를 사용하여 기본 분할을 지정합니다.

  • Path필수: Custom string pattern #34과(와) 일치하는 UTF-8 문자열입니다.

    쓰기를 수행할 Delta Lake 데이터 소스의 Amazon S3 경로입니다.

  • Compression필수: UTF-8 문자열입니다(유효한 값: uncompressed="UNCOMPRESSED" | snappy="SNAPPY").

    데이터 압축 방식을 지정합니다. 이 작업은 데이터에 표준 파일 확장자가 있는 경우에는 필요하지 않습니다. 가능한 값은 "gzip""bzip"입니다).

  • Format필수: UTF-8 문자열입니다(유효한 값: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    대상에 대한 데이터 출력 포맷을 지정합니다.

  • AdditionalOptions – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #34과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 Custom string pattern #34과(와) 일치하는 UTF-8 문자열입니다.

    커넥터에 대한 추가 연결 옵션을 지정합니다.

  • SchemaChangePolicyDirectSchemaChangePolicy 객체입니다.

    크롤러에 대한 업데이트 동작을 지정하는 정책입니다.

JdbcTarget 구조

크롤할 JDBC 데이터 스토어 지정.

필드
  • ConnectionName – UTF-8 문자열입니다.

    JDBC 대상에 연결할 연결 이름입니다.

  • Path – UTF-8 문자열입니다.

    JDBC 대상의 경로입니다.

  • Exclusions – UTF-8 문자열의 배열입니다.

    크롤링에서 제외하는 데 사용되는 glob 패턴 목록입니다. 자세한 내용은 크롤러를 사용하여 테이블 분류를 참조하십시오.

  • EnableAdditionalMetadata – UTF-8 문자열의 배열입니다.

    RAWTYPES 또는 COMMENTS 값을 지정하여 테이블 응답에서 추가 메타데이터를 활성화합니다. RAWTYPES는 기본 레벨 데이터 유형을 제공합니다. COMMENTS는 데이터베이스의 열 또는 테이블과 연결된 설명을 제공합니다.

    추가 메타데이터가 필요하지 않은 경우 필드를 비워 두세요.

MongoDBTarget 구조

크롤링할 Amazon DocumentDB 또는 MongoDB 데이터 스토어를 지정합니다.

필드
  • ConnectionName – UTF-8 문자열입니다.

    Amazon DocumentDB 또는 MongoDB 대상에 연결하는 데 사용할 연결 이름입니다.

  • Path – UTF-8 문자열입니다.

    Amazon DocumentDB 또는 MongoDB 대상(데이터베이스/컬렉션)의 경로입니다.

  • ScanAll – 부울입니다.

    모든 레코드를 스캔할지 또는 테이블에서 행을 샘플링할지 여부를 나타냅니다. 테이블이 높은 처리량 테이블이 아닌 경우 모든 레코드를 스캔하는 데 시간이 오래 걸릴 수 있습니다.

    true 값은 모든 레코드를 스캔하는 것을 의미하고 false 값은 레코드를 샘플링하는 것을 의미합니다. 값을 지정하지 않으면 기본값은 true입니다.

DynamoDBTarget 구조

크롤할 Amazon DynamoDB 테이블을 지정합니다.

필드
  • Path – UTF-8 문자열입니다.

    크롤할 DynamoDB 테이블의 이름입니다.

  • scanAll – 부울입니다.

    모든 레코드를 스캔할지 또는 테이블에서 행을 샘플링할지 여부를 나타냅니다. 테이블이 높은 처리량 테이블이 아닌 경우 모든 레코드를 스캔하는 데 시간이 오래 걸릴 수 있습니다.

    true 값은 모든 레코드를 스캔하는 것을 의미하고 false 값은 레코드를 샘플링하는 것을 의미합니다. 값을 지정하지 않으면 기본값은 true입니다.

  • scanRate - 숫자(double)입니다.

    AWS Glue 크롤러에서 사용할 구성된 읽기 용량 단위의 비율입니다. 읽기 용량 단위는 DynamoDB에서 정의한 용어이며, 초당 해당 테이블에서 수행할 수 있는 읽기 수에 대한 속도 제한기 역할을 하는 숫자 값입니다.

    유효한 값은 null 또는 0.1~1.5의 값입니다. null 값은 사용자가 값을 제공하지 않을 때 사용되며, 기본값은 구성된 읽기 용량 단위의 0.5(프로비저닝된 테이블의 경우) 또는 구성된 최대 읽기 용량 단위의 0.25(온디맨드 모드를 사용하는 테이블의 경우)입니다.

DeltaTarget 구조

하나 이상의 델타 테이블을 크롤링할 델타 데이터 스토어를 지정합니다.

필드
  • DeltaTables – UTF-8 문자열의 배열입니다.

    델타 테이블에 대한 Amazon S3 경로 목록입니다.

  • ConnectionName – UTF-8 문자열입니다.

    델타 테이블 대상에 연결하는 데 사용할 연결 이름입니다.

  • WriteManifest – 부울입니다.

    매니페스트 파일을 델타 테이블 경로에 쓸지 지정합니다.

  • CreateNativeDeltaTable – 부울입니다.

    크롤러가 Delta 트랜잭션 로그의 쿼리를 직접 지원하는 쿼리 엔진과 통합할 수 있도록 기본 테이블을 생성할지 여부를 지정합니다.

IcebergTarget 구조

Amazon S3에서 Iceberg 테이블이 저장되는 Apache Iceberg 데이터 소스를 지정합니다.

필드
  • Paths – UTF-8 문자열의 배열입니다.

    Iceberg 메타데이터 폴더를 s3://bucket/prefix로 포함하는 하나 이상의 Amazon S3 경로입니다.

  • ConnectionName – UTF-8 문자열입니다.

    Iceberg 대상에 연결하는 데 사용할 연결 이름입니다.

  • Exclusions – UTF-8 문자열의 배열입니다.

    크롤링에서 제외하는 데 사용되는 glob 패턴 목록입니다. 자세한 내용은 크롤러를 사용하여 테이블 분류를 참조하십시오.

  • MaximumTraversalDepth - 숫자(정수)입니다.

    크롤러가 Amazon S3 경로에 있는 Iceberg 메타데이터 폴더를 검색하기 위해 탐색할 수 있는 Amazon S3 경로의 최대 깊이입니다. 크롤러 실행 시간을 제한하는 데 사용됩니다.

HudiTarget 구조

Apache Hudi 데이터 소스를 지정합니다.

필드
  • Paths – UTF-8 문자열의 배열입니다.

    Hudi의 Amazon S3 위치 문자열 배열로, 각각 Hudi 테이블의 메타데이터 파일이 있는 루트 폴더를 나타냅니다. Hudi 폴더는 루트 폴더의 하위 폴더에 있을 수 있습니다.

    크롤러는 경로 아래에 있는 모든 폴더에서 Hudi 폴더를 스캔합니다.

  • ConnectionName – UTF-8 문자열입니다.

    Hudi 대상에 연결하는 데 사용할 연결 이름입니다. VPC 인증이 필요한 버킷에 Hudi 파일이 저장된 경우 여기에서 연결 속성을 설정할 수 있습니다.

  • Exclusions – UTF-8 문자열의 배열입니다.

    크롤링에서 제외하는 데 사용되는 glob 패턴 목록입니다. 자세한 내용은 크롤러를 사용하여 테이블 분류를 참조하십시오.

  • MaximumTraversalDepth - 숫자(정수)입니다.

    크롤러가 Amazon S3 경로에 있는 Hudi 메타데이터 폴더를 검색하기 위해 탐색할 수 있는 Amazon S3 경로의 최대 깊이입니다. 크롤러 실행 시간을 제한하는 데 사용됩니다.

CatalogTarget 구조

AWS Glue Data Catalog 대상을 지정합니다.

필드
  • DatabaseName필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    동기화할 데이터베이스의 이름입니다.

  • Tables필수(Required): UTF-8 문자열의 배열이며 문자열은 1개 이상입니다.

    동기화할 테이블의 목록입니다.

  • ConnectionName – UTF-8 문자열입니다.

    NETWORK 연결 유형에 페어링된 Catalog 연결 유형을 사용할 때 Amazon S3 기반 데이터 카탈로그 테이블이 크롤링의 대상이 되도록 하는 연결의 이름입니다.

  • EventQueueArn – UTF-8 문자열입니다.

    유효한 Amazon SQS ARN입니다. 예를 들면 arn:aws:sqs:region:account:sqs입니다.

  • DlqEventQueueArn – UTF-8 문자열입니다.

    유효한 Amazon 배달 못한 편지 SQS ARN입니다. 예를 들면 arn:aws:sqs:region:account:deadLetterQueue입니다.

CrawlerMetrics 구조

지정한 크롤러에 대한 지표.

필드
  • CrawlerNameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    크롤러의 이름입니다.

  • TimeLeftSeconds – None 이하의 숫자(실수)입니다.

    크롤을 완료할 때까지 남은 예상 시간.

  • StillEstimating – 부울입니다.

    이 작업이 완료될 때까지 소요 시간을 여전히 추정하고 있다면 True입니다.

  • LastRuntimeSeconds – None 이하의 숫자(실수)입니다.

    초 단위의 크롤러의 최근 작업 실행 지속 시간.

  • MedianRuntimeSeconds – None 이하의 숫자(실수)입니다.

    초 단위의 크롤러의 평균 작업 실행 지속 시간.

  • TablesCreated – None 이하의 숫자(정수)입니다.

    이 크롤러가 생성한 테이블 수.

  • TablesUpdated – None 이하의 숫자(정수)입니다.

    이 크롤러가 업데이트한 테이블 수.

  • TablesDeleted – None 이하의 숫자(정수)입니다.

    이 크롤러가 삭제한 테이블 수.

CrawlerHistory 구조

크롤러 실행에 대한 정보가 포함되어 있습니다.

필드
  • CrawlId – UTF-8 문자열입니다.

    각 크롤링에 대한 UUID 식별자입니다.

  • State – UTF-8 문자열입니다(유효한 값: RUNNING | COMPLETED | FAILED | STOPPED).

    크롤의 상태.

  • StartTime – 타임스탬프입니다.

    크롤이 시작된 날짜와 시간입니다.

  • EndTime – 타임스탬프입니다.

    크롤이 시작된 날짜와 시간.

  • SummarySingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    JSON의 특정 크롤에 대한 실행 요약. 추가, 업데이트 또는 삭제된 카탈로그 테이블 및 파티션을 포함합니다.

  • ErrorMessageURI address multi-line string pattern과(와) 일치하는 2,048바이트 이하 길이의 설명 문자열입니다.

    (오류가 발생한 경우) 크롤과 연결된 오류 메시지.

  • LogGroupLog group string pattern과(와) 일치하는 1~512바이트 길이의 UTF-8 문자열입니다.

    크롤과 연결된 로그 그룹입니다.

  • LogStreamLog-stream string pattern과(와) 일치하는 1~512바이트 길이의 UTF-8 문자열입니다.

    크롤과 연결된 로그 스트림입니다.

  • MessagePrefixSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 크롤에 관한 CloudWatch 메시지 접두사.

  • DPUHour – None 이하의 숫자(실수)입니다.

    크롤에 사용된 DPU(데이터 처리 단위)의 수(시간 단위).

CrawlsFilter 구조

지정된 크롤러에 대한 크롤러 실행을 필터링하는 데 사용할 수 있는 필드, 비교기 및 값의 목록입니다.

필드
  • FieldName – UTF-8 문자열입니다(유효한 값: CRAWL_ID | STATE | START_TIME | END_TIME | DPU_HOUR).

    지정된 크롤러에 대한 크롤러 실행 필터링에 사용되는 키. 각 필드 이름에 유효한 값은 다음과 같습니다.

    • CRAWL_ID: 크롤링의 UUID 식별자를 나타내는 문자열.

    • STATE: 크롤의 상태를 나타내는 문자열.

    • START_TIMEEND_TIME: 밀리초 단위의 Epoch 타임스탬프.

    • DPU_HOUR: 크롤에 사용된 DPU(데이터 처리 단위)의 수(시간 단위).

  • FilterOperator – UTF-8 문자열입니다(유효 값: GT | GE | LT | LE | EQ | NE).

    값의 연산을 수행하는 정의된 비교기. 사용 가능한 연산자는 다음과 같습니다.

    • GT: 큼.

    • GE: 크거나 같음.

    • LT: 작음.

    • LE: 작거나 같음.

    • EQ: 같음.

    • NE: 같지 않음.

  • FieldValue – UTF-8 문자열입니다.

    크롤 필드에서 비교하기 위해 제공된 값입니다.

SchemaChangePolicy 구조

크롤러에 대한 업데이트 및 삭제 동작을 지정하는 정책입니다.

필드
  • UpdateBehavior – UTF-8 문자열입니다(유효 값: LOG | UPDATE_IN_DATABASE).

    크롤러가 변화된 객체를 찾을 때 업데이트 동작.

  • DeleteBehavior – UTF-8 문자열입니다(유효 값: LOG | DELETE_FROM_DATABASE | DEPRECATE_IN_DATABASE).

    크롤러가 변화된 혹은 삭제된 객체를 찾을 때 삭제 동작.

LastCrawlInfo 구조

최신 크롤의 상태 및 오류 정보.

필드
  • Status – UTF-8 문자열입니다(유효한 값: SUCCEEDED | CANCELLED | FAILED).

    최종 크롤 상태

  • ErrorMessageURI address multi-line string pattern과(와) 일치하는 2,048바이트 이하 길이의 설명 문자열입니다.

    오류가 발생할 때 마지막 크롤에 대한 오류 정보.

  • LogGroupLog group string pattern과(와) 일치하는 1~512바이트 길이의 UTF-8 문자열입니다.

    마지막 크롤의 로그 그룹.

  • LogStreamLog-stream string pattern과(와) 일치하는 1~512바이트 길이의 UTF-8 문자열입니다.

    마지막 크롤의 로그 스트림.

  • MessagePrefixSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 크롤 메시지에 대한 접두사.

  • StartTime – 타임스탬프입니다.

    크롤이 시작된 시간.

RecrawlPolicy 구조

첫 번째 크롤링이 완료된 후 Amazon S3 데이터 원본을 크롤링할 때 전체 데이터 집합을 다시 크롤링할지 아니면 마지막 크롤러 실행 이후에 추가된 폴더만 크롤링할지 지정합니다. 자세한 내용은 SageMaker 개발자 안내서의 AWS Glue의 증분 크롤링을 참조하세요.

필드
  • RecrawlBehavior – UTF-8 문자열입니다(유효한 값: CRAWL_EVERYTHING | CRAWL_NEW_FOLDERS_ONLY | CRAWL_EVENT_MODE).

    전체 데이터 집합을 다시 크롤링할지 아니면 마지막 크롤러 실행 이후 추가된 폴더만 크롤링할지 지정합니다.

    CRAWL_EVERYTHING은 전체 데이터 집합을 다시 크롤링하도록 지정합니다.

    CRAWL_NEW_FOLDERS_ONLY는 마지막 크롤러 실행 이후에 추가된 폴더만 크롤링하도록 지정합니다.

    CRAWL_EVENT_MODE는 Amazon S3 이벤트에서 식별된 변경 사항만 크롤링하도록 지정합니다.

LineageConfiguration 구조

크롤러에 대한 데이터 계보 구성 설정을 지정합니다.

필드
  • CrawlerLineageSettings – UTF-8 문자열입니다(유효 값: ENABLE | DISABLE).

    크롤러에 데이터 계보가 사용되는지 여부를 지정합니다. 유효한 값은 다음과 같습니다.

    • [사용(ENABLE)]: 크롤러에 데이터 계보를 사용합니다.

    • [사용 중지(DISABLE)]: 크롤러에 데이터 계보 사용을 중지합니다.

LakeFormationConfiguration 구조

크롤러에 대한 AWS Lake Formation 구성 설정을 지정합니다.

필드
  • UseLakeFormationCredentials – 부울입니다.

    IAM 역할 자격 증명 대신 AWS Lake Formation 자격 증명을 크롤러에 사용해야 하는지 지정합니다.

  • AccountId – UTF-8 문자열입니다(12바이트 이하).

    교차 계정 크롤링에 필요합니다. 대상 데이터와 동일한 계정 크롤링의 경우 이 값을 null로 둘 수 있습니다.

운영

CreateCrawler 작업(Python: create_crawler)

지정된 대상, 역할, 구성 및 선택 일정을 통해 새로운 크롤러를 생성합니다. s3Targets 필드, jdbcTargets 필드 또는 DynamoDBTargets 필드에서 크롤 대상을 하나 이상 지정해야 합니다.

요청
  • Name필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    새로운 크롤러의 이름.

  • Role필수(Required): UTF-8 문자열입니다.

    새로운 크롤러를 사용하여 고객 리소스에 액세스하는 IAM 역할 또는 IAM 역할의 Amazon 리소스 이름(ARN)입니다.

  • DatabaseName – UTF-8 문자열입니다.

    arn:aws:daylight:us-east-1::database/sometable/*와 같은 결과가 작성되는 AWS Glue 데이터베이스입니다.

  • DescriptionURI address multi-line string pattern과(와) 일치하는 2,048바이트 이하 길이의 설명 문자열입니다.

    새로운 크롤러에 대한 설명.

  • Targets필수(Required): CrawlerTargets 객체입니다.

    크롤할 대상 모음의 기록.

  • Schedule – UTF-8 문자열입니다.

    일정을 지정하는 데 사용되는 cron 표현식입니다(작업 및 크롤러의 시간 기반 일정 참조). 예를 들어, 매일 오후 12시 15분(UTC)에 실행하려면 cron(15 12 * * ? *)을 지정합니다.

  • Classifiers – UTF-8 문자열의 배열입니다.

    사용자가 등록한 사용자 지정 분류자 목록. 기본적으로 모든 기본 설정 분류자는 크롤러에 포함되지만 이 사용자 지정 분류자는 항상 주어진 분류에 대한 기본 분류자를 재정의합니다.

  • TablePrefix – 128바이트 이하 길이의 UTF-8 문자열입니다.

    생성된 카탈로그 테이블에 사용되는 테이블 접두사입니다.

  • SchemaChangePolicySchemaChangePolicy 객체입니다.

    크롤러의 업데이트 및 삭제 동작 정책입니다.

  • RecrawlPolicyRecrawlPolicy 객체입니다.

    전체 데이터 집합을 다시 크롤링할지 아니면 마지막 크롤러 실행 이후 추가된 폴더만 크롤링할지 지정하는 정책입니다.

  • LineageConfigurationLineageConfiguration 객체입니다.

    크롤러에 대한 데이터 계보 구성 설정을 지정합니다.

  • LakeFormationConfigurationLakeFormationConfiguration 객체입니다.

    크롤러에 대한 AWS Lake Formation 구성 설정을 지정합니다.

  • Configuration – UTF-8 문자열입니다.

    크롤러 구성 정보. 이 버전의 JSON 문자열은 사용자가 크롤러 동작을 지정할 수 있게 만듭니다. 자세한 내용을 알아보려면 크롤러 구성 옵션 설정을 참조하세요.

  • CrawlerSecurityConfiguration – 128바이트 이하 길이의 UTF-8 문자열입니다.

    이 크롤러가 사용할 SecurityConfiguration 구조의 이름입니다.

  • Tags – 50개 이하의 페어로 구성된 키-값 페어의 맵 배열입니다.

    각 키는 길이가 1~128바이트인 UTF-8 문자열입니다.

    각 값은 256 바이트 이하 길이의 UTF-8 문자열입니다.

    이 크롤러 요청에서 사용할 태그입니다. 태그를 사용하여 크롤러에 대한 액세스를 제한할 수 있습니다. AWS Glue의 태그에 대한 자세한 내용은 개발자 안내서의 AWS Glue의 AWS 태그를 참조하세요.

응답
  • 무응답 파라미터.

Errors
  • InvalidInputException

  • AlreadyExistsException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

DeleteCrawler 작업(Python: delete_crawler)

크롤러 상태가 RUNNING이 아닌 한, AWS Glue Data Catalog에서 지정한 크롤러를 제거합니다.

요청
  • Name필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    제거할 크롤러의 이름입니다.

응답
  • 무응답 파라미터.

Errors
  • EntityNotFoundException

  • CrawlerRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException

GetCrawler 작업(Python: get_crawler)

지정한 크롤러의 메타데이터 가져오기

요청
  • Name필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    메타데이터를 검색할 크롤러 이름입니다.

응답
  • Crawler크롤러 객체입니다.

    지정한 크롤러의 메타데이터

Errors
  • EntityNotFoundException

  • OperationTimeoutException

GetCrawlers 작업(Python: get_crawler)

사용자 계정에 정의된 모든 크롤러의 메타데이터를 가져옵니다.

요청
  • MaxResults – 1~1,000의 숫자(정수)입니다.

    각 호출에 따라 반환할 크롤러의 수입니다.

  • NextToken – UTF-8 문자열입니다.

    이것이 지속적인 요청이라면 지속적인 토큰입니다.

응답
  • Crawlers크롤러 객체의 배열입니다.

    크롤러 메타데이터의 목록.

  • NextToken – UTF-8 문자열입니다.

    이 사용자 계정에 정의된 것들의 끝에 반환된 목록이 도달하지 못한 경우, 지속적인 토큰입니다.

Errors
  • OperationTimeoutException

GetCrawlerMetrics Action(Python: get_crawler_metrics)

지정한 크롤러의 지표 가져오기

요청
  • CrawlerNameList – 100개 이하의 문자열로 구성된 UTF-8 문자열입니다.

    지표를 가져올 크롤러의 이름 목록.

  • MaxResults – 1~1,000의 숫자(정수)입니다.

    반환할 목록의 최대 크기.

  • NextToken – UTF-8 문자열입니다.

    이것이 지속적으로 호출되면 지속적인 토큰입니다.

응답
  • CrawlerMetricsListCrawlerMetrics 객체의 배열입니다.

    지정한 크롤러에 대한 지표 목록.

  • NextToken – UTF-8 문자열입니다.

    반환된 목록이 사용가능한 마지막 지표를 포함하지 경우의 연속 토큰입니다.

Errors
  • OperationTimeoutException

UpdateCrawler 작업(Python: update_crawler)

크롤러 업데이트. 크롤러가 실행 중이면 업데이트하기 전에는 StopCrawler를 사용하여 중지해야 합니다.

요청
  • Name필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    새로운 크롤러의 이름.

  • Role – UTF-8 문자열입니다.

    새로운 크롤러를 사용하여 고객 리소스에 액세스하는 IAM 역할 또는 IAM 역할의 Amazon 리소스 이름(ARN)입니다.

  • DatabaseName – UTF-8 문자열입니다.

    arn:aws:daylight:us-east-1::database/sometable/*와 같은 결과가 저장되는 AWS Glue 데이터베이스입니다.

  • DescriptionURI address multi-line string pattern과(와) 일치하는 2,048바이트 이하 길이의 UTF-8 문자열입니다.

    새로운 크롤러에 대한 설명.

  • TargetsCrawlerTargets 객체입니다.

    크롤할 대상 목록.

  • Schedule – UTF-8 문자열입니다.

    일정을 지정하는 데 사용되는 cron 표현식입니다(작업 및 크롤러의 시간 기반 일정 참조). 예를 들어, 매일 오후 12시 15분(UTC)에 실행하려면 cron(15 12 * * ? *)을 지정합니다.

  • Classifiers – UTF-8 문자열의 배열입니다.

    사용자가 등록한 사용자 지정 분류자 목록. 기본적으로 모든 기본 설정 분류자는 크롤러에 포함되지만 이 사용자 지정 분류자는 항상 주어진 분류에 대한 기본 분류자를 재정의합니다.

  • TablePrefix – 128바이트 이하 길이의 UTF-8 문자열입니다.

    생성된 카탈로그 테이블에 사용되는 테이블 접두사입니다.

  • SchemaChangePolicySchemaChangePolicy 객체입니다.

    크롤러의 업데이트 및 삭제 동작 정책입니다.

  • RecrawlPolicyRecrawlPolicy 객체입니다.

    전체 데이터 집합을 다시 크롤링할지 아니면 마지막 크롤러 실행 이후 추가된 폴더만 크롤링할지 지정하는 정책입니다.

  • LineageConfigurationLineageConfiguration 객체입니다.

    크롤러에 대한 데이터 계보 구성 설정을 지정합니다.

  • LakeFormationConfigurationLakeFormationConfiguration 객체입니다.

    크롤러에 대한 AWS Lake Formation 구성 설정을 지정합니다.

  • Configuration – UTF-8 문자열입니다.

    크롤러 구성 정보. 이 버전의 JSON 문자열은 사용자가 크롤러 동작을 지정할 수 있게 만듭니다. 자세한 내용을 알아보려면 크롤러 구성 옵션 설정을 참조하세요.

  • CrawlerSecurityConfiguration – 128바이트 이하 길이의 UTF-8 문자열입니다.

    이 크롤러가 사용할 SecurityConfiguration 구조의 이름입니다.

응답
  • 무응답 파라미터.

Errors
  • InvalidInputException

  • VersionMismatchException

  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StartCrawler 작업(Python: start_crawler)

어떤 일정이든지 지정된 크롤러를 사용하여 크롤러를 시작합니다. 크롤러가 이미 실행 중이면 CrawlerRunningException을 반환합니다.

요청
  • Name필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    시작할 크롤러의 이름.

응답
  • 무응답 파라미터.

Errors
  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StopCrawler 작업(Python: stop_crawler)

지정된 크롤러가 실행 중이면 크롤러를 중지합니다.

요청
  • Name필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    중지할 크롤러의 이름.

응답
  • 무응답 파라미터.

Errors
  • EntityNotFoundException

  • CrawlerNotRunningException

  • CrawlerStoppingException

  • OperationTimeoutException

BatchGetCrawlers 작업(Python: batch_get_crawlers)

주어진 크롤러 이름 목록에 대한 리소스 메타데이터 목록을 반환합니다. ListCrawlers 작업을 호출한 후에는 권한이 부여된 데이터에 액세스하기 위해 이 작업을 호출할 수 있습니다. 이 작업은 태그를 사용하는 권한 조건을 포함해 모든 IAM 권한을 지원합니다.

요청
  • CrawlerNames필수(Required): 100개 이하의 문자열로 구성된 UTF-8 문자열입니다.

    크롤러 이름(ListCrawlers 작업에서 반환된 이름일 수 있음)의 목록입니다.

응답
  • Crawlers크롤러 객체의 배열입니다.

    크롤러 정의 목록.

  • CrawlersNotFound – 100개 이하의 문자열로 구성된 UTF-8 문자열입니다.

    찾을 수 없는 크롤러의 이름 목록입니다.

Errors
  • InvalidInputException

  • OperationTimeoutException

ListCrawlers 작업(Python: list_crawlers)

이 AWS 계정의 모든 크롤러 리소스의 이름 또는 지정된 태그를 가진 리소스를 검색합니다. 이 작업을 통해 계정에서 사용 가능한 리소스와 그 이름을 확인할 수 있습니다.

이 작업을 수행하면 응답에서 필터로 사용할 수 있는 선택 사항인 Tags 필드가 검색되기 때문에 태그가 지정된 리소스를 하나의 그룹으로 검색할 수 있습니다. 태그 필터링을 사용하기로 선택하면 태그가 포함된 리소스만 검색됩니다.

요청
  • MaxResults – 1~1,000의 숫자(정수)입니다.

    반환할 목록의 최대 크기.

  • NextToken – UTF-8 문자열입니다.

    이것이 지속적인 요청이라면 지속적인 토큰입니다.

  • Tags – 50개 이하의 페어로 구성된 키-값 페어의 맵 배열입니다.

    각 키는 길이가 1~128바이트인 UTF-8 문자열입니다.

    각 값은 256 바이트 이하 길이의 UTF-8 문자열입니다.

    이렇게 태그가 지정된 리소스만 반환하도록 지정합니다.

응답
  • CrawlerNames – 100개 이하의 문자열로 구성된 UTF-8 문자열입니다.

    계정의 모든 크롤러 또는 지정된 태그를 가진 크롤러의 이름.

  • NextToken – UTF-8 문자열입니다.

    반환된 목록이 사용가능한 마지막 지표를 포함하지 경우의 연속 토큰입니다.

Errors
  • OperationTimeoutException

ListCrawls 작업(Python: list_crawls)

지정된 크롤러에 대한 모든 크롤이 반환됩니다. 크롤러 기록 기능의 시작 날짜 이후 발생한 크롤만 반환되고 최대 12개월의 크롤만 유지됩니다. 이전의 크롤은 반환되지 않습니다.

이 API를 사용하여 다음을 수행할 수 있습니다.

  • 지정된 크롤러의 모든 크롤을 검색합니다.

  • 제한된 수 내에서 지정된 크롤러의 모든 크롤을 검색합니다.

  • 특정 시간 범위에서 지정된 크롤러의 모든 크롤을 검색합니다.

  • 특정 상태, 크롤 ID 또는 DPU 시간 값을 사용하여 지정된 크롤러의 모든 크롤을 검색합니다.

요청
  • CrawlerName필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    실행을 검색할 크롤러의 이름입니다.

  • MaxResults – 1~1,000의 숫자(정수)입니다.

    반환할 최대 결과 수입니다. 기본값은 20이고 최대값은 100입니다.

  • FiltersCrawlsFilter 객체의 배열입니다.

    CrawlsFilter 객체 목록에서 지정하는 기준에 따라 크롤을 필터링합니다.

  • NextToken – UTF-8 문자열입니다.

    이것이 지속적으로 호출되면 지속적인 토큰입니다.

응답
  • CrawlsCrawlerHistory 객체의 배열입니다.

    기준을 충족하는 크롤 실행을 나타내는 CrawlerHistory 객체의 목록입니다.

  • NextToken – UTF-8 문자열입니다.

    목록의 현재 세그먼트가 마지막이 아니면 반환된 토큰 목록에 페이지를 매기는 지속적인 토큰은 반환됩니다.

Errors
  • EntityNotFoundException

  • OperationTimeoutException

  • InvalidInputException