작업 - AWS Glue

작업

작업 API는 AWS Glue에서의 작업 생성, 업데이트, 삭제 또는 확인과 관련된 API 및 데이터 유형에 대해 설명합니다.

데이터 유형

작업 구조

작업 정의를 지정합니다.

필드
  • NameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 작업 정의에 할당하는 이름입니다.

  • DescriptionURI address multi-line string pattern과(와) 일치하는 2,048바이트 이하 길이의 설명 문자열입니다.

    작업 설명입니다.

  • LogUri – UTF-8 문자열입니다.

    이 필드는 향후 사용하기 위해 예약되어 있습니다.

  • Role – UTF-8 문자열입니다.

    이 작업과 연결된 IAM 역할의 이름 또는 Amazon 리소스 이름(ARN)입니다.

  • CreatedOn – 타임스탬프입니다.

    작업 정의가 생성된 날짜와 시간입니다.

  • LastModifiedOn – 타임스탬프입니다.

    이 작업 정의가 수정된 마지막 시점입니다.

  • ExecutionPropertyExecutionProperty 객체입니다.

    ExecutionProperty는 이 작업에 허용된 최대 동시 실행 수를 지정합니다.

  • CommandJobCommand 객체입니다.

    이 작업을 실행하는 JobCommand입니다.

  • DefaultArguments – 키-값 페어의 맵 배열입니다.

    각 키는 UTF-8 문자열입니다.

    각 값은 UTF-8 문자열입니다.

    이름-값 페어로 지정된 이 작업의 기본 인수입니다.

    AWS Glue 자체가 사용하는 인수는 물론 사용자의 작업 실행 스크립트가 사용하는 인수를 지정할 수 있습니다.

    자체 작업 인수를 지정하고 사용하는 방법에 대한 자세한 내용은 개발자 가이드의 Python에서 AWS Glue Glue API 호출을 참조하세요.

    AWS Glue가 작업을 설정하는 데 사용하는 키 값 페어에 대한 자세한 내용은 개발자 가이드의 AWS Glue가 사용하는 특정 파라미터를 참조하세요.

  • NonOverridableArguments – 키-값 페어의 맵 배열입니다.

    각 키는 UTF-8 문자열입니다.

    각 값은 UTF-8 문자열입니다.

    이 작업의 재정의할 수 없는 인수로, 이름 값 페어로 지정됩니다.

  • ConnectionsConnectionsList 객체입니다.

    이 작업에 사용된 연결입니다.

  • MaxRetries - 숫자(정수)입니다.

    JobRun이 실패한 후 이 작업을 다시 시도할 수 있는 최대 횟수입니다.

  • AllocatedCapacity - 숫자(정수)입니다.

    이 필드는 더 이상 사용되지 않습니다. 대신 MaxCapacity 사용.

    이 작업 실행에 따라 할당된 AWS Glue 데이터 처리 장치(DPU) 수입니다. 최소 2DPU를 할당할 수 있습니다. 기본값은 10입니다. DPU는 4 vCPU의 컴퓨팅 파워와 16GB 메모리로 구성된 프로세싱 파워의 상대적 측정값입니다. 자세한 내용은 AWS Glue 요금 페이지를 참조하십시오.

  • Timeout – 1 이상의 숫자(정수)입니다.

    작업 타임아웃(분)입니다. 작업을 실행하여 리소스를 소비하여 중지되기 전에 TIMEOUT 상태로 들어가는 최대 시간입니다. 기본값은 2,880 분(48 시간)입니다.

  • MaxCapacity - 숫자(double)입니다.

    Glue 버전 1.0 이전 적업의 경우 표준 작업자 유형을 사용하여 이 작업을 실행할 때 할당할 수 있는 AWS Glue 데이터 처리 장치(DPU) 수입니다. DPU는 4 vCPU의 컴퓨팅 파워와 16GB 메모리로 구성된 프로세싱 파워의 상대적 측정값입니다. 자세한 내용은 AWS Glue 요금 페이지를 참조하십시오.

    WorkerTypeNumberOfWorkers를 사용하는 경우, Max Capacity를 설정하지 마십시오.

    MaxCapacity에 할당할 수 있는 값은 Python 셸 작업을 실행하는지 또는 Apache Spark ETL 작업 또는 Apache Spark 스트리밍 ETL 작업을 실행하는지에 따라 다릅니다.

    • Python 셸 작업(JobCommand.Name="pythonshell")을 지정하면 0.0625 또는 1 DPU를 할당할 수 있습니다. 기본값은 0.0625 DPU입니다.

    • Apache Spark ETL 작업(JobCommand.Name="glueetl") 또는 Apache Spark 스트리밍 ETL 작업(JobCommand.Name="gluestreaming")을 지정하면 최소 2DPU를 할당할 수 있습니다. 기본값은 10 DPU입니다. 이 작업 유형에는 부분적인 DPU 할당을 사용할 수 없습니다.

    Glue 버전 2.0 작업의 경우 대신 Maximum capacity를 지정할 수 없습니다. 그 대신 Worker typeNumber of workers를 지정해야 합니다.

  • WorkerType – UTF-8 문자열입니다(유효한 값: Standard="" | G.1X="" | G.2X="" | G.025X="").

    작업이 실행될 때 할당되는 미리 정의된 작업자 유형입니다. 표준(Standard), G.1X, G.2X 또는 G.025X 값을 허용합니다.

    • Standard 작업자 유형의 경우, 각 작업자가 4vCPU, 16GB 메모리 및 50GB 디스크와, 작업자당 실행기 2개를 제공합니다.

    • G.1X 작업자 유형의 경우, 각 작업자가 1DPU(4vCPU, 16GB 메모리, 64GB 디스크)에 매핑되고, 작업자당 실행기 1개를 제공합니다. 메모리 집약적인 작업의 경우 이 작업자 유형을 사용하는 것이 좋습니다.

    • G.2X 작업자 유형의 경우, 각 작업자가 2DPU(8vCPU, 32GB 메모리, 128GB 디스크)에 매핑되고, 작업자당 실행기 1개를 제공합니다. 메모리 집약적인 작업의 경우 이 작업자 유형을 사용하는 것이 좋습니다.

    • G.025X 작업자 유형의 경우, 각 작업자가 0.25 DPU(vCPU 2개, 4GB 메모리, 64GB 디스크)에 매핑되고, 작업자당 실행기 1개를 제공합니다. 볼륨이 낮은 스트리밍 작업에 이 작업자 유형을 사용하는 것이 좋습니다. 이 작업자 유형은 AWS Glue 버전 3.0 스트리밍 작업에만 사용할 수 있습니다.

  • NumberOfWorkers - 숫자(정수)입니다.

    작업이 실행될 때 할당되는 정의된 workerType의 작업자 수입니다.

  • SecurityConfigurationSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 작업에 사용할 SecurityConfiguration 구조의 이름입니다.

  • NotificationPropertyNotificationProperty 객체입니다.

    작업 알림의 구성 속성을 지정합니다.

  • Running – 부울입니다.

    작업이 실행되는 동안의 작업 상태를 지정합니다.

  • GlueVersionCustom string pattern #15과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    Glue 버전에 따라AWS Glue에서 지원하는 Apache Spark와 Python의 버전이 정해집니다. Python의 버전으로 Spark 유형의 작업에 대해 지원되는 버전을 확인할 수 있습니다.

    이용 가능한 AWS Glue 버전과 그에 상응하는 Spark 및 Python 버전에 대한 자세한 내용은 개발자 안내서의 Glue 버전을 참조하세요.

    Glue 버전 지정 없이 생성된 작업은 Glue 0.9로 기본 지정됩니다.

  • CodeGenConfigurationNodes – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #29과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 CodeGenConfigurationNode 객체입니다.

    Glue Studio 시각적 구성 요소 및 Glue Studio 코드 생성의 기반이 되는 방향성 비순환 그래프의 표현입니다.

  • ExecutionClass - 16바이트 미만의 UTF-8 문자열입니다(유효한 값: FLEX="" | STANDARD="").

    작업이 표준 또는 유연한 실행 클래스로 실행되는지 여부를 나타냅니다. 표준 실행 클래스는 빠른 작업 시작 및 전용 리소스가 필요한 시간에 민감한 워크로드에 적합합니다.

    유연한 실행 클래스는 시작 및 완료 시간이 다를 수 있는 시간에 민감하지 않은 작업에 적합합니다.

    AWS Glue 버전 3.0 이상 및 명령 유형 glueetl을 사용하는 작업만 ExecutionClassFLEX로 설정됩니다. 유연한 실행 클래스는 Spark 작업에 사용할 수 있습니다.

  • SourceControlDetailsSourceControlDetails 객체입니다.

    작업에 대한 소스 제어 구성에 대한 세부 정보로, 원격 리포지토리와의 작업 아티팩트 동기화를 허용합니다.

ExecutionProperty 구조

작업의 실행 속성입니다.

필드
  • MaxConcurrentRuns - 숫자(정수)입니다.

    작업에 허용된 최대 동시 실행 수입니다. 기본값은 1입니다. 이 임계값에 도달하면 오류가 반환됩니다. 지정할 수 있는 최대값은 서비스 제한에 따라 통제됩니다.

NotificationProperty 구조

알림의 구성 속성을 지정합니다.

필드
  • NotifyDelayAfter – 1 이상의 숫자(정수)입니다.

    작업 실행 시작 후 작업 실행 대기 알림을 전송하기 전까지 대기하는 시간(분)입니다.

JobCommand 구조

작업이 실행될 때 실행되는 코드를 지정합니다.

필드
  • Name – UTF-8 문자열입니다.

    작업 명령의 이름입니다. Apache Spark ETL 작업의 경우, glueetl이어야 합니다. Python 셸 작업의 경우, pythonshell이어야 합니다. Apache Spark 스트리밍 ETL 작업의 경우, gluestreaming이어야 합니다.

  • ScriptLocation – 400,000바이트 이하 길이의 UTF-8 문자열입니다.

    작업을 실행하는 스크립트의 Amazon Simple Storage Service(Amazon S3) 경로를 지정합니다.

  • PythonVersionCustom string pattern #16과(와) 일치하는 UTF-8 문자열입니다.

    Python 셸 작업을 실행하는 데 사용되는 Python 버전입니다. 허용되는 값은 2 또는 3입니다.

ConnectionsList 구조

작업이 사용한 연결을 지정합니다.

필드
  • Connections – UTF-8 문자열의 배열입니다.

    작업이 사용한 연결 목록입니다.

JobUpdate 구조

기존 작업 정의 업데이트에 사용된 정보를 지정합니다. 이전 작업 정의를 이 정보로 완전히 덮어씁니다.

필드
  • DescriptionURI address multi-line string pattern과(와) 일치하는 2,048바이트 이하 길이의 설명 문자열입니다.

    정의된 작업에 대한 설명입니다.

  • LogUri – UTF-8 문자열입니다.

    이 필드는 향후 사용하기 위해 예약되어 있습니다.

  • Role – UTF-8 문자열입니다.

    이 작업과 연결된 IAM 역할의 이름 또는 Amazon 리소스 이름(ARN)입니다(필수).

  • ExecutionPropertyExecutionProperty 객체입니다.

    ExecutionProperty는 이 작업에 허용된 최대 동시 실행 수를 지정합니다.

  • CommandJobCommand 객체입니다.

    이 작업을 실행하는 JobCommand입니다(필수).

  • DefaultArguments – 키-값 페어의 맵 배열입니다.

    각 키는 UTF-8 문자열입니다.

    각 값은 UTF-8 문자열입니다.

    이 작업에 대한 기본 인수입니다.

    AWS Glue 자체가 사용하는 인수는 물론 사용자의 작업 실행 스크립트가 사용하는 인수를 지정할 수 있습니다.

    자체 작업 인수를 지정하고 사용하는 방법에 대한 자세한 내용은 개발자 가이드의 Python에서 AWS Glue Glue API 호출을 참조하세요.

    AWS Glue가 작업을 설정하는 데 사용하는 키 값 페어에 대한 자세한 내용은 개발자 가이드의 AWS Glue가 사용하는 특정 파라미터를 참조하세요.

  • NonOverridableArguments – 키-값 페어의 맵 배열입니다.

    각 키는 UTF-8 문자열입니다.

    각 값은 UTF-8 문자열입니다.

    이 작업의 재정의할 수 없는 인수로, 이름 값 페어로 지정됩니다.

  • ConnectionsConnectionsList 객체입니다.

    이 작업에 사용된 연결입니다.

  • MaxRetries - 숫자(정수)입니다.

    실패한 경우 이 작업을 다시 시도할 수 있는 최대 횟수입니다.

  • AllocatedCapacity - 숫자(정수)입니다.

    이 필드는 더 이상 사용되지 않습니다. 대신 MaxCapacity 사용.

    이 작업에 할당할 AWS Glue 데이터 처리 장치(DPU) 수입니다. 최소 2DPU를 할당할 수 있습니다. 기본값은 10입니다. DPU는 4 vCPU의 컴퓨팅 파워와 16GB 메모리로 구성된 프로세싱 파워의 상대적 측정값입니다. 자세한 내용은 AWS Glue 요금 페이지를 참조하십시오.

  • Timeout – 1 이상의 숫자(정수)입니다.

    작업 타임아웃(분)입니다. 작업을 실행하여 리소스를 소비하여 중지되기 전에 TIMEOUT 상태로 들어가는 최대 시간입니다. 기본값은 2,880 분(48 시간)입니다.

  • MaxCapacity - 숫자(double)입니다.

    Glue 버전 1.0 이전 적업의 경우 표준 작업자 유형을 사용하여 이 작업을 실행할 때 할당할 수 있는 AWS Glue 데이터 처리 장치(DPU) 수입니다. DPU는 4 vCPU의 컴퓨팅 파워와 16GB 메모리로 구성된 프로세싱 파워의 상대적 측정값입니다. 자세한 내용은 AWS Glue 요금 페이지를 참조하십시오.

    WorkerTypeNumberOfWorkers를 사용하는 경우, Max Capacity를 설정하지 마십시오.

    MaxCapacity에 할당할 수 있는 값은 Python 셸 작업을 실행하는지 또는 Apache Spark ETL 작업을 실행하는지에 따라 다릅니다.

    • Python 셸 작업(JobCommand.Name="pythonshell")을 지정하면 0.0625 또는 1 DPU를 할당할 수 있습니다. 기본값은 0.0625 DPU입니다.

    • Apache Spark ETL 작업(JobCommand.Name="glueetl") 또는 Apache Spark 스트리밍 ETL 작업(JobCommand.Name="gluestreaming")을 지정하면 최소 2DPU를 할당할 수 있습니다. 기본값은 10 DPU입니다. 이 작업 유형에는 부분적인 DPU 할당을 사용할 수 없습니다.

    Glue 버전 2.0 작업의 경우 대신 Maximum capacity를 지정할 수 없습니다. 그 대신 Worker typeNumber of workers를 지정해야 합니다.

  • WorkerType – UTF-8 문자열입니다(유효한 값: Standard="" | G.1X="" | G.2X="" | G.025X="").

    작업이 실행될 때 할당되는 미리 정의된 작업자 유형입니다. 표준(Standard), G.1X, G.2X 또는 G.025X 값을 허용합니다.

    • Standard 작업자 유형의 경우, 각 작업자가 4vCPU, 16GB 메모리 및 50GB 디스크와, 작업자당 실행기 2개를 제공합니다.

    • G.1X 작업자 유형의 경우, 각 작업자가 1DPU(4vCPU, 16GB 메모리, 64GB 디스크)에 매핑되고, 작업자당 실행기 1개를 제공합니다. 메모리 집약적인 작업의 경우 이 작업자 유형을 사용하는 것이 좋습니다.

    • G.2X 작업자 유형의 경우, 각 작업자가 2DPU(8vCPU, 32GB 메모리, 128GB 디스크)에 매핑되고, 작업자당 실행기 1개를 제공합니다. 메모리 집약적인 작업의 경우 이 작업자 유형을 사용하는 것이 좋습니다.

    • G.025X 작업자 유형의 경우, 각 작업자가 0.25 DPU(vCPU 2개, 4GB 메모리, 64GB 디스크)에 매핑되고, 작업자당 실행기 1개를 제공합니다. 볼륨이 낮은 스트리밍 작업에 이 작업자 유형을 사용하는 것이 좋습니다. 이 작업자 유형은 AWS Glue 버전 3.0 스트리밍 작업에만 사용할 수 있습니다.

  • NumberOfWorkers - 숫자(정수)입니다.

    작업이 실행될 때 할당되는 정의된 workerType의 작업자 수입니다.

  • SecurityConfigurationSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 작업에 사용할 SecurityConfiguration 구조의 이름입니다.

  • NotificationPropertyNotificationProperty 객체입니다.

    작업 알림의 구성 속성을 지정합니다.

  • GlueVersionCustom string pattern #15과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    Glue 버전에 따라AWS Glue에서 지원하는 Apache Spark와 Python의 버전이 정해집니다. Python의 버전으로 Spark 유형의 작업에 대해 지원되는 버전을 확인할 수 있습니다.

    이용 가능한 AWS Glue 버전과 그에 상응하는 Spark 및 Python 버전에 대한 자세한 내용은 개발자 안내서의 Glue 버전을 참조하세요.

  • CodeGenConfigurationNodes – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #29과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 CodeGenConfigurationNode 객체입니다.

    Glue Studio 시각적 구성 요소 및 Glue Studio 코드 생성의 기반이 되는 방향성 비순환 그래프의 표현입니다.

  • ExecutionClass - 16바이트 미만의 UTF-8 문자열입니다(유효한 값: FLEX="" | STANDARD="").

    작업이 표준 또는 유연한 실행 클래스로 실행되는지 여부를 나타냅니다. 표준 실행 클래스는 빠른 작업 시작 및 전용 리소스가 필요한 시간에 민감한 워크로드에 적합합니다.

    유연한 실행 클래스는 시작 및 완료 시간이 다를 수 있는 시간에 민감하지 않은 작업에 적합합니다.

    AWS Glue 버전 3.0 이상 및 명령 유형 glueetl을 사용하는 작업만 ExecutionClassFLEX로 설정됩니다. 유연한 실행 클래스는 Spark 작업에 사용할 수 있습니다.

  • SourceControlDetailsSourceControlDetails 객체입니다.

    작업에 대한 소스 제어 구성에 대한 세부 정보로, 원격 리포지토리와의 작업 아티팩트 동기화를 허용합니다.

SourceControlDetails 구조

작업에 대한 소스 제어 구성에 대한 세부 정보로, 원격 리포지토리와의 작업 아티팩트 동기화를 허용합니다.

필드
  • Provider – UTF-8 문자열입니다(유효 값: GITHUB | AWS_CODE_COMMIT).

    원격 리포지토리의 공급자입니다.

  • Repository – 1~512바이트 길이의 UTF-8 문자열입니다.

    작업 아티팩트가 포함된 원격 리포지토리의 이름입니다.

  • Owner – 1~512바이트 길이의 UTF-8 문자열입니다.

    작업 아티팩트가 포함된 원격 리포지토리의 소유자입니다.

  • Branch – 1~512바이트 길이의 UTF-8 문자열입니다.

    원격 리포지토리의 선택적 브랜치입니다.

  • Folder – 1~512바이트 길이의 UTF-8 문자열입니다.

    원격 리포지토리의 선택적 폴더입니다.

  • LastCommitId – 1~512바이트 길이의 UTF-8 문자열입니다.

    원격 리포지토리의 커밋에 대한 마지막 커밋 ID입니다.

  • LastSyncTimestamp – 1~512바이트 길이의 UTF-8 문자열입니다.

    마지막 작업 동기화가 수행된 날짜와 시간입니다.

  • AuthStrategy – UTF-8 문자열입니다(유효 값: PERSONAL_ACCESS_TOKEN | AWS_SECRETS_MANAGER).

    인증 유형으로, AWS Secrets Manager에 저장된 인증 토큰이거나 개인 액세스 토큰일 수 있습니다.

  • AuthToken – 1~512바이트 길이의 UTF-8 문자열입니다.

    인증 토큰의 값입니다.

작업

CreateJob 작업(Python: create_job)

새로운 작업 정의를 만듭니다.

요청
  • Name필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 작업 정의에 할당하는 이름입니다. 계정에서 고유해야 합니다.

  • DescriptionURI address multi-line string pattern과(와) 일치하는 2,048바이트 이하 길이의 설명 문자열입니다.

    정의된 작업에 대한 설명입니다.

  • LogUri – UTF-8 문자열입니다.

    이 필드는 향후 사용하기 위해 예약되어 있습니다.

  • Role필수(Required): UTF-8 문자열입니다.

    이 작업과 연결된 IAM 역할의 이름 또는 Amazon 리소스 이름(ARN)입니다.

  • ExecutionPropertyExecutionProperty 객체입니다.

    ExecutionProperty는 이 작업에 허용된 최대 동시 실행 수를 지정합니다.

  • Command필수(Required): JobCommand 객체입니다.

    이 작업을 실행하는 JobCommand입니다.

  • DefaultArguments – 키-값 페어의 맵 배열입니다.

    각 키는 UTF-8 문자열입니다.

    각 값은 UTF-8 문자열입니다.

    이 작업에 대한 기본 인수입니다.

    AWS Glue 자체가 사용하는 인수는 물론 사용자의 작업 실행 스크립트가 사용하는 인수를 지정할 수 있습니다.

    작업 인수가 로깅될 수 있습니다. 일반 텍스트 보안 암호를 인수로 전달하지 마세요. 보안 암호를 작업 내에 보관하려는 경우 AWS Glue 연결, AWS Secrets Manager 또는 다른 보안 암호 관리 메커니즘에서 검색합니다.

    자체 작업 인수를 지정하고 사용하는 방법에 대한 자세한 내용은 개발자 가이드의 Python에서 AWS Glue Glue API 호출을 참조하세요.

    AWS Glue가 작업을 설정하는 데 사용하는 키 값 페어에 대한 자세한 내용은 개발자 가이드의 AWS Glue가 사용하는 특정 파라미터를 참조하세요.

  • NonOverridableArguments – 키-값 페어의 맵 배열입니다.

    각 키는 UTF-8 문자열입니다.

    각 값은 UTF-8 문자열입니다.

    이 작업의 재정의할 수 없는 인수로, 이름 값 페어로 지정됩니다.

  • ConnectionsConnectionsList 객체입니다.

    이 작업에 사용된 연결입니다.

  • MaxRetries - 숫자(정수)입니다.

    실패한 경우 이 작업을 다시 시도할 수 있는 최대 횟수입니다.

  • AllocatedCapacity - 숫자(정수)입니다.

    이 파라미터는 이제 사용되지 않습니다. 대신 MaxCapacity 사용.

    이 작업에 할당할 AWS Glue 데이터 처리 장치(DPU) 수입니다. 최소 2DPU를 할당할 수 있습니다. 기본값은 10입니다. DPU는 4 vCPU의 컴퓨팅 파워와 16GB 메모리로 구성된 프로세싱 파워의 상대적 측정값입니다. 자세한 내용은 AWS Glue 요금 페이지를 참조하십시오.

  • Timeout – 1 이상의 숫자(정수)입니다.

    작업 타임아웃(분)입니다. 작업을 실행하여 리소스를 소비하여 중지되기 전에 TIMEOUT 상태로 들어가는 최대 시간입니다. 기본값은 2,880 분(48 시간)입니다.

  • MaxCapacity - 숫자(double)입니다.

    Glue 버전 1.0 이전 적업의 경우 표준 작업자 유형을 사용하여 이 작업을 실행할 때 할당할 수 있는 AWS Glue 데이터 처리 장치(DPU) 수입니다. DPU는 4 vCPU의 컴퓨팅 파워와 16GB 메모리로 구성된 프로세싱 파워의 상대적 측정값입니다. 자세한 내용은 AWS Glue 요금 페이지를 참조하십시오.

    WorkerTypeNumberOfWorkers를 사용하는 경우, Max Capacity를 설정하지 마십시오.

    MaxCapacity에 할당할 수 있는 값은 Python 셸 작업을 실행하는지 또는 Apache Spark ETL 작업을 실행하는지에 따라 다릅니다.

    • Python 셸 작업(JobCommand.Name="pythonshell")을 지정하면 0.0625 또는 1 DPU를 할당할 수 있습니다. 기본값은 0.0625 DPU입니다.

    • Apache Spark ETL 작업(JobCommand.Name="glueetl") 또는 Apache Spark 스트리밍 ETL 작업(JobCommand.Name="gluestreaming")을 지정하면 최소 2DPU를 할당할 수 있습니다. 기본값은 10 DPU입니다. 이 작업 유형에는 부분적인 DPU 할당을 사용할 수 없습니다.

    Glue 버전 2.0 작업의 경우 대신 Maximum capacity를 지정할 수 없습니다. 그 대신 Worker typeNumber of workers를 지정해야 합니다.

  • SecurityConfigurationSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 작업에 사용할 SecurityConfiguration 구조의 이름입니다.

  • Tags – 50개 이하의 페어로 구성된 키-값 페어의 맵 배열입니다.

    각 키는 길이가 1~128바이트인 UTF-8 문자열입니다.

    각 값은 256 바이트 이하 길이의 UTF-8 문자열입니다.

    이 작업에서 사용할 태그입니다. 태그를 사용하여 작업에 대한 액세스를 제한할 수 있습니다. AWS Glue의 태그에 대한 자세한 내용은 개발자 안내서의 AWS Glue의 AWS 태그를 참조하세요.

  • NotificationPropertyNotificationProperty 객체입니다.

    작업 알림의 구성 속성을 지정합니다.

  • GlueVersionCustom string pattern #15과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    Glue 버전에 따라AWS Glue에서 지원하는 Apache Spark와 Python의 버전이 정해집니다. Python의 버전으로 Spark 유형의 작업에 대해 지원되는 버전을 확인할 수 있습니다.

    이용 가능한 AWS Glue 버전과 그에 상응하는 Spark 및 Python 버전에 대한 자세한 내용은 개발자 안내서의 Glue 버전을 참조하세요.

    Glue 버전 지정 없이 생성된 작업은 Glue 0.9로 기본 지정됩니다.

  • NumberOfWorkers - 숫자(정수)입니다.

    작업이 실행될 때 할당되는 정의된 workerType의 작업자 수입니다.

  • WorkerType – UTF-8 문자열입니다(유효한 값: Standard="" | G.1X="" | G.2X="" | G.025X="").

    작업이 실행될 때 할당되는 미리 정의된 작업자 유형입니다. 표준(Standard), G.1X, G.2X 또는 G.025X 값을 허용합니다.

    • Standard 작업자 유형의 경우, 각 작업자가 4vCPU, 16GB 메모리 및 50GB 디스크와, 작업자당 실행기 2개를 제공합니다.

    • G.1X 작업자 유형의 경우, 각 작업자가 1DPU(4vCPU, 16GB 메모리, 64GB 디스크)에 매핑되고, 작업자당 실행기 1개를 제공합니다. 메모리 집약적인 작업의 경우 이 작업자 유형을 사용하는 것이 좋습니다.

    • G.2X 작업자 유형의 경우, 각 작업자가 2DPU(8vCPU, 32GB 메모리, 128GB 디스크)에 매핑되고, 작업자당 실행기 1개를 제공합니다. 메모리 집약적인 작업의 경우 이 작업자 유형을 사용하는 것이 좋습니다.

    • G.025X 작업자 유형의 경우, 각 작업자가 0.25 DPU(vCPU 2개, 4GB 메모리, 64GB 디스크)에 매핑되고, 작업자당 실행기 1개를 제공합니다. 볼륨이 낮은 스트리밍 작업에 이 작업자 유형을 사용하는 것이 좋습니다. 이 작업자 유형은 AWS Glue 버전 3.0 스트리밍 작업에만 사용할 수 있습니다.

  • CodeGenConfigurationNodes – 키-값 페어의 맵 배열입니다.

    각 키는 Custom string pattern #29과(와) 일치하는 UTF-8 문자열입니다.

    각 값은 CodeGenConfigurationNode 객체입니다.

    Glue Studio 시각적 구성 요소 및 Glue Studio 코드 생성의 기반이 되는 방향성 비순환 그래프의 표현입니다.

  • ExecutionClass - 16바이트 미만의 UTF-8 문자열입니다(유효한 값: FLEX="" | STANDARD="").

    작업이 표준 또는 유연한 실행 클래스로 실행되는지 여부를 나타냅니다. 표준 실행 클래스는 빠른 작업 시작 및 전용 리소스가 필요한 시간에 민감한 워크로드에 적합합니다.

    유연한 실행 클래스는 시작 및 완료 시간이 다를 수 있는 시간에 민감하지 않은 작업에 적합합니다.

    AWS Glue 버전 3.0 이상 및 명령 유형 glueetl을 사용하는 작업만 ExecutionClassFLEX로 설정됩니다. 유연한 실행 클래스는 Spark 작업에 사용할 수 있습니다.

  • SourceControlDetailsSourceControlDetails 객체입니다.

    작업에 대한 소스 제어 구성에 대한 세부 정보로, 원격 리포지토리와의 작업 아티팩트 동기화를 허용합니다.

응답
  • NameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 작업 정의를 위해 제공된 고유 이름입니다.

오류
  • InvalidInputException

  • IdempotentParameterMismatchException

  • AlreadyExistsException

  • InternalServiceException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ConcurrentModificationException

UpdateJob 작업(Python: update_job)

기존 작업 정의를 업데이트합니다. 이전 작업 정의를 이 정보로 완전히 덮어씁니다.

요청
  • JobName필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    업데이트할 작업 정의 이름입니다.

  • JobUpdate필수(Required): JobUpdate 객체입니다.

    작업 정의를 업데이트하여 값을 지정합니다. 지정되지 않은 구성은 제거되거나 기본값으로 재설정됩니다.

응답
  • JobNameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    업데이트된 작업 정의 이름을 반환합니다.

오류
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • ConcurrentModificationException

GetJob 작업(Python: get_job)

기존 작업 정의를 가져옵니다.

요청
  • JobName필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    가져올 작업 정의 이름입니다.

응답
  • Job작업 객체입니다.

    요청한 작업 정의.

오류
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

GetJobs 작업(Python: get_jobs)

현재 모든 작업 정의를 가져옵니다.

요청
  • NextToken – UTF-8 문자열입니다.

    이것이 지속적으로 호출되면 지속적인 토큰입니다.

  • MaxResults – 1~1,000의 숫자(정수)입니다.

    응답의 최대 크기입니다.

응답
  • Jobs작업 객체의 배열입니다.

    작업 정의 목록입니다.

  • NextToken – UTF-8 문자열입니다.

    모든 작업 정의가 반환하지 않은 경우의 지속 토큰입니다.

오류
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

DeleteJob 작업(Python: delete_job)

지정한 작업 정의를 삭제합니다. 작업 정의를 못 찾으면 어떤 예외도 없습니다.

요청
  • JobName필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    삭제할 작업 정의 이름입니다.

응답
  • JobNameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    삭제된 작업 정의 이름입니다.

오류
  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

ListJobs 작업(Python: list_jobs)

이 AWS 계정의 모든 작업 리소스 또는 지정된 태그를 가진 리소스를 검색합니다. 이 작업을 통해 계정에서 사용 가능한 리소스와 그 이름을 확인할 수 있습니다.

이 작업을 수행하면 응답에서 필터로 사용할 수 있는 선택 사항인 Tags 필드가 검색되기 때문에 태그가 지정된 리소스를 하나의 그룹으로 검색할 수 있습니다. 태그 필터링을 사용하기로 선택하면 태그가 포함된 리소스만 검색됩니다.

요청
  • NextToken – UTF-8 문자열입니다.

    이것이 지속적인 요청이라면 지속적인 토큰입니다.

  • MaxResults – 1~1,000의 숫자(정수)입니다.

    반환할 목록의 최대 크기.

  • Tags – 50개 이하의 페어로 구성된 키-값 페어의 맵 배열입니다.

    각 키는 길이가 1~128바이트인 UTF-8 문자열입니다.

    각 값은 256 바이트 이하 길이의 UTF-8 문자열입니다.

    이렇게 태그가 지정된 리소스만 반환하도록 지정합니다.

응답
  • JobNames – UTF-8 문자열의 배열입니다.

    계정의 모든 작업 또는 지정된 태그를 가진 작업의 이름입니다.

  • NextToken – UTF-8 문자열입니다.

    반환된 목록이 사용가능한 마지막 지표를 포함하지 경우의 연속 토큰입니다.

오류
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

BatchGetJobs 작업(Python: batch_get_jobs)

주어진 작업 이름 목록에 대한 리소스 메타데이터 목록을 반환합니다. ListJobs 작업을 호출한 후에는 권한이 부여된 데이터에 액세스하기 위해 이 작업을 호출할 수 있습니다. 이 작업은 태그를 사용하는 권한 조건을 포함해 모든 IAM 권한을 지원합니다.

요청
  • JobNames필수(Required): UTF-8 문자열의 배열입니다.

    작업 이름(ListJobs 작업에서 반환된 이름일 수 있음)의 목록입니다.

응답
  • Jobs작업 객체의 배열입니다.

    작업 정의 목록입니다.

  • JobsNotFound – UTF-8 문자열의 배열입니다.

    찾을 수 없는 작업의 이름 목록입니다.

오류
  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException