EMR서버리스 Job 레질리언스 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

EMR서버리스 Job 레질리언스

EMR서버리스 릴리스 7.1.0 이상에는 작업 복구 지원이 포함되어 있으므로 사용자가 직접 입력하지 않아도 실패한 작업을 자동으로 재시도합니다. 작업 복원력의 또 다른 이점은 AZ에 문제가 발생할 경우 EMR 서버리스가 작업 실행을 다른 가용 영역 (AZ) 으로 이동한다는 것입니다.

작업에 대한 작업 복원력을 활성화하려면 작업에 대한 재시도 정책을 설정하십시오. 재시도 정책은 어느 시점에서든 작업이 실패할 경우 EMR 서버리스가 작업을 자동으로 다시 시작하도록 합니다. 재시도 정책은 일괄 작업과 스트리밍 작업 모두에 지원되므로 사용 사례에 따라 작업 복원력을 사용자 지정할 수 있습니다. 다음 표에서는 일괄 처리 및 스트리밍 작업 전반의 작업 복원력 동작과 차이를 비교합니다.

배치 작업 스트리밍 작업
기본 동작 작업을 다시 실행하지 않습니다. 작업을 실행하는 동안 애플리케이션이 체크포인트를 생성하므로 항상 작업 실행을 재시도합니다.
재시도 지점 Batch 작업에는 체크포인트가 없으므로 EMR Serverless는 항상 작업을 처음부터 다시 실행합니다. 스트리밍 작업은 체크포인트를 지원하므로 런타임 상태와 진행 상황을 Amazon S3의 체크포인트 위치에 저장하도록 스트리밍 쿼리를 구성할 수 있습니다. EMR서버리스는 체크포인트에서 작업 실행을 재개합니다. 자세한 내용은 Apache Spark 설명서의 체크포인트를 사용한 오류 복구를 참조하십시오.
최대 재시도 횟수 최대 10회의 재시도를 허용합니다. 스트리밍 작업에는 스래시 방지 제어 기능이 내장되어 있어 1시간 후에도 작업이 계속 실패하면 애플리케이션에서 작업 재시도를 중지합니다. 1시간 내 기본 재시도 횟수는 5회입니다. 이 재시도 횟수를 1~10회 사이로 구성할 수 있습니다. 최대 시도 횟수는 사용자 지정할 수 없습니다. 값이 1이면 재시도가 없음을 나타냅니다.

EMR서버리스는 작업 재실행을 시도할 때 시도 횟수와 함께 작업을 인덱싱하므로 시도 전반에 걸쳐 작업의 수명 주기를 추적할 수 있습니다.

EMR서버리스 API 작업이나 다음을 사용할 수 있습니다. AWS CLI 작업 복원력을 변경하거나 작업 복원력과 관련된 정보를 볼 수 있습니다. 자세한 내용은 EMR서버리스 API 가이드를 참조하십시오.

기본적으로 EMR 서버리스는 일괄 작업을 다시 실행하지 않습니다. 일괄 작업에 대한 재시도를 활성화하려면 일괄 작업 실행을 시작할 때 maxAttempts 매개변수를 구성하십시오. 이 maxAttempts 매개 변수는 배치 작업에만 적용됩니다. 기본값은 1이며, 이는 작업을 다시 실행하지 않음을 의미합니다. 허용되는 값은 1~10 (포함) 입니다.

다음 예제는 작업 실행 시작 시 최대 시도 횟수를 10회까지 지정하는 방법을 보여줍니다.

aws emr-serverless start-job-run --application-id <APPLICATION_ID> \ --execution-role-arn <JOB_EXECUTION_ROLE> \ --mode 'BATCH' \ --retry-policy '{ "maxAttempts": 10 }' \ --job-driver '{ "sparkSubmit": { "entryPoint": "/usr/lib/spark/examples/jars/spark-examples-does-not-exist.jar", "entryPointArguments": ["1"], "sparkSubmitParameters": "--class org.apache.spark.examples.SparkPi" } }'

EMR서버리스는 실패할 경우 스트리밍 작업을 무기한 재시도합니다. 반복되는 복구할 수 없는 실패로 인한 스래싱을 방지하려면 를 사용하여 스트리밍 작업 재시도에 maxFailedAttemptsPerHour 대한 스래시 방지 제어를 구성하십시오. 이 매개 변수를 사용하면 서버리스가 재시도를 중지하기 1시간 전까지 허용되는 최대 실패 시도 횟수를 지정할 수 있습니다. EMR 기본값은 5입니다. 허용되는 값은 1~10 (포함) 입니다.

aws emr-serverless start-job-run --application-id <APPPLICATION_ID> \ --execution-role-arn <JOB_EXECUTION_ROLE> \ --mode 'STREAMING' \ --retry-policy '{ "maxFailedAttemptsPerHour": 7 }' \ --job-driver '{ "sparkSubmit": { "entryPoint": "/usr/lib/spark/examples/jars/spark-examples-does-not-exist.jar", "entryPointArguments": ["1"], "sparkSubmitParameters": "--class org.apache.spark.examples.SparkPi" } }'

다른 작업 실행 API 작업을 사용하여 작업에 대한 정보를 얻을 수도 있습니다. 예를 들어 attempt 매개 변수를 작업과 함께 사용하여 특정 GetJobRun 작업 시도에 대한 세부 정보를 얻을 수 있습니다. attempt매개변수를 포함하지 않으면 작업은 최근 시도에 대한 정보를 반환합니다.

aws emr-serverless get-job-run \ --job-run-id job-run-id \ --application-id application-id \ --attempt 1

ListJobRunAttempts작업은 작업 실행과 관련된 모든 시도에 대한 정보를 반환합니다.

aws emr-serverless list-job-run-attempts \ --application-id application-id \ --job-run-id job-run-id

GetDashboardForJobRun작업을 수행하면 작업 실행을 UIs 위해 응용 프로그램에 액세스하는 데 사용할 수 있는 데이터가 생성되고 반환됩니다. URL attempt매개 변수를 사용하면 특정 시도에 URL 대한 정보를 얻을 수 있습니다. attempt매개변수를 포함하지 않으면 작업은 최근 시도에 대한 정보를 반환합니다.

aws emr-serverless get-dashboard-for-job-run \ --application-id application-id \ --job-run-id job-run-id \ --attempt 1

재시도 정책으로 작업 모니터링

또한 Job Resiliency 지원에는 EMR서버리스 작업 실행 재시도라는 새 이벤트가 추가되었습니다. EMR서버리스는 작업을 재시도할 때마다 이 이벤트를 게시합니다. 이 알림을 사용하여 작업 재시도를 추적할 수 있습니다. 이벤트에 대한 자세한 내용은 Amazon EventBridge 이벤트를 참조하십시오.

재시도 정책을 사용한 로깅

EMR서버리스가 작업을 재시도할 때마다 해당 시도는 자체 로그 세트를 생성합니다. EMR서버리스가 이러한 로그를 덮어쓰지 CloudWatch 않고 Amazon S3와 Amazon에 성공적으로 전송할 수 있도록 하기 위해 EMR 서버리스는 S3 로그 경로 및 CloudWatch 로그 스트림 이름 형식에 접두사를 추가하여 작업 시도 횟수를 포함합니다.

다음은 형식이 어떻게 보이는지에 대한 예시입니다.

'/applications/<applicationId>/jobs/<jobId>/attempts/<attemptNumber>/'.

이 형식을 사용하면 EMR 서버리스가 각 작업 시도에 대한 모든 로그를 Amazon S3 및 및 내의 지정된 위치에 게시할 수 있습니다. CloudWatch 자세한 내용은 로그 저장을 참조하십시오.

참고

EMR서버리스는 모든 스트리밍 작업 및 재시도가 활성화된 모든 일괄 작업에 이 접두사 형식만 사용합니다.