Ray 작업에서 작업 파라미터 사용
AWS Glue on Ray는 현재 AWS Glue의 미리 보기 릴리스이므로 변경될 수 있습니다. |
AWS Glue ETL 작업과 동일한 방식으로 AWS Glue Ray 작업에 대한 인수를 설정합니다. AWS Glue API에 대한 자세한 내용은 작업을 참조하십시오. 이 참조에 나열된 다양한 인수로 AWS Glue Ray 작업을 구성할 수 있습니다. 내 인수를 제공할 수도 있습니다. Job Parameters(작업 파라미터) 제목 아래의 Job details(작업 세부 정보) 탭에서 콘솔을 통해 작업을 구성할 수 있습니다. 작업에서 DefaultArguments
를 설정하거나 작업 실행에서 Arguments
를 설정하여 AWS CLI를 통해 작업을 구성할 수도 있습니다. 기본 인수 및 작업 파라미터는 여러 번 실행해도 작업과 함께 유지됩니다.
예를 들어 다음은 특수 파라미터를 설정하기 위해 --arguments
를 사용하여 작업을 실행하는 구문입니다.
$ aws glue start-job-run --job-name "CSV to CSV" --arguments='--scriptLocation="s3://my_glue/libraries/test_lib.py",--test-environment="true"'
인수를 설정한 후에는 환경 변수를 통해 Ray 작업 내에서 작업 파라미터에 액세스할 수 있습니다. 그러면 각 실행에 대한 작업을 구성할 수 있습니다. 환경 변수의 이름은 --
접두사가 없는 작업 인수 이름입니다. 예를 들어 위 예제에서 변수 이름은 scriptLocation
및 test-environment
입니다. 그런 다음 표준 라이브러리에서 사용할 수 있는 메서드를 통해 인수를 검색합니다. test_environment =
os.environ.get('test-environment')
Python으로 환경 변수에 액세스하는 방법에 대한 자세한 내용은 Python 설명서의 os 모듈
Reference
Ray 작업은 작업 및 작업 실행에 대한 스크립트 환경을 설정하는 데 사용할 수 있는 여러 인수 이름을 인식합니다.
-
--additional-python-modules
- 설치할 Python 패키지 세트입니다. PyPI에서 패키지를 설치하거나 사용자 지정 배포를 제공할 수 있습니다. 형식: 쉼표로 구분된 목록.PyPI 패키지 항목은
package==version
형식(대상 패키지의 PyPI 이름 및 버전)입니다. 항목은 단일 등호=
가 아닌==
와 같은 Python 버전 매칭을 사용하여 패키지와 버전을 매칭합니다. 다른 버전 일치 연산자도 있습니다. 자세한 내용은 Python 웹사이트의 PEP 440을 참조하세요. 사용자 지정 배포 항목은 배포에 대한 Amazon S3 경로입니다. AWS Glue ETL과 달리 사용자 지정 배포는 pip를 통해 설정되지 않고 Ray로 전달됩니다. 자세한 내용은 Ray 작업에서 Python 라이브러리 사용 섹션을 참조하세요.
예를 들어
--additional-python-modules
을 다음과 같이 설정할 수 있습니다."s3://
s3bucket
/pythonPackage
.zip,scikit-learn==0.21.3" -
--auto-scaling-ray-min-workers
- Ray 작업에 할당되는 작업자 노드의 최소 수입니다. 작업자 노드는 가상 CPU당 하나씩 여러 복제본을 실행할 수 있습니다. 형식: 정수 최소값: 0 최대값: 작업 정의의--number-of-workers (NumberOfWorkers)
에 지정된 값입니다. 작업 정의의 새 Ray 값에 대한 자세한 내용은 AWS CLI 및 SDK의 Ray 작업 섹션을 참조하세요.AWS Glue 계정 제한에 대한 자세한 내용은 AWS Glue 엔드포인트 및 할당량을 참조하세요.
-
--object_store_memory_head
- Ray 헤드 노드의 Plasma 객체 스토어에 할당된 메모리입니다. 이 인스턴스는 작업자 복제본뿐만 아니라 클러스터 관리 서비스를 실행합니다. 값은 부팅 후 인스턴스에서 사용 가능한 메모리의 백분율을 나타냅니다. 이 파라미터는 메모리를 많이 사용하는 워크로드를 조정하는 데 사용됩니다. 기본값은 대부분의 사용 사례에 허용됩니다. 형식: 양의 정수 최소값: 1 최대값: 100Plasma에 대한 자세한 내용은 Ray 설명서의 Plasma 메모리 내 객체 스토어
를 참조하세요. -
--object_store_memory_worker
- Ray 작업자 노드의 Plasma 객체 스토어에 할당된 메모리입니다. 이러한 인스턴스는 작업자 복제본만 실행합니다. 값은 부팅 후 인스턴스에서 사용 가능한 메모리의 백분율을 나타냅니다. 이 파라미터는 메모리를 많이 사용하는 워크로드를 조정하는 데 사용됩니다. 기본값은 대부분의 사용 사례에 허용됩니다. 형식: 양의 정수 최소값: 1 최대값: 100Plasma에 대한 자세한 내용은 Ray 설명서의 Plasma 메모리 내 객체 스토어
를 참조하세요.