지원되는 프레임워크 및 AWS 리전 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

지원되는 프레임워크 및 AWS 리전

SageMaker 모델 병렬화 라이브러리를 사용하기 전에 지원되는 프레임워크와 인스턴스 유형을 확인하고 계정에 충분한 할당량이 있는지 확인하십시오. AWS AWS 리전

참고

라이브러리의 최신 업데이트 및 릴리스 노트를 확인하려면 SageMaker Python SDK 설명서의 SageMaker Model Parallel 릴리스 노트를 참조하십시오.

지원되는 프레임워크

SageMaker 모델 병렬화 라이브러리는 다음과 같은 딥 러닝 프레임워크를 지원하며 Deep Learning Containers (DLC) 에서 AWS 제공되거나 바이너리 파일로 다운로드할 수 있습니다.

PyTorch 에서 지원하는 버전 SageMaker 및 모델 병렬화 라이브러리 SageMaker

PyTorch 버전 SageMaker 모델 병렬화 라이브러리 버전 smdistributed-modelparallel통합 이미지 DLC URI URL바이너리 파일**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py토치-2.0.0/빌드 아티팩트/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py토치-1.13.1/빌드 아티팩트/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py토치-1.12.1/빌드 아티팩트/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py토치-1.12.0/빌드 아티팩트/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py토치-1.11.0/빌드 아티팩트/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
참고

모델 병렬화 라이브러리 v1.6.0 이상에서는 에 대한 확장 기능을 제공합니다 SageMaker . PyTorch 자세한 내용은 SageMaker 모델 병렬화 라이브러리의 핵심 기능 단원을 참조하십시오.

** 두 URLs 바이너리 파일은 사용자 지정 컨테이너에 SageMaker 모델 병렬 처리 라이브러리를 설치하기 위한 것입니다. 자세한 내용은 분산 모델 병렬 라이브러리를 사용하여 자체 Docker 컨테이너를 만드세요. SageMaker 단원을 참조하십시오.

TensorFlow 에서 지원하는 버전 SageMaker 및 SageMaker 모델 병렬화 라이브러리

TensorFlow 버전 SageMaker 모델 병렬화 라이브러리 버전 smdistributed-modelparallel통합 이미지 DLC URI
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

Hugging Face Transformer 버전과 분산 데이터 병렬 SageMaker 라이브러리가 SageMaker 지원하는 버전

Hugging Face용 AWS Deep Learning SageMaker Container는 트레이닝 컨테이너를 PyTorch 기본 이미지로 사용합니다. TensorFlow Hugging Face Transformer 라이브러리 버전과 PyTorch 페어링 및 버전을 찾아보려면 최신 Hugging Face Container TensorFlow 및 이전 Hugging Face Container 버전을 참조하십시오.

AWS 리전

SageMaker 데이터 병렬 라이브러리는 AWS Deep Learning Containers를 위한 SageMaker 서비스가 제공되는 모든 AWS 리전 곳에서 사용할 수 있습니다. 자세한 내용은 사용 가능한 딥 러닝 컨테이너 이미지를 참고하세요.

지원되는 인스턴스 유형

SageMaker 모델 병렬화 라이브러리에는 다음 ML 인스턴스 유형 중 하나가 필요합니다.

인스턴스 유형
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

인스턴스 유형의 사양은 Amazon EC2 인스턴스 유형 페이지의 가속 컴퓨팅 섹션을 참조하십시오. 인스턴스 요금에 대한 자세한 내용은 Amazon SageMaker 요금을 참조하십시오.

다음과 유사한 오류 메시지가 발생한 경우 SageMaker 리소스에 대한 서비스 할당량 증가 요청의 지침을 따르세요.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.