SageMaker 아마존과 애플리케이션 오토 스케일링 - Application Auto Scaling

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker 아마존과 애플리케이션 오토 스케일링

대상 추적 조정 정책, 단계 조정 정책 및 예약된 조정을 사용하여 SageMaker 엔드포인트 변형, 서버리스 엔드포인트의 프로비저닝된 동시성 및 추론 구성 요소를 확장할 수 있습니다.

다음 정보를 사용하면 Application Auto SageMaker Scaling과 통합하는 데 도움이 됩니다.

SageMaker에 대한 서비스 연결 역할이 생성됨

Application Auto Scaling을 통해 SageMaker 리소스를 확장 가능한 대상으로 AWS 계정 등록할 때 다음과 같은 서비스 연결 역할이 자동으로 생성됩니다. 이 역할을 통해 Application Auto Scaling이 사용자 계정 내에서 지원되는 작업을 수행할 수 있습니다. 자세한 내용은 Application Auto Scaling에 대한 서비스 연결 역할 섹션을 참조하세요.

  • AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint

서비스 연결 역할이 사용하는 서비스 보안 주체

앞부분에서 다룬 서비스 연결 역할은 역할에 대해 정의된 신뢰 관계로 권한이 부여되는 서비스 보안 주체만 맡을 수 있습니다. Application Auto Scaling이 사용하는 서비스 연결 역할은 다음 서비스 보안 주체에 대한 액세스 권한을 부여합니다.

  • sagemaker.application-autoscaling.amazonaws.com

Application Auto Scaling을 사용하여 SageMaker 엔드포인트 변형을 확장 가능한 타겟으로 등록

Application Auto Scaling을 사용하려면 먼저 확장 가능한 대상이 있어야 SageMaker 모델 (변형) 에 대한 조정 정책 또는 스케줄링된 작업을 생성할 수 있습니다. 확장 가능 대상은 Application Auto Scaling에서 확장하거나 축소할 수 있는 리소스입니다. 확장 가능 대상은 리소스 ID, 확장 가능한 차원 및 네임스페이스의 조합으로 고유하게 식별됩니다.

SageMaker 콘솔을 사용하여 Auto Scaling을 구성하면 확장 가능한 타겟이 SageMaker 자동으로 등록됩니다.

AWS CLI 또는 AWS SDK 중 하나를 사용하여 Auto Scaling을 구성하려는 경우 다음 옵션을 사용할 수 있습니다.

  • AWS CLI:

    제품 변형에 대한 register-scalable-target명령을 호출합니다. 다음 예제에서는 my-endpoint 엔드포인트에서 실행되는 my-variant라는 제품 변형에 대해 원하는 인스턴스 수를 등록합니다. 최소 용량은 1개, 최대 용량은 8개입니다.

    aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredInstanceCount \ --resource-id endpoint/my-endpoint/variant/my-variant \ --min-capacity 1 \ --max-capacity 8

    이 명령이 성공하면 확장 가능 대상의 ARN이 반환됩니다.

    { "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123" }
  • AWS SDK:

    RegisterScalableTarget 작업을 호출하고 ResourceId, ScalableDimension, ServiceNamespace, MinCapacity, MaxCapacity를 파라미터로 제공합니다.

Application Auto Scaling을 통해 서버리스 엔드포인트의 동시성을 확장 가능 대상으로 등록하기

서버리스 엔드포인트의 프로비저닝된 동시성에 대한 조정 정책 또는 예약된 작업을 생성하려면 먼저 Application Auto Scaling에 확장 가능 대상도 필요합니다.

SageMaker 콘솔을 사용하여 Auto Scaling을 구성하면 확장 가능한 타겟이 SageMaker 자동으로 등록됩니다.

아니면 다음 방법 중 하나를 사용하여 확장 가능 대상을 등록하세요.

  • AWS CLI:

    제품 변형에 대한 register-scalable-target명령을 호출하십시오. 다음 예제에서는 my-endpoint 엔드포인트에서 실행되는 my-variant(이)라는 제품 변형에 대해 프로비저닝된 동시성을 등록합니다. 최소 용량은 1개이고 최대 용량은 10개입니다.

    aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \ --resource-id endpoint/my-endpoint/variant/my-variant \ --min-capacity 1 \ --max-capacity 10

    이 명령이 성공하면 확장 가능 대상의 ARN이 반환됩니다.

    { "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123" }
  • AWS SDK:

    RegisterScalableTarget 작업을 호출하고 ResourceId, ScalableDimension, ServiceNamespace, MinCapacity, MaxCapacity를 파라미터로 제공합니다.

Application Auto Scaling을 통해 추론 구성 요소를 확장 가능 대상으로 등록

추론 구성 요소에 대한 크기 조정 정책 또는 예약된 작업을 생성하려면 먼저 Application Auto Scaling에 확장 가능 대상도 필요합니다.

  • AWS CLI:

    추론 register-scalable-target컴포넌트의 명령을 호출합니다. 다음 예제에서는 my-inference-component라는 추론 구성 요소에 대해 원하는 복제본 수를 등록합니다. 최소 용량은 0개이고 최대 용량은 3개입니다.

    aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:inference-component:DesiredCopyCount \ --resource-id inference-component/my-inference-component \ --min-capacity 0 \ --max-capacity 3

    이 명령이 성공하면 확장 가능 대상의 ARN이 반환됩니다.

    { "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123" }
  • AWS SDK:

    RegisterScalableTarget 작업을 호출하고 ResourceId, ScalableDimension, ServiceNamespace, MinCapacity, MaxCapacity를 파라미터로 제공합니다.

Application Auto Scaling을 막 시작하는 경우 Amazon SageMaker 개발자 안내서에서 SageMaker 리소스 확장에 대한 유용한 추가 정보를 찾을 수 있습니다.

참고

2023년에는 실시간 추론 엔드포인트에 SageMaker 구축된 새로운 추론 기능을 도입했습니다. SageMaker 엔드포인트의 인스턴스 유형과 초기 인스턴스 수를 정의하는 엔드포인트 구성을 사용하여 엔드포인트를 생성합니다. 그런 다음, 엔드포인트에 모델을 배포하는 데 사용할 수 있는 SageMaker 호스팅 객체인 추론 구성 요소를 생성합니다. 추론 구성 요소 확장에 대한 자세한 내용은 Amazon에서 기본 모델 배포 비용 및 지연 시간을 줄이는 데 도움이 되는 새로운 추론 기능 SageMaker 추가 및 SageMaker Amazon의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감하는 블로그를 참조하십시오. AWS