Amazon SageMaker y Application Auto Scaling - Aplicación de escalado automático

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Amazon SageMaker y Application Auto Scaling

Puede escalar las variantes de los puntos SageMaker finales, la simultaneidad aprovisionada para los puntos finales sin servidor y los componentes de inferencia mediante políticas de escalado de seguimiento de objetivos, políticas de escalado escalonado y escalado programado.

Utilice la siguiente información para ayudarle a integrarse SageMaker con Application Auto Scaling.

Rol vinculado a un servicio creado para SageMaker

El siguiente rol vinculado al servicio se crea automáticamente en usted Cuenta de AWS al registrar SageMaker los recursos como destinos escalables con Application Auto Scaling. Este rol permite que Auto Scaling de aplicaciones realice operaciones compatibles dentro de su cuenta. Para obtener más información, consulte Roles vinculados a servicios para Application Auto Scaling.

  • AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint

Entidad de seguridad de servicio utilizada por el rol vinculado al servicio

El rol vinculado al servicio de la sección anterior solo puede ser asumido por la entidad de seguridad de servicio autorizada por las relaciones de confianza definidas para el rol. El rol vinculado al servicio utilizado por Auto Scaling de aplicaciones concede acceso a la siguiente entidad de seguridad de servicio:

  • sagemaker.application-autoscaling.amazonaws.com

Registro de SageMaker variantes de puntos finales como objetivos escalables con Application Auto Scaling

Application Auto Scaling requiere un objetivo escalable antes de poder crear políticas de escalado o acciones programadas para un SageMaker modelo (variante). Un destino escalable es un recurso que se puede escalar horizontalmente o reducir horizontalmente con Auto Scaling de aplicaciones. Los destinos escalables se identifican de forma única mediante la combinación de ID de recurso, dimensión escalable y espacio de nombres.

Si configura el escalado automático mediante la SageMaker consola, entonces registra SageMaker automáticamente un objetivo escalable para usted.

Si desea configurar el escalado automático mediante la AWS CLI o uno de AWS los SDK, puede usar las siguientes opciones:

  • AWS CLI:

    Ejecute el register-scalable-targetcomando para obtener una variante del producto. En el ejemplo siguiente se registra el recuento de instancias deseado para una variante de producto denominada my-variant, que se ejecuta en el punto de enlace my-endpoint, con una capacidad mínima de una instancia y una capacidad máxima de ocho instancias.

    aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredInstanceCount \ --resource-id endpoint/my-endpoint/variant/my-variant \ --min-capacity 1 \ --max-capacity 8

    Si se ejecuta correctamente, este comando devolverá el ARN del destino escalable.

    { "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123" }
  • AWS SDK:

    Llame a la operación RegisterScalableTarget y proporcione ResourceId, ScalableDimension, ServiceNamespace, MinCapacity y MaxCapacity como parámetros.

Registro de la simultaneidad de puntos de conexión sin servidor como destinos escalables con Application Auto Scaling

Application Auto Scaling también requiere un destino escalable antes de poder crear políticas de escalado o acciones programadas para la simultaneidad de puntos de conexión sin servidor.

Si configura el escalado automático mediante la SageMaker consola, entonces registra SageMaker automáticamente un objetivo escalable para usted.

De lo contrario, utilice uno de los siguientes métodos para registrar el destino escalable:

  • AWS CLI:

    Ejecuta el register-scalable-targetcomando para obtener una variante del producto. En el ejemplo siguiente, se registra la simultaneidad aprovisionada para una variante de producto denominada my-variant, que se ejecuta en el punto de conexión my-endpoint, con una capacidad mínima de una instancia y una capacidad máxima de diez instancias.

    aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \ --resource-id endpoint/my-endpoint/variant/my-variant \ --min-capacity 1 \ --max-capacity 10

    Si se ejecuta correctamente, este comando devolverá el ARN del destino escalable.

    { "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123" }
  • AWS SDK:

    Llame a la operación RegisterScalableTarget y proporcione ResourceId, ScalableDimension, ServiceNamespace, MinCapacity y MaxCapacity como parámetros.

Registro de clústeres de componentes de inferencia como destinos escalables con Application Auto Scaling

Application Auto Scaling también requiere un destino escalable para que se puedan crear políticas de escalado o acciones programadas para componentes de inferencia.

  • AWS CLI:

    Llame al register-scalable-targetcomando de un componente de inferencia. En el ejemplo siguiente se registra el recuento deseado para un componente de inferencia denominado my-inference-component, con una capacidad mínima de cero copias y una capacidad máxima de tres copias.

    aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:inference-component:DesiredCopyCount \ --resource-id inference-component/my-inference-component \ --min-capacity 0 \ --max-capacity 3

    Si se ejecuta correctamente, este comando devolverá el ARN del destino escalable.

    { "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123" }
  • AWS SDK:

    Llame a la operación RegisterScalableTarget y proporcione ResourceId, ScalableDimension, ServiceNamespace, MinCapacity y MaxCapacity como parámetros.

Si acaba de empezar a utilizar Application Auto Scaling, puede encontrar información adicional útil sobre cómo escalar sus SageMaker recursos en la Guía para SageMaker desarrolladores de Amazon:

nota

En 2023, SageMaker introdujo nuevas capacidades de inferencia basadas en puntos finales de inferencia en tiempo real. Se crea un SageMaker punto final con una configuración de punto final que define el tipo de instancia y el recuento inicial de instancias del punto final. A continuación, cree un componente de inferencia, que es un objeto de SageMaker alojamiento que puede utilizar para implementar un modelo en un punto final. Para obtener información sobre cómo escalar los componentes de inferencia, consulte Amazon SageMaker agrega nuevas capacidades de inferencia para ayudar a reducir los costos y la latencia de implementación del modelo básico y reduce los costos de implementación del modelo en un 50% de media utilizando las últimas funciones de Amazon SageMaker en el AWS blog.