Implemente AWS PrivateLink Implemente un punto final de SageMaker IA en una VPC Invoca el punto final de la IA SageMaker

Inferencia en tiempo real de baja latencia con AWS PrivateLink

Amazon SageMaker AI proporciona una latencia baja para realizar inferencias en tiempo real y, al mismo tiempo, mantiene una alta disponibilidad y resiliencia mediante la implementación Multi-AZ. La latencia de la aplicación se compone de dos componentes principales: latencia de infraestructura o sobrecarga y latencia de inferencia del modelo. La reducción de latencia de sobrecarga abre nuevas posibilidades, como la implementación de modelos más complejos, profundos y precisos o la división de aplicaciones monolíticas en módulos de microservicios escalables y fáciles de mantener. Puede reducir la latencia de las inferencias en tiempo real con la SageMaker IA mediante una implementación. AWS PrivateLink Con AWS PrivateLink, puede acceder de forma privada a todas las operaciones de la SageMaker API desde su Virtual Private Cloud (VPC) de forma escalable mediante puntos de conexión de la VPC de interfaz. Un punto final de VPC de interfaz es una interfaz de red elástica en la subred con direcciones IP privadas que sirve como punto de entrada para todas SageMaker las llamadas a la API.

De forma predeterminada, un punto final de SageMaker IA con 2 o más instancias se implementa en al menos 2 zonas de AWS disponibilidad (AZs) y las instancias de cualquier zona de disponibilidad pueden procesar las invocaciones. Esto da como resultado uno o más “saltos” de AZ que contribuyen a la latencia de sobrecarga. Una implementación AWS PrivateLink con la opción privateDNSEnabled establecida como true mitiga esta situación al lograr dos objetivos:

Mantiene todo el tráfico de inferencias dentro de la VPC.
Mantiene el tráfico de invocación en la misma zona de disponibilidad que el cliente que lo originó al usar SageMaker Runtime. Esto evita los «saltos» entre la AZs reducción de la latencia de sobrecarga.

En las siguientes secciones de esta guía, se muestra cómo puede reducir la latencia de las inferencias en tiempo real durante la implementación AWS PrivateLink .

Temas

Implemente AWS PrivateLink
Implemente un punto final de SageMaker IA en una VPC
Invoca el punto final de la IA SageMaker

Implemente AWS PrivateLink

Para implementarlo AWS PrivateLink, primero cree un punto final de interfaz para la VPC desde el que se conecta a los puntos finales de SageMaker IA. Siga los pasos que se indican en Acceder a un AWS servicio mediante un punto final de la VPC de la interfaz para crear el punto final de la interfaz. Al crear el punto de conexión, seleccione los siguientes ajustes en la interfaz de la consola:

Seleccione la casilla Habilitar nombre de DNS en Configuración adicional
Seleccione los grupos de seguridad y las subredes adecuados que se utilizarán con los puntos finales de SageMaker IA.

Asegúrese también de que la VPC tenga activados los nombres de host DNS. Para obtener más información sobre cómo cambiar los atributos de DNS de una VPC, consulte Ver y actualizar los atributos de DNS de una VPC.

Implemente un punto final de SageMaker IA en una VPC

Para lograr una latencia de sobrecarga baja, cree un punto final de SageMaker IA con las mismas subredes que especificó al implementar. AWS PrivateLink Estas subredes deben coincidir con las AZs de su aplicación cliente, como se muestra en el siguiente fragmento de código.


model_name = '<the-name-of-your-model>'

vpc = 'vpc-0123456789abcdef0'
subnet_a = 'subnet-0123456789abcdef0'
subnet_b = 'subnet-0123456789abcdef1'
security_group = 'sg-0123456789abcdef0'

create_model_response = sagemaker_client.create_model(
    ModelName = model_name,
    ExecutionRoleArn = sagemaker_role,
    PrimaryContainer = {
        'Image': container,
        'ModelDataUrl': model_url
    },
    VpcConfig = {
        'SecurityGroupIds': [security_group],
        'Subnets': [subnet_a, subnet_b],
    },
)

En el fragmento de código mencionado anteriormente se presupone que ha seguido los pasos descritos en Antes de empezar.

Invoca el punto final de la IA SageMaker

Por último, especifique el cliente SageMaker Runtime e invoque el punto final de la SageMaker IA, tal y como se muestra en el siguiente fragmento de código.


endpoint_name = '<endpoint-name>'
  
runtime_client = boto3.client('sagemaker-runtime')
response = runtime_client.invoke_endpoint(EndpointName=endpoint_name, 
                                          ContentType='text/csv', 
                                          Body=payload)

Para obtener más información sobre configuración de puntos de conexión, consulte Implementación de modelos para inferencia en tiempo real.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Supervisión de prácticas recomendadas de seguridad

Migre la carga de trabajo de inferencias de x86 a Graviton AWS