Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Inferencia en tiempo real de baja latencia con AWS PrivateLink

Modo de enfoque
Inferencia en tiempo real de baja latencia con AWS PrivateLink - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Amazon SageMaker AI proporciona una latencia baja para realizar inferencias en tiempo real y, al mismo tiempo, mantiene una alta disponibilidad y resiliencia mediante la implementación Multi-AZ. La latencia de la aplicación se compone de dos componentes principales: latencia de infraestructura o sobrecarga y latencia de inferencia del modelo. La reducción de latencia de sobrecarga abre nuevas posibilidades, como la implementación de modelos más complejos, profundos y precisos o la división de aplicaciones monolíticas en módulos de microservicios escalables y fáciles de mantener. Puede reducir la latencia de las inferencias en tiempo real con la SageMaker IA mediante una implementación. AWS PrivateLink Con AWS PrivateLink, puede acceder de forma privada a todas las operaciones de la SageMaker API desde su Virtual Private Cloud (VPC) de forma escalable mediante puntos de conexión de la VPC de interfaz. Un punto final de VPC de interfaz es una interfaz de red elástica en la subred con direcciones IP privadas que sirve como punto de entrada para todas SageMaker las llamadas a la API.

De forma predeterminada, un punto final de SageMaker IA con 2 o más instancias se implementa en al menos 2 zonas de AWS disponibilidad (AZs) y las instancias de cualquier zona de disponibilidad pueden procesar las invocaciones. Esto da como resultado uno o más “saltos” de AZ que contribuyen a la latencia de sobrecarga. Una implementación AWS PrivateLink con la opción privateDNSEnabled establecida como true mitiga esta situación al lograr dos objetivos:

  • Mantiene todo el tráfico de inferencias dentro de la VPC.

  • Mantiene el tráfico de invocación en la misma zona de disponibilidad que el cliente que lo originó al usar SageMaker Runtime. Esto evita los «saltos» entre la AZs reducción de la latencia de sobrecarga.

En las siguientes secciones de esta guía, se muestra cómo puede reducir la latencia de las inferencias en tiempo real durante la implementación AWS PrivateLink .

Para implementarlo AWS PrivateLink, primero cree un punto final de interfaz para la VPC desde el que se conecta a los puntos finales de SageMaker IA. Siga los pasos que se indican en Acceder a un AWS servicio mediante un punto final de la VPC de la interfaz para crear el punto final de la interfaz. Al crear el punto de conexión, seleccione los siguientes ajustes en la interfaz de la consola:

  • Seleccione la casilla Habilitar nombre de DNS en Configuración adicional

  • Seleccione los grupos de seguridad y las subredes adecuados que se utilizarán con los puntos finales de SageMaker IA.

Asegúrese también de que la VPC tenga activados los nombres de host DNS. Para obtener más información sobre cómo cambiar los atributos de DNS de una VPC, consulte Ver y actualizar los atributos de DNS de una VPC.

Implemente un punto final de SageMaker IA en una VPC

Para lograr una latencia de sobrecarga baja, cree un punto final de SageMaker IA con las mismas subredes que especificó al implementar. AWS PrivateLink Estas subredes deben coincidir con las AZs de su aplicación cliente, como se muestra en el siguiente fragmento de código.

model_name = '<the-name-of-your-model>' vpc = 'vpc-0123456789abcdef0' subnet_a = 'subnet-0123456789abcdef0' subnet_b = 'subnet-0123456789abcdef1' security_group = 'sg-0123456789abcdef0' create_model_response = sagemaker_client.create_model( ModelName = model_name, ExecutionRoleArn = sagemaker_role, PrimaryContainer = { 'Image': container, 'ModelDataUrl': model_url }, VpcConfig = { 'SecurityGroupIds': [security_group], 'Subnets': [subnet_a, subnet_b], }, )

En el fragmento de código mencionado anteriormente se presupone que ha seguido los pasos descritos en Antes de empezar.

Invoca el punto final de la IA SageMaker

Por último, especifique el cliente SageMaker Runtime e invoque el punto final de la SageMaker IA, tal y como se muestra en el siguiente fragmento de código.

endpoint_name = '<endpoint-name>' runtime_client = boto3.client('sagemaker-runtime') response = runtime_client.invoke_endpoint(EndpointName=endpoint_name, ContentType='text/csv', Body=payload)

Para obtener más información sobre configuración de puntos de conexión, consulte Implementación de modelos para inferencia en tiempo real.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.