Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Obtener una recomendación de inferencia para un punto de conexión existente
Los trabajos de recomendación de inferencias ejecutan un conjunto de pruebas de carga en los tipos de instancias recomendados y en un punto de conexión existente. Los trabajos de recomendación de inferencia utilizan métricas de rendimiento que se basan en pruebas de carga que utilizan los datos de muestra que proporcionaste durante el registro de la versión del modelo.
Puede comparar y obtener recomendaciones de inferencia para un punto final de inferencia de SageMaker IA existente para ayudarlo a mejorar el rendimiento de su punto final. El procedimiento para obtener recomendaciones para un punto final de inferencia de SageMaker IA existente es similar al procedimiento para obtener recomendaciones de inferencia sin un punto final. Hay varias exclusiones de características que hay que tener en cuenta a la hora de realizar una evaluación comparativa de un punto de conexión existente:
-
Solo puede utilizar un punto de conexión existente por cada trabajo de recomendación de inferencias.
-
Solo puede tener una variante en su punto de conexión.
-
No puede usar un punto de conexión que habilite el escalado automático.
-
Esta funcionalidad solo es compatible con la inferencia en tiempo real.
-
Esta funcionalidad no admite puntos de conexión multimodelo en tiempo real.
aviso
Se recomienda no ejecutar un trabajo de recomendación de inferencia en un punto de conexión de producción que gestione el tráfico en directo. La carga sintética durante la evaluación comparativa puede afectar al punto de conexión de producción y provocar una limitación o proporcionar resultados de referencia inexactos. Le recomendamos que utilice un punto de conexión que no sea de producción o de desarrollador para fines de comparación.
En las siguientes secciones se muestra cómo utilizar Amazon SageMaker Inference Recommender para crear una recomendación de inferencia para un punto final existente en función del tipo de modelo mediante el AWS SDK para Python (Boto3) y el. AWS CLI
nota
Antes de crear un trabajo de recomendación de Recomendador de inferencias, asegúrese de haber cumplido con los Requisitos previos para usar Amazon SageMaker Inference Recommender.
Requisitos previos
Si aún no tiene un punto final de inferencia de SageMaker IA, puede obtener una recomendación de inferencia sin un punto final o puede crear un punto final de inferencia en tiempo real siguiendo las instrucciones de Cree su punto final e implemente su modelo.
Crear un trabajo de recomendación de inferencia para un punto de conexión existente
Cree una recomendación de inferencia mediante programación utilizando, o el. AWS SDK for Python (Boto3) AWS CLI Especifique un nombre de trabajo para su recomendación de inferencia, el nombre de un punto final de inferencia de SageMaker IA existente, un ARN de AWS rol de IAM, una configuración de entrada y el ARN de su paquete de modelos desde el momento en que registró su modelo en el registro de modelos.
Obtener resultados de trabajo de recomendación de inferencia
Puede recopilar los resultados de su trabajo de recomendación de inferencia mediante programación con el mismo procedimiento que para los trabajos de recomendación de inferencia estándar. Para obtener más información, consulte Obtener resultados de trabajo de recomendación de inferencia.
Cuando obtenga los resultados de un trabajo de recomendación de inferencia para un punto de conexión existente, debería recibir una respuesta en JSON similar a la siguiente:
{ "JobName":
"job-name"
, "JobType": "Default", "JobArn": "arn:aws:sagemaker:region
:account-id
:inference-recommendations-job/resource-id
", "RoleArn":"iam-role-arn"
, "Status": "COMPLETED", "CreationTime": 1664922919.2, "LastModifiedTime": 1664924208.291, "InputConfig": { "ModelPackageVersionArn": "arn:aws:sagemaker:region
:account-id
:model-package/resource-id
", "Endpoints": [ { "EndpointName":"endpoint-name"
} ] }, "InferenceRecommendations": [ { "Metrics": { "CostPerHour": 0.7360000014305115, "CostPerInference": 7.456940238625975e-06, "MaxInvocations": 1645, "ModelLatency": 171 }, "EndpointConfiguration": { "EndpointName":"sm-endpoint-name"
, "VariantName":"variant-name"
, "InstanceType": "ml.g4dn.xlarge", "InitialInstanceCount": 1 }, "ModelConfiguration": { "EnvironmentParameters": [ { "Key": "TS_DEFAULT_WORKERS_PER_MODEL", "ValueType": "string", "Value": "4" } ] } } ], "EndpointPerformances": [ { "Metrics": { "MaxInvocations": 184, "ModelLatency": 1312 }, "EndpointConfiguration": { "EndpointName":"endpoint-name"
} } ] }
Las primeras líneas proporcionan información sobre el trabajo de recomendación de inferencia en sí. Esto incluye el nombre del trabajo, el ARN del rol y las horas de creación y última modificación.
El diccionario InferenceRecommendations
contiene una lista de recomendaciones de inferencias del Recomendador de Inferencias.
El diccionario EndpointConfiguration
anidado contiene la recomendación del tipo de instancia (InstanceType
) junto con el punto final y el nombre de la variante (un modelo de aprendizaje AWS automático implementado) que se utilizó durante el trabajo de recomendación.
El diccionario Metrics
anidado contiene información sobre el costo estimado por hora (CostPerHour
) para su punto final en dólares estadounidenses, el costo estimado por inferencia (CostPerInference
) en dólares estadounidenses para su punto final en tiempo real, el número máximo esperado de InvokeEndpoint
solicitudes por minuto enviadas al punto final (MaxInvocations
) y la latencia del modelo (ModelLatency
), que es el intervalo de tiempo (en milisegundos) que el modelo tardó en responder a la SageMaker IA. La latencia del modelo incluye el tiempo de comunicación local empleado en el envío de la solicitud y la recuperación de la respuesta del contenedor de un modelo, así como el tiempo que se tarda en completar la inferencia en el contenedor.
El diccionario anidado EndpointPerformances
contiene el nombre del punto de conexión actual en el que se ejecutó el trabajo de recomendación (EndpointName
) y las métricas de rendimiento del punto de conexión (MaxInvocations
y ModelLatency
).