自动扩展多容器端点 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自动扩展多容器端点

如果您想使用该InvocationsPerInstance指标为多容器终端节点配置自动扩展,我们建议每个容器中的模型在每个推理请求上都表现出相似的CPU利用率和延迟。之所以推荐这样做,是因为如果多容器终端节点的流量从低CPU利用率模型转移到高CPU利用率模型,但总体呼叫量保持不变,则端点不会横向扩展,也可能没有足够的实例来处理对高CPU利用率模型的所有请求。有关自动扩展端点的信息,请参阅自动缩放 Amazon SageMaker 机型