本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
注意
延迟优化推理功能处于预览版 Amazon Bedrock ,可能会发生变化。
中针对基础模型进行了延迟优化的推理, Amazon Bedrock 可缩短响应时间,提高了 AI 应用程序的响应速度。Anthropic的Claude 3.5 Haiku模型
访问延迟优化功能无需进行额外的设置或模型微调,从而能够以更快的响应时间立即增强现有应用程序。您可以在调用 Bedrock 运行时 API 时将 “延迟” 参数设置为 “已优化”。如果您选择 “标准” 作为调用选项,则您的请求将由标准推断处理。默认情况下,所有请求都通过 “标准” 路由到。
“performanceConfig” : { “latency” : “standard | optimized” }
一旦达到模型延迟优化的使用配额,我们将尝试使用标准延迟处理请求。在这种情况下,将按标准延迟费率对请求收费。已处理请求的延迟配置在 API 响应和 AWS CloudTrail 日志中可见。您还可以在 Amazon CloudWatch 日志中的 “model-id+延迟优化” 下查看延迟优化请求的指标。
延迟优化推理适用于Meta的Llama 3.1 70B和405B,以及美国东部(俄亥俄州)地区Anthropic的Claude 3.5 Haiku,可通过跨区域推断进行推理。有关定价的更多信息,请访问定价页面
注意
Llama 3.1 405B 的延迟优化推理目前支持输入和输出令牌总数高达 11K 的请求。对于较大的代币数量请求,我们将回退到标准模式。
基础模型 | 型号编号 | 支持的区域 |
Anthropic Claude 3.5 |
us.anthropic.claude-3-5-haiku-20241022-v 1:0 |
美国东部(俄亥俄州)、美国西部(俄勒冈) |
Meta Llama 3.1 70B Instruct | us.meta.llama3-1-70 1:0 b-instruct-v |
美国东部(俄亥俄州)、美国西部(俄勒冈) |
Llama 3.1 405B Instruct |
us.meta.llama3-1-405 1:0 b-instruct-v | 美国东部(俄亥俄州) |