本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Bedrock 的配额
您的 AWS 账户 为 Amazon Bedrock 设置了默认配额,以前称为限制。要查看 Amazon Bedrock 的服务配额,请按照查看服务配额中的步骤进行操作,然后选择 Amazon Bedrock 作为服务。有些配额因型号而异。除非另有说明,否则配额适用于模型的所有版本。
为了保持服务的性能并确保适当使用 Amazon Bedrock,分配给账户的默认配额可能会根据地区因素、付款历史记录、欺诈性使用情况和/或配额增加请求的批准情况进行更新。
您可以按照以下步骤申请增加账户的配额:
选择一个主题以了解有关其默认全球配额的更多信息。除非另有说明,否则所有全球和区域配额均相同。
在您进行模型推理时,以下配额适用。这些配额考虑了 Converse、ConverseStreamInvokeModel、和InvokeModelWithResponseStream请求的总和。推理延迟因模型而异,与输入和输出令牌的数量以及当时所有客户的持续按需请求总数成正比。为了保证吞吐量,我们建议您尝试预配置吞吐量。
模型 | 每分钟处理的请求数 | 每分钟处理的令牌数 | 区域 | 通过 Service Quotas 进行调整 |
---|---|---|---|---|
AI21 Labs Jurassic-2 Mid | 400 | 300,000 | us-east-1 | 否 |
AI21 Labs Jurassic-2 Ultra | 100 | 300,000 | 全部 | 否 |
AI21 Jamba-Instruct | 100 | 300,000 | 全部 | 否 |
Amazon Titan 文本嵌入 V1 | 2000 | 300,000 | 全部 | 否 |
Amazon Titan Text Embeddings V2 | 2000 | 300,000 | 全部 | 否 |
Amazon Titan Image Generator G1 V1 | 60 | 不适用 | 全部 | 否 |
Amazon Titan Image Generator G1 V2 | 60 | 不适用 | 全部 | 否 |
Amazon Titan Multimodal Embeddings G1 | 2000 | 300,000 | 全部 | 否 |
Amazon Titan Text G1 - Express | 400 | 300,000 | 全部 | 否 |
Amazon Titan Text G1 - Lite | 800 | 300,000 | 全部 | 否 |
Amazon Titan Text Premier | 100 | 300,000 | 全部 | 否 |
Anthropic Claude Instant | 1000 | 1000000 |
us-east-1 us-west-2 |
否 |
400 | 300,000 | 其他地区 | ||
Anthropic Claude 2.x | 500 | 500,000 |
us-east-1 us-west-2 |
否 |
100 | 200,000 | 其他地区 | ||
Anthropic Claude 3 Sonnet | 500 | 1000000 |
us-east-1 us-west-2 |
否 |
100 | 200,000 | 其他地区 | ||
Anthropic Claude 3 Haiku | 1000 | 2,000,000 |
us-east-1 us-west-2 |
否 |
200 | 200,000 |
ap-northeast-1 ap-southeast-1 |
||
400 | 300,000 | 其他地区 | ||
Anthropic Claude 3.5 Sonnet | 250 | 2,000,000 | us-west-2 | 否 |
20 | 200,000 |
ap-northeast-1 ap-southeast-1 eu-central-1 |
否 | |
50 | 400,000 | 其他地区 | 否 | |
Anthropic Claude 3 Opus | 50 | 400,000 | 全部 | 否 |
Cohere Command R | 400 | 300,000 | 全部 | 否 |
Cohere Command R+ | 400 | 300,000 | 全部 | 否 |
Cohere Command | 400 | 300,000 | 全部 | 否 |
Cohere Command Light | 800 | 300,000 | 全部 | 否 |
Cohere Embed (英语) | 2000 | 300,000 | 全部 | 否 |
Cohere Embed (多语言) | 2000 | 300,000 | 全部 | 否 |
Meta Llama 2 13B | 800 | 300,000 | 全部 | 否 |
Meta Llama 2 70B | 400 | 300,000 | 全部 | 否 |
Meta Llama 3 8B Instruct | 800 | 300,000 | 全部 | 否 |
Meta Llama 3 70B Instruct | 400 | 300,000 | 全部 | 否 |
Meta Llama 3.1 8B Instruct | 800 | 300,000 | us-west-2 | 否 |
Meta Llama 3.1 70B Instruct | 400 | 300,000 | us-west-2 | 否 |
Meta Llama 3.1 405B Instruct | 200 | 400,000 | us-west-2 | 否 |
Mistral AI Mistral 7B Instruct | 800 | 300,000 | 全部 | 否 |
Mistral AI Mixtral 8X7B Instruct | 400 | 300,000 | 全部 | 否 |
Mistral AI Mistral Large | 400 | 300,000 | 全部 | 否 |
Mistral AI Mistral Large 2 (24.07) | 400 | 300,000 | us-west-2 | 否 |
Mistral AI Mistral Small | 400 | 300,000 | 全部 | 否 |
Stable Diffusion XL | 60 | 不适用 | 全部 | 否 |
Stable Diffusion 3 | 60 | 不适用 | 美国西部(俄勒冈州)(us-west-2) | 否 |
Stable Diffusion 3 大型 | 15 | 不适用 | 美国西部(俄勒冈州)(us-west-2) | 否 |
超稳定图像 | 10 | 不适用 | 美国西部(俄勒冈州)(us-west-2) | 否 |
稳定的图像核心 | 90 | 不适用 | 美国西部(俄勒冈州)(us-west-2) | 否 |
下表显示了 Amazon Bedrock 中每秒允许进行不同API操作的最大API请求数:
功能 | API操作 | 每秒最大请求数 |
---|---|---|
不适用 | 交谈 | 200 |
ConverseStream | 200 | |
DeleteModelInvocationLoggingConfiguration | 1 | |
GetFoundationModel | 10 | |
GetModelInvocationLoggingConfiguration | 10 | |
InvokeModel | 200 | |
InvokeModelWithResponseStream | 200 | |
ListFoundationModels | 10 | |
ListTagsForResource | 20 | |
PutModelInvocationLoggingConfiguration | 1 | |
TagResource | 20 | |
UntagResource | 20 | |
代理 | AssociateAgentKnowledgeBase | 6 |
CreateAgent | 6 | |
CreateAgentActionGroup | 12 | |
CreateAgentAlias | 2 | |
DeleteAgent | 2 | |
DeleteAgentActionGroup | 2 | |
DeleteAgentAlias | 2 | |
DeleteAgentVersion | 2 | |
DisassociateAgentKnowledgeBase | 4 | |
GetAgent | 15 | |
GetAgentActionGroup | 20 | |
GetAgentAlias | 10 | |
GetAgentKnowledgeBase | 15 | |
GetAgentVersion | 10 | |
ListAgents | 10 | |
ListAgentActionGroups | 10 | |
ListAgentAliases | 10 | |
ListAgentKnowledgeBases | 10 | |
ListAgentVersions | 10 | |
PrepareAgent | 2 | |
UpdateAgent | 4 | |
UpdateAgentActionGroup | 6 | |
UpdateAgentAlias | 2 | |
UpdateAgentKnowledgeBase | 4 | |
自定义模型 | CreateModelCustomizationJob | 1 |
DeleteCustomModel | 10 | |
GetCustomModel | 10 | |
GetModelCustomizationJob | 10 | |
ListModelCustomizationJobs | 10 | |
StopModelCustomizationJob | 10 | |
防护机制 | CreateGuardrail | 1 |
CreateGuardrailVersion | 1 | |
DeleteGuardrail | 1 | |
GetGuardrail | 10 | |
ListGuardrails | 10 | |
UpdateGuardrail | 1 | |
知识库 | CreateDataSource | 2 |
CreateKnowledgeBase | 2 | |
DeleteDataSource | 2 | |
DeleteKnowledgeBase | 2 | |
GetDataSource | 10 | |
GetIngestionJob | 10 | |
GetKnowledgeBase | 10 | |
ListDataSources | 10 | |
ListIngestionJobs | 10 | |
ListKnowledgeBases | 10 | |
检索 | 5 | |
RetrieveAndGenerate | 5 | |
StartIngestionJob | 0.1 | |
UpdateDataSource | 2 | |
UpdateKnowledgeBase | 2 | |
模型评估 | CreateEvaluationJob | 5 |
GetEvaluationJob | 10 | |
ListEvaluationJobs | 10 | |
StopEvaluationJob | 5 | |
预调配吞吐量 | CreateProvisionedModelThroughput | 1 |
DeleteProvisionedModelThroughput | 1 | |
GetProvisionedModelThroughput | 10 | |
ListProvisionedModelThroughputs | 10 | |
UpdateProvisionedModelThroughput | 1 |
选择一个选项卡可查看特定型号的提示配额。
运行批量推理时,以下配额适用:
限额 | 最高 | 通过 Service Quotas 进行调整 | 描述 |
---|---|---|---|
基础模型的并发批量推理作业 | 3 | 是 | 基础模型可以进行的最大批量推理作业数。 |
自定义模型的并发批量推理作业 | 3 | 是 | 自定义模型可以进行的最大批量推理作业数。 |
每个批处理推理输入文件的记录 | 50000 | 是 | 批量推理作业的输入文件中可以包含的最大记录数。 |
每个批次推理作业的记录 | 50000 | 是 | 批量推理作业中可以包含的最大记录数。 |
每个批量推理作业的最小记录数 | 1000 | 否 | 批量推理作业中可以包含的最小记录数。 |
Batch 推理输入文件大小 | 200 MB | 是 | 提交以进行批量推断的单个文件的最大大小(以字节为单位)。 |
Batch 推理任务规模 | 1 GB | 是 | 批量推理作业中包含的所有输入文件的最大累积大小。 |
使用护栏时,将强制执行以下配额。
限额 | 描述 | 值 |
---|---|---|
每个账户的护栏 | 一个账户中护栏的最大数量。 | 100 |
每个护栏的版本 | 护栏可以拥有的最大版本数。 | 20 |
每个主题的主题护栏 | 可以跨护栏主题策略定义的最大主题数。 | 30 |
每个主题的示例短语 | 一个主题中可以包含的最大主题示例数量。 | 5 |
敏感信息过滤器中的正则表达式 | 敏感信息策略中可以包含的护栏过滤器正则表达式的最大数量 | 10 |
以字符为单位的正则表达式长度 | 护栏过滤器正则表达式的最大长度(以字符为单位)。 | 500 |
“每字字数” 政策 | 屏蔽单词列表中可以包含的最大单词数。 | 10000 |
以字符为单位的单词长度 | 屏蔽单词列表中单词的最大长度(以字符为单位)。 | 100 |
每秒按需 ApplyGuardrail 请求数 | 每秒允许的最大 ApplyGuardrail API呼叫数。 | 25 |
按需 ApplyGuardrail 拒绝的主题策略文本单位每秒。 | “已拒绝” 主题策略每秒可处理的最大文本单元数。 | 25 |
按需 ApplyGuardrail 内容筛选策略每秒文本单位数 | 内容筛选策略每秒可处理的最大文本单元数。 | 25 |
按需 ApplyGuardrail 字词过滤策略每秒文本单位数 | Word 筛选策略每秒可处理的最大文本单元数。 | 25 |
按需 ApplyGuardrail 敏感信息筛选策略文本单位每秒 | 敏感信息筛选策略每秒可处理的最大文本单元数。 | 25 |
注意
一个文本单位最多可包含 1,000 个字符
以下配额适用于 Amazon Bedrock 知识库。
描述 | 最高 | 通过 Service Quotas 进行调整 | 描述 |
---|---|---|---|
每个地区每个账户的知识库 | 100 | 否 | 每个账户的最大知识库数量。 |
每个知识库的数据源 | 5 | 否 | 每个知识库的最大数据源数量。 |
数据源区块大小 (Titan 文本 G1-嵌入) | 8192 | 否 | 数据源的最大大小(以 KB 为单位) Titan Embeddings G1 - Text. |
数据源区块大小 (Cohere Embed 英语) | 512 | 否 | 数据源的最大大小(以 KB 为单位) Cohere Embed 英语。 |
数据源区块大小 (Cohere Embed 多语言) | 512 | 否 | 数据源的最大大小(以 KB 为单位) Cohere Embed 多语言。 |
数据源每个区块的元数据字段/属性总数。 | 250 | 否 | 每个区块的文档元数据字段/属性的最大数量。 |
Web Crawler 的数据源已爬网内容项总数 | 25000 | 否 | 可以抓取的网页内容项的最大数量(每个内容项最大 50 MB)。 |
数据源已爬取的文件总数 | 250 万 | 否 | 可以抓取的数据源文件或内容项目的最大数量(每个文件/内容项最大 50 MB)。 |
高级解析总数据大小 | 100 MB | 否 | 使用高级解析可以解析的数据的最大组合大小(以 MB 为单位)。 |
高级解析文件总数 | 100 | 否 | 使用高级解析可以解析的最大文件数。 |
每个摄取任务要添加或更新的文件 | 5,000,000 | 否 | 每个摄取任务可以载入的最大新文件和更新文件数。 |
每个摄取任务要删除的文件 | 5,000,000 | 否 | 每个摄取任务可以删除的最大文件数。 |
摄取任务文件大小(源文档) | 50 MB | 否 | 摄取作业中源文档文件的最大大小(以 MB 为单位)。 |
摄取任务文件大小(元数据文件) | 10 KB | 否 | 摄取任务中元数据文件的最大大小(以 KB 为单位)。 |
摄取任务规模 | 100 GB | 否 | 摄取任务的最大大小(以 GB 为单位)。 |
每个数据源的并发摄取作业 | 1 | 否 | 一个数据源可以同时执行的最大摄取任务数。 |
每个知识库的并发摄取作业 | 1 | 否 | 知识库可以同时执行的最大摄取作业数。 |
每个账户的并发摄取任务数 | 5 | 否 | 一个账户中可以同时执行的最大摄取任务数。 |
用户查询大小 | 1000 | 否 | 用户查询的最大大小(以字符为单位)。 |
以下配额适用于 Amazon Bedrock Agents。
限额 | 最高 | 通过 Service Quotas 进行调整 | 描述 |
---|---|---|---|
每个账户的代理数 | 50 | 可以 | 一个账户中代理的最大数量。 |
每个代理的关联别名 | 10 | 否 | 您可以与代理关联的最大别名数。 |
代理说明中的字符 | 4,000 | 是 | 代理说明中的最大字符数。 |
每个代理的操作组 | 20 | 是 | 您可以向代理添加的操作组的最大数量。 |
已为每个代理启用操作组 | 11 | 是 | 可以在代理中启用的最大操作组数。 |
APIs或每个代理的函数 | 11 | 是 | 您可以APIs向代理添加的最大数量。 |
每个函数的参数 | 5 | 是 | 您可以为操作组的函数添加的最大参数数。 |
Lambda 响应有效负载大小 | 25 KB | 否 | 操作组 Lambda 响应中有效负载的最大大小。 |
每个代理的相关知识库数 | 2 | 可以 | 您可以与代理关联的最大知识库数量。 |
以下配额适用于提示管理。
限额 | 最高 | 通过 Service Quotas 进行调整 | 描述 |
---|---|---|---|
每个账户的提示数 | 50 | 不可以 | 在提示管理中,你可以在一个账户中拥有的最大提示数。 |
每个提示的版本 | 10 | 否 | 提示管理中提示可以拥有的最大版本数。 |
以下配额适用于提示流。
限额 | 最高 | 通过 Service Quotas 进行调整 | 描述 |
---|---|---|---|
每个账户的提示流量 | 10 | 否 | 一个账户中可以拥有的最大提示流数量。 |
每个提示流的节点数 | 20 | 否 | 在提示流中可以拥有的最大节点数。 |
每个提示流的版本 | 10 | 否 | 提示流可以拥有的最大版本数。 |
每个提示流的别名 | 10 | 否 | 您可以与提示流关联的最大别名数。 |
每个账户的提示流量 | 10 | 否 | 一个账户中可以拥有的最大提示流数量。 |
每个账户的提示流量 | 10 | 否 | 一个账户中可以拥有的最大提示流数量。 |
每个提示流的流输入节点 | 1 | 否 | 您可以添加到提示流的最大流程输入节点数。 |
每个提示流的流输出节点 | 5 | 否 | 您可以添加到提示流的最大流程输出节点数。 |
每个提示流的条件节点 | 5 | 否 | 您可以添加到提示流的最大条件节点数。 |
每个提示流的迭代器节点 | 1 | 否 | 可以添加到提示流中的迭代器节点的最大数量。 |
每个提示流的收集器节点数 | 1 | 否 | 可以添加到提示流的最大收集器节点数。 |
每个提示流的提示节点 | 5 | 否 | 您可以添加到提示流的最大提示节点数。 |
每个提示流的 Lambda 节点数 | 5 | 否 | 您可以添加到提示流的最大 Lambda 节点数。 |
每个提示流的 Lex 节点数 | 5 | 否 | 您可以添加到提示流的最大 Lex 节点数。 |
每个提示流中每种节点类型的节点数 | 5 | 否 | 在提示流中,您可以为每种类型添加的最大节点数。 |
每个条件节点的条件 | 5 | 否 | 在提示流中,您可以向条件节点添加的最大条件数。 |
以下配额适用于模型自定义。
描述 | 最高 | 通过 Service Quotas 进行调整 |
---|---|---|
一个账户中导入的模型的最大数量。 | 3 | 是 |
计划自定义任务的最大数量。 | 2 | 否 |
一个账户中自定义模型的最大数量。 | 100 | 是 |
要查看超参数配额,请参阅自定义模型超参数。
选择一个选项卡可查看适用于用于自定义不同基础模型的训练和验证数据集的模型特定配额。
以下配额适用于预调配吞吐量。
注意
如果通过 Service Quotas 将配额标记为不可调整,则您可以通过提高限额表
描述 | 默认 | 通过 Service Quotas 进行调整 |
---|---|---|
可以在无承诺预置吞吐量之间分配的模型单元 | 2 | 否 |
对可按承诺在预配置吞吐量之间分配的单位进行建模 | 0 | 否 |
以下配额适用于模型评估作业,
作业类型 | 描述 | 默认 | 可调整 |
---|---|---|---|
自动 |
您可以在自动模型评估作业中指定的最大数据集数。这包括自定义和内置提示数据集。 |
5 | 否 |
自动 |
在自动模型评估作业中,您可以为每个数据集指定的最大指标数。这包括自定义指标和内置指标。 |
3 | 否 |
人力 |
在使用人工操作的模型评估作业中,您可以指定的最大自定义指标数量。 |
10 | 否 |
自动 |
您可以在自动模型评估作业中指定的最大模型数量。 |
1 | 否 |
人力 |
在使用人工操作的模型评估作业中,您可以指定的最大模型数量。 |
2 | 否 |
自动 |
在当前区域的此账户中,您一次可以指定的最大自动模型评估任务数量。 |
20 | 否 |
人力 |
在当前区域的此账户中,您一次可以指定的使用人类工作者的模型评估作业的最大数量。 |
10 | 否 |
二者 |
您可在当前区域的该账户中创建的最大模型评估任务数量。 |
500 | 否 |
人力 |
在当前区域的此账户中,您可以在基于人类的模型评估作业中指定的最大自定义提示数据集数量。 |
1 | 否 |
二者 |
自定义提示数据集可以包含的最大提示数。 |
1000 | 否 |
二者 |
单个提示的最大大小(以 KB 为单位)是自定义提示数据集。 |
4 KB | 否 |
人力 |
工作人员完成任务的最大时间长度(以天为单位)。 |
30 | 否 |