本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
指导方针和配额
除非另有说明,否则 Amazon Comprehend 配额是按地区划分的。如果应用程序需要,您可以申请增加可调整的配额。有关配额的信息以及申请增加配额,请参阅 S AWService Quotas。
支持的区域
Amazon Comprehend 在以下地区上市:AWS
-
美国东部(俄亥俄州)
-
美国东部(弗吉尼亚北部)
-
美国西部(俄勒冈州)
-
Asia Pacific (Mumbai)
-
亚太地区(首尔)
-
亚太地区(新加坡)
-
亚太地区(悉尼)
-
亚太地区(东京)
-
加拿大(中部)
-
欧洲地区(法兰克福)
-
欧洲地区(爱尔兰)
-
欧洲地区(伦敦)
-
AWS GovCloud (美国西部)
默认情况下,Amazon Comprehend 在每个支持的区域提供所有 API 操作。有关例外情况,请参阅文件处理。
有关 API 终端节点的信息,请参阅亚马逊 Web Services 一般参考中的亚马逊 Comprehend 区域和终端节点。
要查看某个地区的当前配额或请求增加可调整配额的配额,请打开 S ervice Quotas 控制台
内置模型的配额
Amazon Comprehend 提供内置模型供您分析 UTF-8 文本文档。Amazon Comprehend 提供使用内置模型的同步和异步操作。
实时(同步)分析
本节介绍与使用内置模型进行实时分析相关的配额。
单一文档操作
Amazon Comprehend API 提供的操作将单个文档作为输入。以下配额适用于这些操作。
单个文档操作的通用配额
以下配额适用于用于检测实体、关键短语或主导语言的实时分析。对于实体检测,这些配额适用于使用内置模型进行检测。有关自定义实体检测的信息,请参阅中的配额自定义实体识别 。
描述 | 配额/指南 |
---|---|
最大文档大小 | 100 KB |
单个文档操作的特定操作配额
以下配额适用于用于检测情绪、目标情绪和语法的实时分析。
描述 | 配额/指南 |
---|---|
最大文档大小 | 5 KB |
多个文档操作
Amazon Comprehend API 提供批量操作,只需一个 API 请求即可处理多个文档。以下配额适用于批量操作。
描述 | 配额/指南 |
---|---|
最大文档大小 | 5 KB |
每次请求的最大文件数 | 25 |
有关使用批处理文档操作的更多信息,请参阅多文档同步处理。
实时(同步)请求的请求限制
Amazon Comprehend 对同步请求应用动态限制。如果系统处理带宽可用,Amazon Comprehend 处理的请求数量可能会超过规定的默认配额。不要依赖 Service Quotas 来控制应用程序对同步 API 操作的使用。为了控制使用量,我们建议您在应用程序中开启账单提醒或实施速率限制。
异步分析
本节介绍与使用内置模型进行异步分析相关的配额。
每个异步 API 操作最多支持 10 个活动作业。要查看每个 API 操作的配额,请参阅 Amazon Comprehend 终端节点中的服务配额表和亚马逊网络服务一般参考中的配额。
对于可调整的配额,您可以使用 Service Quotas 控制台申请增加配额
异步操作的一般配额
您可以使用控制台或任何 API Start*
操作运行异步分析作业。有关何时使用异步操作的信息,请参见异步批处理。以下配额适用于内置模型的大多数 API Start*
操作。有关例外情况,请参阅异步作业的特定操作配额。
描述 | 配额/指南 |
---|---|
检测实体、关键短语、PII 和语言的作业中每个文档的最大大小 | 1MB |
请求中所有文件的最大总大小 | 5GB |
请求中所有文件的最小总大小 | 500 个字节 |
最大文件数,每个文件一个文档 | 1000000 |
最大总行数,每行一个文档 | 1000000 |
异步作业的特定操作配额
本节介绍特定异步操作的配额。如果下表中未指定配额,则适用一般配额值。
情绪
您使用该操作创建的异步情绪StartSentimentDetectionJob作业具有以下配额。
描述 | 配额/指南 |
---|---|
每个输入文档的最大大小 | 5 KB |
有针对性的情绪
您通过该操作创建的异步定向情绪StartTargetedSentimentDetectionJob作业具有以下配额。
描述 | 配额/指南 |
---|---|
支持的文档格式 | UTF-8 |
作业中每个文档的最大大小 | 10 KB |
作业中所有文档的最大大小 | 300 MB |
最大文件数,每个文件一个文档 | 30000 |
最大总行数,每行一个文档(适用于请求中的所有文件) | 30000 |
事件
您通过该StartEventsDetectionJob操作创建的异步事件检测任务具有以下配额。
描述 | 配额 |
---|---|
字符编码 | UTF-8 |
作业中所有文件的总大小 | 50 MB |
作业中每个文档的最大大小 | 10 KB |
最大文件数,每个文件一个文档 | 5000 |
最大总行数,每行一个文档(适用于请求中的所有文件) | 5000 |
主题建模
您使用操作创建的异步主题建模StartTopicsDetectionJob作业具有以下配额。
描述 | 配额/指南 |
---|---|
字符编码 | UTF-8 |
要返回的最大主题数 | 100 |
一个文件的最大文件大小,每个文件一个文档 | 100MB |
有关更多信息,请参阅 主题建模。
异步请求的请求限制
每个异步 API 操作支持每秒的最大请求数(每个区域、每个账户),还支持最多 10 个活动任务。要查看每个 API 操作的配额,请参阅 Amazon Comprehend 终端节点中的服务配额表和亚马逊网络服务一般参考中的配额。
对于可调整的配额,您可以使用 Service Quotas 控制台申请增加配额
自定义模型的配额
您可以使用 Amazon Comprehend 构建自己的自定义模型,用于自定义分类和自定义实体识别。本节提供与训练和使用自定义模型相关的指南和配额。有关自定义模型的更多信息,请参阅亚马逊 Comprehend Custom。
常规配额
Amazon Comprehend 为每种类型的输入文档设置了通用大小配额,您可以使用自定义模型进行分析。有关实时分析配额,请参阅用于实时分析的最大文档大小。有关异步分析配额的信息,请参阅异步自定义分析的输入。
每个异步 API 操作支持每秒的最大请求数(每个区域、每个账户),还支持最多 10 个活动任务。要查看每个 API 操作的配额,请参阅 Amazon Comprehend 终端节点中的服务配额表和亚马逊网络服务一般参考中的配额。
对于可调整的配额,您可以使用 Service Quotas 控制台申请增加配额
终端节点配额
您可以创建端点以使用自定义模型运行实时分析。有关终端节点的信息,请参阅管理 Amazon Comprehend 终端节点。
以下配额适用于终端节点。有关如何申请增加配额的信息,请参阅 S AWService Quotas。
描述 | 配额/指南 |
---|---|
每个账户每个区域的活动终端节点的最大数量 | 20 |
每个账户每个区域的最大推理单元数 | 200 |
每个区域每个端点的最大推理单元数 | 50 |
每个推理单位的最大吞吐量(字符) | 100/秒 |
每个推理单元的最大吞吐量(文档) | 2/秒 |
文件分类
本节介绍以下文档分类操作的指导原则和配额:
-
从CreateDocumentClassifier操作开始的分类器训练作业。
您从操作开始执行的异步文档分类StartDocumentClassificationJob作业。
-
使用该ClassifyDocument操作的同步文档分类请求。
文件分类的一般配额
下表描述了与训练自定义分类器相关的一般配额。
描述 | 配额/指南 |
---|---|
类名的最大长度 | 5000 个字符 |
类数(多类模式) | 2—1,000 |
类数(多标签模式) | 2—100 |
注释格式 | |
每个类的最小注释数量(多类模式) | 10 |
每个类的最小注释数量(多标签模式) | 10 |
最小批注数量(多标签模式) | 50 |
CSV 文件格式 | |
每堂课的最小培训文件数量(多课模式) | 50 |
每堂课的最小培训文档数量(多标签模式) | 10 |
培训文档的最小数量(多标签模式) | 50 |
纯文本文档的分类
您可以使用纯文本输入文档创建和训练纯文本模型。Amazon Comprehend 提供实时和异步操作,使用纯文本模型对纯文本文档进行分类。
培训
下表描述了与使用纯文本文档训练自定义分类器相关的配额。
描述 | 配额/指南 |
---|---|
训练作业中所有文件的总大小 | 5GB |
用于训练自定义分类器的增强清单文件的最大数量 | 5 |
每个增强的清单文件的最大属性名称数 | 5 |
属性名称的最大长度 | 63 个字符 |
实时(同步)分析
下表描述了与纯文本文档实时分类相关的配额。
描述 | 配额/指南 |
---|---|
每个同步请求的最大文档数 | 1 |
最大文本文档大小(UTF-8 编码) | 10 KB |
异步分析
下表描述了与纯文本文档异步分类相关的配额。
描述 | 配额/指南 |
---|---|
异步作业中所有文件的总大小 | 5GB |
一个文件的最大文件大小,每个文件一个文档 | 10 MB |
最大文件数,每个文件一个文档 | 1000000 |
最大总行数,每行一个文档(适用于请求中的所有文件) | 1000000 |
半结构化文档的分类
本节介绍半结构化文档的文档分类准则和配额。要对半结构化文档进行分类,请使用使用原生输入文档训练过的本机文档模型。
使用半结构化文档训练原生文档模型
下表描述了与使用半结构化文档(例如 PDF 文档、Word 文档和图像文件)训练自定义分类器相关的配额。
描述 | 配额/指南 |
---|---|
所有文档的最大页数 | 10000 |
最大批注文件大小(所有 CSV 文件大小合计) | 5MB |
文档语料库大小(培训和测试文档) | 10GB |
训练和测试文件的文件大小 | |
图像文件大小(JPG、PNG、TIFF)。 | 1 字节 — 10 MB。 TIFF 文件:最多一页。 |
PDF 文档的页面大小 | 1 字节 — 10 MB |
Word 文档的页面大小 | 1 字节 — 10 MB |
亚马逊 Textract API 输出 JSON 大小 | 1 字节 — 1 MB |
实时(同步)分析
本节介绍与半结构化文档的实时分类相关的配额。
下表显示了输入文档的最大文件大小。对于所有输入文档类型,输入文件的最大值为一页,不超过 10,000 个字符。
文件类型 | 最大大小 (API) | 最大大小(控制台) |
---|---|---|
UTF-8 文本文档 | 10 KB | 10 KB |
PDF 文档 | 10 MB | 5MB |
Word 文档 | 10 MB | 5MB |
图像文件 | 10 MB | 5MB |
亚马逊 Textract API 输出大小 | 1MB | 不适用 |
异步分析
下表描述了与半结构化文档异步分类相关的配额。
描述 | 配额/指南 |
---|---|
作业所有输入文档的最大页数 | 25000 |
文档语料库大小 | 25 GB |
图像文件大小(JPG、PNG 或 TIFF) | 1 字节 — 10 MB。 TIFF 文件:最多一页。 |
PDF 文档的页面大小 | 1 字节 — 10 MB |
Word 文档的页面大小 | 1 字节 — 10 MB |
Textract API 输出 JSON 大小 | 1 字节 — 1 MB。 |
自定义实体识别
本节介绍以下自定义实体识别操作的指导原则和配额:
实体识别器训练作业从CreateEntityRecognizer操作开始。
异步实体识别作业从该StartEntitiesDetectionJob操作开始。
使用DetectEntities操作同步实体识别请求。
纯文本文档的自定义实体识别
Amazon Comprehend 提供异步和同步操作,可使用自定义实体识别器分析纯文本文档。
培训
本节介绍与训练自定义实体识别器以分析纯文本文档相关的配额。要训练模型,您可以提供实体列表或一组带注释的文本文档。
下表描述了与使用实体列表训练模型相关的配额。
描述 | 配额/指南 |
---|---|
每个模型的实体数量 | 1—25 |
文件大小 (UTF-8) | 1—5,000 字节 |
实体列表中的项目数 | 1—1 百万 |
参赛名单中单个条目(poststrip)的长度 | 1—5,000 |
实体列表语料库大小(所有文档合并为纯文本) | 5 KB —200 MB |
下表描述了与使用带注释的文本文档训练模型相关的配额。
描述 | 配额/指南 |
---|---|
每个模型/自定义实体识别器的实体数量 | 1—25 |
文件大小 (UTF-8) | 1—5,000 字节 |
文档数量(参见纯文本注释) | 3—200,000 |
文档语料库大小(所有文档合并为纯文本) | 5 KB-200 MB |
每个实体的最小注释数量 | 25 |
实时(同步)分析
下表描述了与纯文本文档实时分析相关的配额。
描述 | 配额/指南 |
---|---|
每个同步请求的最大文档数 | 1 |
最大文本文档大小(UTF-8 编码) | 5 KB |
异步分析
下表描述了与纯文本文档的异步实体识别相关的配额。
描述 | 配额/指南 |
---|---|
文件大小 (UTF-8) | 1 字节 — 1 MB |
最大文件数,每个文件一个文档 | 1000000 |
最大总行数,每行一个文档(适用于请求中的所有文件) | 1000000 |
文档语料库大小(所有文档合并为纯文本) | 1 字节 — 5 GB |
半结构化文档的自定义实体识别
Amazon Comprehend 提供异步和同步操作,可使用自定义实体识别器分析半结构化文档。必须使用带注释的 PDF 文档训练模型。
培训
下表描述了与训练自定义实体识别器 (CreateEntityRecognizer) 以分析半结构化文档相关的配额。
描述 | 配额/指南 |
---|---|
每个模型/自定义实体识别器的实体数量 | 1—25 |
最大注解文件大小 (UTF-8 JSON) | 5MB |
文件数量 | 250—10,000 |
文档语料库大小(所有文档合并为纯文本) | 5 KB—1 GB |
每个实体的最小注释数量 | 100 |
用于训练自定义实体识别器的增强清单文件的最大数量 | 5 |
每个增强的清单文件的最大属性名称数 | 5 |
属性名称的最大长度 | 63 个字符 |
实时(同步)分析
本节介绍与半结构化文档的实时分析相关的配额。
下表显示了输入文档的最大文件大小。对于所有输入文档类型,输入文件的最大值为一页,不超过 10,000 个字符。
文件类型 | 最大大小 (API) | 最大大小(控制台) |
---|---|---|
UTF-8 文本文档 | 10 KB | 10 KB |
PDF 文档 | 10 MB | 5MB |
Word 文档 | 10 MB | 5MB |
图像文件 | 10 MB | 5MB |
Textract 输出文件 | 1MB | 不适用 |
异步分析
本节介绍半结构化文档异步分析的配额。
描述 | 配额/指南 |
---|---|
图像尺寸(JPG 或 PNG) | 1 字节 — 10 MB |
图像尺寸 (TIFF) | 1 字节 — 10 MB。最多一页。 |
文件大小 (PDF) | 1 字节 — 50 MB |
文件大小 (Docx) | 1 字节 — 5 MB |
文件大小 (UTF-8) | 1 字节 — 1 MB |
最大文件数,每个文件一个文档(图像文件或 PDF/Word 文档不允许每行一个文档) | 500 |
PDF 或 Docx 文件的最大页数 | 100 |
文本提取后的文档语料库大小(纯文本,所有文件合并) | 1 字节 — 5 GB |
有关图片限制的更多信息,请参阅 Amazon Textract 中的硬限制
飞轮配额
使用飞轮管理自定义模型版本的训练和跟踪,以进行自定义分类和自定义实体识别。有关飞轮的更多信息,请参阅飞轮。
飞轮的一般配额
以下配额适用于飞轮和飞轮迭代。
描述 | 配额/指南 |
---|---|
飞轮的最大数量 | 50 |
处于 “创建” 状态的飞轮的最大数量 | 10 |
每个飞轮的最大训练数据集数 | 50 |
每个飞轮的最大测试数据集数 | 50 |
处于摄取状态的数据集的最大数量 | 10 |
每个账户进行中的飞轮迭代的最大次数 | 10 |
自定义分类模型的数据集配额
当你为与自定义分类模型关联的飞轮摄取数据集时,以下配额适用。
描述 | 配额/指南 |
---|---|
每堂课的最小培训文档数量(多标签模式) | 50 |
培训文档的最大数量 | 1000000 |
最小数据集大小 | 500 个字节 |
最大数据集大小 | 5GB |
一个文件的最大文件大小,每个文件一个文档 | 10 MB |
自定义实体识别模型的数据集配额
当你为与自定义实体识别模型关联的飞轮提取数据集时,以下配额适用。
描述 | 配额/指南 |
---|---|
最大文档大小 | 5 KB |
培训文件的最低数量 | 3 |
培训文档的最大数量 | 200,000 |
每个实体的最小注释数量 | 25 |
最大数据集大小 | 200 MB |