准则和配额 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

准则和配额

如果您的应用程序需要,可以增加此处显示的许多 Amazon Comprehend 配额。有关服务配额以及请求提高配额的信息,请参阅AWS Service Quotas.

使用 Amazon Comprehend 时,请记住以下信息。

支持的区域

有关可以使用 Amazon Comprehend 的 AWS 区域列表,请参阅AWS 区域和终端节点中的Amazon Web Services 一般参考.

总配额

除情绪分析和语法检测外,所有单文档同步操作都具有以下配额。

描述 配额/指南
字符编码 UTF-8
最大文档大小 100 KB

情绪分析、语法检测和批量同步操作的最大文档大小为 5 KB。

Amazon Comprehend 可能会存储您的内容以持续改进其分析模型的质量。请参阅Amazon Comprehend reh了解更多信息。

限制单笔交易

您可以通过使用批处理操作而不是单个事务操作来避免限制。有关更多信息,请参阅 多个文档操作

多个文档操作

这些区域有:BatchDetectDominantLanguageBatchDetectEntitiesBatchDetectKeyPhrases, 和BatchDetectSentiment操作具有以下配额。

描述 配额/指南
每个请求的文件 25

如果您计划每秒发送 20 个以上的请求,您应该考虑使用批处理操作。通过批量操作,您可以在每个请求中发送更多文档,这可能会导致更高的吞吐量。例如,当您使用DetectDominantLanguage操作时,您每秒最多可以发送 20 个文档。但是,如果您使用BatchRequestDominantLanguage操作时,每秒最多可以发送 250 个文档,但处理速度可能会更低。有关限制配额的更多信息,请参阅Amazon Comprehend reh中的Amazon Web Services 一般参考. 有关如何使用多文档 API 操作的更多信息,请参阅多文档同步处理.

并发活动异步作业

您可以使用 Amazon Comprehend 控制台或其中一个API_Start*operation. 每个账户最多可以具有给定任务类型的 10 个并发活动作业。

描述 配额/指南
每个作业类型的最大并发活动作业数 10

异步作业

使用其中一个运行的异步分析作业API_Start*操作具有以下配额。

描述 配额/指南
检测实体、关键短语、PII 和语言的作业中每个文档的最大大小 1MB
检测情绪的作业中每个文档的最大大小 5 5
批处理所有文件的总大小 5GB
每个最大文件数 1000000

你应该使用异步操作:

  • 一次分析 25 个以上的文档

  • 分析大于 5,000 字节的文档中的关键字和实体

有关更多信息,请参阅 异步批处理过程

有针对性的情绪

目标情绪仅支持异步分析作业。使用创建的就业机会StartTargetedSentimentDetectionJob操作具有以下配额。

有针对性的情绪检测-推断 (StartTargetedSentimentDetectionJob)
描述 配额/指南
支持的文档格式 UTF-8
作业中每个文档的最大文件数 10 KB
作业中所有文档的最大文件数 300 0 0 0
每个最大文件数 30000
最大行数,每行一个文档(针对请求中的所有文件) 30000

文档分类

文档分类器培训工作从CreateDocumentClassifier操作,异步文档分类作业从StartDocumentClassificationJob,同步文档分类请求从ClassifyDocument操作具有以下配额。

常规
描述 配额/指南
字符编码 UTF-8
最大班级数(多类模式) 1000
类的最大数量(多标签模式) 100
类名的最大名称长度 5,,,000
每班培训文件的最小数量(多班模式) 50
每班培训文档的最小数量,(多标签模式) 10
训练作业中所有文件的总大小 5GB
异步作业中所有文件的总大小 5GB
一个文件的最大文件大小,每个文件一个文档 10 MB
每个最大文件数 1000000
最大行数,每行一个文档(适用于请求中的所有文件) 1000000
每个同步请求的最大文件数 1
用于训练自定义分类器的增强清单文件的最大数量 5
每个增强清单文件的最大属性名称数 5
属性名称的最大长度 63.
实时分析
描述 配额/指南
每个账户的最大推理单位数 100
每个终端节点的最大推理单位数 10
每个推理单元(字符)的最大吞吐量 100/second
每个推理单元(文档)的最大吞吐量 2 /2

语言检测

这些区域有:BatchDetectDominantLanguageDetectDominantLanguage操作和异步作业以StartDominantLanguageDetectionJob操作具有以下限制:

  • 它们不支持语音语言检测。例如,他们不会将 “arigato” 检测为日语,也不会将 “nihao” 检测为中文。

  • 他们可能难以区分密切的语言对,例如印度尼西亚语和马来语;或者波斯尼亚语、克罗地亚语和塞尔维亚语。

  • 为了获得最佳结果,输入文本长度应至少为 20 个字符。

事件

使用创建的事件检测作业StartEventsDetectionJob操作具有以下配额。

描述 配额
字符编码 UTF-8
作业中所有文件的总大小 50 MB
作业中每个文档的最大文件数 10 KB
每个最大文件数 5000
最大行数,每行一个文档(适用于请求中的所有文件) 5000

主题建模

使用创建的主题检测作业StartTopicsDetectionJob操作具有以下配额。

描述 配额/指南
字符编码 UTF-8
要返回的最大主题数量 100
请求的所有文件的最大总大小 5GB
请求的所有文件的最大总大小 500 0 0 0
一个文件的最大文件大小,每个文件一个文档 100MB
每个最大文件数 1000000
最大行数,每行一个文档(适用于请求中的所有文件) 1000000

为了获得最佳结果,您应至少包含 1 000 个输入文档。

实体识别

实体识别器训练作业从CreateEntityRecognizer操作,异步实体识别作业以StartEntitiesDetectionJob操作和同步实体识别请求以DetectEntities操作具有以下配额。

纯文本实体识别-训练 (CreateEntityRecognizer)
描述 配额/指南
每个模型/自定义实体识别器的实体数 10
文档大小 (UTF-8))))) 1,000 0 0 0 0
文档数量(参见注释 3,000
文档语料库大小(所有明文文档合并) 5 KB-100 MB
每个实体的最大注释数 25
实体列表中的项目数 1–1 million
条目列表中单个条目(后条)的长度 1,000
实体列表语料库大小(所有明文文档合并) 5 KB —100 MB
PDF 或 Word 文本实体识别-训练 (CreateEntityRecognizer)
描述 配额/指南
每个模型/自定义实体识别器的实体数 10
注解文件大小 (UTF-8 JSON) 5MB
文件数量 2,000
文档语料库大小(所有明文文档合并) 5 KB—1 GB
每个实体的最大注释数 100
增强的清单文件
描述 配额/指南
用于训练自定义实体识别器的增强清单文件的最大数量 5
每个增强清单文件的最大属性名称数 5
属性名称的最大长度 63.
明文文件的实体识别-推断 (StartEntitiesDetectionJob)
描述 配额/指南
文档大小 (UTF-8))))) 1 1 MB
每个最大文件数 1000000
最大行数,每行一个文档(适用于请求中的所有文件) 1000000
文档语料库大小(所有明文文档合并) 1 字节 — 5 GB
图像、PDF 或 Word 文件的实体识别-推断 (StartEntitiesDetectionJob)
描述 配额/指南
图像大小(JPG 或 PNG) 1 字节 — 10 MB
图像大小 (TIFF) 1 字节 — 10 MB。最多一页。
文档大小 (PDF)))) 1 字节 — 50 MB
文档大小 (Docx) 1 字节 — 5 MB
文档大小 (UTF-8))))) 1 1 MB
最大文件数,每个文件一个文档(图像文件或 PDF/Word 文档不允许每行一个文档) 500
PDF 或 Docx 文件的最大页数 100
文本提取后的文档语料库大小(纯文本,所有文件合并) 1 字节 — 5 GB

有关图像限制的更多信息,请参阅Amazon Textract ext 中的硬性限制

实时分析
描述 配额/指南
每个账户的最大推理单位数 100
每个终端节点的最大推理单位数 10
每个推理单元(字符)的最大吞吐量 100/second
每个推理单元(文档)的最大吞吐量 2 /2
每个同步请求的最大文件数 1