设置文本提取选项

默认情况下，Amazon Comprehend 会根据输入文件类型执行以下操作从文件中提取文本：

Word 文件：Amazon Comprehend 解析器会提取文本。
数字 PDF 文件：Amazon Comprehend 解析器会提取文本。
图像文件和扫描的 PDF 文件：Amazon Comprehend 使用 Amazon Textract DetectDocumentText API 提取文本。

对于图像文件和 PDF 文件，您可以使用 DocumentReaderConfig 参数来覆盖这些默认提取操作。当您使用 Amazon Comprehend 控制台或 API 进行实时或异步自定义分析时，此参数可用。

DocumentReaderConfig 参数包含三个字段：

DocumentReadMode— 设置为，SERVICE_DEFAULTAmazon Comprehend 可以执行默认操作。

设置为 FORCE_DOCUMENT_READ_ACTION 时，使用 Amazon Textract 解析数字 PDF 文件。
DocumentReadAction— 将亚马逊 Textract API（DetectDocumentText 或 AnalyzeDocument）设置为在亚马逊 Comprehend 使用亚马逊 Textract 进行文本提取时使用。
FeatureTypes— 如果您设置DocumentReadAction为使用 AnalyzeDocument API 操作，则可以添加其中一个或两个FeatureTypes（表格、表单）。这些特征提供了有关文档中表格和表单的其他信息。有关这些特征的更多信息，请参阅 Amazon Textract 文档分析响应对象。

以下示例展示了如何针对特定用例配置 DocumentReaderConfig：

使用 Amazon Textract 处理所有 PDF 文件。
1. DocumentReadMode— 设置为FORCE_DOCUMENT_READ_ACTION。
2. DocumentReadAction— 设置为TEXTRACT_DETECT_DOCUMENT_TEXT。
3. FeatureTypes— 不是必需的。
使用 Amazon Textract AnalyzeDocument API 处理所有 PDF 和图像文件。
1. DocumentReadMode— 设置为FORCE_DOCUMENT_READ_ACTION。
2. DocumentReadAction— 设置为TEXTRACT_ANALYZE_DOCUMENT。
3. FeatureTypes— 设置为TABLESFORMS或两者兼而有之。
使用 Amazon Textract AnalyzeDocument API 扫描 PDF 文件和所有图像文件。
1. DocumentReadMode— 设置为SERVICE_DEFAULT。
2. DocumentReadAction— 设置为TEXTRACT_ANALYZE_DOCUMENT。
3. FeatureTypes— 设置为TABLESFORMS或两者兼而有之。

有关 Amazon Textract 选项的更多信息，请参阅。DocumentReaderConfig

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

异步分析的输入

图像的最佳实践