设置文本提取选项 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

设置文本提取选项

默认情况下,Amazon Comprehend 会根据输入文件类型执行以下操作从文件中提取文本:

  • Word 文件:Amazon Comprehend 解析器会提取文本。

  • 数字 PDF 文件:Amazon Comprehend 解析器会提取文本。

  • 图像文件和扫描的 PDF 文件:Amazon Comprehend 使用 Amazon Textract DetectDocumentText API 提取文本。

对于图像文件和 PDF 文件,您可以使用 DocumentReaderConfig 参数来覆盖这些默认提取操作。当您使用 Amazon Comprehend 控制台或 API 进行实时或异步自定义分析时,此参数可用。

DocumentReaderConfig 参数包含三个字段:

  • DocumentReadMode— 设置为,SERVICE_DEFAULTAmazon Comprehend 可以执行默认操作。

    设置为 FORCE_DOCUMENT_READ_ACTION 时,使用 Amazon Textract 解析数字 PDF 文件。

  • DocumentReadAction— 将亚马逊 Textract API(DetectDocumentText 或 AnalyzeDocument)设置为在亚马逊 Comprehend 使用亚马逊 Textract 进行文本提取时使用。

  • FeatureTypes— 如果您设置DocumentReadAction为使用 AnalyzeDocument API 操作,则可以添加其中一个或两个FeatureTypes(表格、表单)。这些特征提供了有关文档中表格和表单的其他信息。有关这些特征的更多信息,请参阅 Amazon Textract 文档分析响应对象

以下示例展示了如何针对特定用例配置 DocumentReaderConfig

  1. 使用 Amazon Textract 处理所有 PDF 文件。

    1. DocumentReadMode— 设置为FORCE_DOCUMENT_READ_ACTION

    2. DocumentReadAction— 设置为TEXTRACT_DETECT_DOCUMENT_TEXT

    3. FeatureTypes— 不是必需的。

  2. 使用 Amazon Textract AnalyzeDocument API 处理所有 PDF 和图像文件。

    1. DocumentReadMode— 设置为FORCE_DOCUMENT_READ_ACTION

    2. DocumentReadAction— 设置为TEXTRACT_ANALYZE_DOCUMENT

    3. FeatureTypes— 设置为TABLESFORMS或两者兼而有之。

  3. 使用 Amazon Textract AnalyzeDocument API 扫描 PDF 文件和所有图像文件。

    1. DocumentReadMode— 设置为SERVICE_DEFAULT

    2. DocumentReadAction— 设置为TEXTRACT_ANALYZE_DOCUMENT

    3. FeatureTypes— 设置为TABLESFORMS或两者兼而有之。

有关 Amazon Textract 选项的更多信息,请参阅。DocumentReaderConfig