文档类型或格式 - Amazon Kendra

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

文档类型或格式

Amazon Kendra 支持常用的文档类型或格式,例如 PDF、HTML PowerPoint、Word 等。一个索引可以包含多种文档格式。

Amazon Kendra 提取文档内部的内容以使文档可搜索。解析文档的方式是为了优化对提取的文本和文档中任何表格内容(HTML 表格)的搜索。这意味着将文档结构化为用于搜索的字段或属性。文档元数据(例如上次修改日期)可能是有用的搜索字段。

可以将文档组织成行和列。例如,每个文档是一行,每个文档字段/属性(例如标题和正文内容)都是一列。例如,如果您使用数据库作为数据来源,则应将数据结构化或组织成行和列。

您可以通过以下方式将文档添加到索引中:

如果要添加常见问题解答文件,可以使用 CreateFaqAPI 添加存储在存储 Amazon S3 桶中的文件。您可以在基本 CSV 格式、在标题中包含自定义字段/属性的 CSV 格式以及包含自定义字段的 JSON 格式之间进行选择。默认文件格式为 CSV。

以下内容提供了有关每种支持的文档格式以及在为文档编制索引时, Amazon Kendra 如何处理每种格式的信息。

文档格式 视为 如何处理文档 原始结构
可移植文档格式(PDF) HTML 转换为 HTML,然后提取内容。 非结构化
HyperText 标记语言 (HTML) HTML HTML 标签会被过滤掉以提取内容。内容必须介于主 HTML 起始标签和结束标签(<HTML>content</HTML>)之间。 半结构化
可扩展标记语言 (XML) XML XML 标签会被过滤掉以提取内容。 半结构化
可扩展样式表语言转换(XSLT) XSLT 标签会被过滤掉以提取内容。 半结构化
MarkDown (医学博士) 纯文本 提取内容时包含 MarkDown 语法。 半结构化
逗号分隔值(CSV) CSV 从每个单元格中提取的内容,将单个文件视为单个文档结果。 结构化用于常见问题解答文件,否则为半结构化
Microsoft Excel(XLS 和 XLSX) XLS 和 XLSX 从每个单元格中提取的内容,将单个文件视为单个文档结果。 半结构化
JavaScript 对象表示法 (JSON) 纯文本 内容是使用包含的 JSON 语法提取的。 半结构化
富文本格式(RTF) RTF RTF 语法会被过滤掉以提取内容。 半结构化
微软 PowerPoint (PPT) PPT 仅从 PowerPoint 幻灯片中提取文本内容进行搜索。不会提取图像和其他内容。 非结构化
Microsoft Word(DOCX) DOCX 仅从 Word 页面中提取文本内容进行搜索。不会提取图像和其他内容。 非结构化
纯文本(TXT) TXT 提取文本文档中的所有文本。 非结构化