文档类型或格式

Amazon Kendra 支持常用的文档类型或格式，例如 PDF、HTML PowerPoint、Word 等。一个索引可以包含多种文档格式。

Amazon Kendra 提取文档内部的内容以使文档可搜索。解析文档的方式是为了优化对提取的文本和文档中任何表格内容（HTML 表格）的搜索。这意味着将文档结构化为用于搜索的字段或属性。文档元数据（例如上次修改日期）可能是有用的搜索字段。

可以将文档组织成行和列。例如，每个文档是一行，每个文档字段/属性（例如标题和正文内容）都是一列。例如，如果您使用数据库作为数据来源，则应将数据结构化或组织成行和列。

您可以通过以下方式将文档添加到索引中：

如果要添加常见问题解答文件，可以使用 CreateFaqAPI 添加存储在存储 Amazon S3 桶中的文件。您可以在基本 CSV 格式、在标题中包含自定义字段/属性的 CSV 格式以及包含自定义字段的 JSON 格式之间进行选择。默认文件格式为 CSV。

以下内容提供了有关每种支持的文档格式以及在为文档编制索引时， Amazon Kendra 如何处理每种格式的信息。

文档格式	视为	如何处理文档	原始结构
可移植文档格式（PDF）	HTML	转换为 HTML，然后提取内容。	非结构化
HyperText 标记语言 (HTML)	HTML	HTML 标签会被过滤掉以提取内容。内容必须介于主 `HTML` 起始标签和结束标签（`<HTML>content</HTML>`）之间。	半结构化
可扩展标记语言 (XML)	XML	XML 标签会被过滤掉以提取内容。	半结构化
可扩展样式表语言转换（XSLT）	XSLT	标签会被过滤掉以提取内容。	半结构化
MarkDown （医学博士）	纯文本	提取内容时包含 MarkDown 语法。	半结构化
逗号分隔值（CSV）	CSV	从每个单元格中提取的内容，将单个文件视为单个文档结果。	结构化用于常见问题解答文件，否则为半结构化
Microsoft Excel（XLS 和 XLSX）	XLS 和 XLSX	从每个单元格中提取的内容，将单个文件视为单个文档结果。	半结构化
JavaScript 对象表示法 (JSON)	纯文本	内容是使用包含的 JSON 语法提取的。	半结构化
富文本格式（RTF）	RTF	RTF 语法会被过滤掉以提取内容。	半结构化
微软 PowerPoint (PPT)	PPT	仅从 PowerPoint 幻灯片中提取文本内容进行搜索。不会提取图像和其他内容。	非结构化
Microsoft Word（DOCX）	DOCX	仅从 Word 页面中提取文本内容进行搜索。不会提取图像和其他内容。	非结构化
纯文本（TXT）	TXT	提取文本文档中的所有文本。	非结构化

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档

文档属性或字段