本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
文档类型或格式
Amazon Kendra 支持常用的文档类型或格式,例如 PDF、HTML PowerPoint、Word 等。一个索引可以包含多种文档格式。
Amazon Kendra 提取文档内部的内容以使文档可搜索。解析文档的方式是为了优化对提取的文本和文档中任何表格内容(HTML 表格)的搜索。这意味着将文档结构化为用于搜索的字段或属性。文档元数据(例如上次修改日期)可能是有用的搜索字段。
可以将文档组织成行和列。例如,每个文档是一行,每个文档字段/属性(例如标题和正文内容)都是一列。例如,如果您使用数据库作为数据来源,则应将数据结构化或组织成行和列。
您可以通过以下方式将文档添加到索引中:
如果要添加常见问题解答文件,可以使用 CreateFaqAPI 添加存储在存储 Amazon S3 桶中的文件。您可以在基本 CSV 格式、在标题中包含自定义字段/属性的 CSV 格式以及包含自定义字段的 JSON 格式之间进行选择。默认文件格式为 CSV。
以下内容提供了有关每种支持的文档格式以及在为文档编制索引时, Amazon Kendra 如何处理每种格式的信息。
文档格式 | 视为 | 如何处理文档 | 原始结构 |
---|---|---|---|
可移植文档格式(PDF) | HTML | 转换为 HTML,然后提取内容。 | 非结构化 |
HyperText 标记语言 (HTML) | HTML | HTML 标签会被过滤掉以提取内容。内容必须介于主 HTML 起始标签和结束标签(<HTML>content</HTML> )之间。 |
半结构化 |
可扩展标记语言 (XML) | XML | XML 标签会被过滤掉以提取内容。 | 半结构化 |
可扩展样式表语言转换(XSLT) | XSLT | 标签会被过滤掉以提取内容。 | 半结构化 |
MarkDown (医学博士) | 纯文本 | 提取内容时包含 MarkDown 语法。 | 半结构化 |
逗号分隔值(CSV) | CSV | 从每个单元格中提取的内容,将单个文件视为单个文档结果。 | 结构化用于常见问题解答文件,否则为半结构化 |
Microsoft Excel(XLS 和 XLSX) | XLS 和 XLSX | 从每个单元格中提取的内容,将单个文件视为单个文档结果。 | 半结构化 |
JavaScript 对象表示法 (JSON) | 纯文本 | 内容是使用包含的 JSON 语法提取的。 | 半结构化 |
富文本格式(RTF) | RTF | RTF 语法会被过滤掉以提取内容。 | 半结构化 |
微软 PowerPoint (PPT) | PPT | 仅从 PowerPoint 幻灯片中提取文本内容进行搜索。不会提取图像和其他内容。 | 非结构化 |
Microsoft Word(DOCX) | DOCX | 仅从 Word 页面中提取文本内容进行搜索。不会提取图像和其他内容。 | 非结构化 |
纯文本(TXT) | TXT | 提取文本文档中的所有文本。 | 非结构化 |