文件類型或格式 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

文件類型或格式

Amazon Kendra 支持流行的文檔類型或格式,例如 PDF,HTML PowerPoint,Word 等。索引可以包含多種文件格式。

Amazon Kendra 擷取文件內的內容,以便使文件可搜尋。文檔被解析的方式來優化對提取的文本和文檔中的任何表格內容(HTML 表格)的搜索。這表示將文件結構化為用於搜尋的欄位或屬性。文件中繼資料 (例如上次修改日期) 可能是有用的搜尋欄位。

文件可以組織成列和欄。例如,每個文件都是一列,而每個文件欄位/屬性 (例如標題和內文內容) 都是一欄。例如,如果您使用資料庫做為資料來源,則應將資料結構化或組織成列和欄。

您可以透過下列方式將文件新增至索引:

如果要新增常見問題集檔案,請使用 CreateFaqAPI 新增儲存在 Amazon S3 值區中的檔案。您可以選擇基本 CSV 格式、在標題中包含海關欄位/屬性的 CSV 格式,以及包含自訂欄位的 JSON 格式。預設格式為基本 CSV。

以下提供每種支援文件格式的資訊,以及編製文件索引時如何 Amazon Kendra 處理每種格式的資訊。

文件格式 被視為 如何處理文件 原始結構
可攜式文件格式 (PDF) HTML 轉換為 HTML,然後提取內容。 非结构化
HyperText 标记语言 HTML HTML 標籤被過濾掉以提取內容。內容必須在主要HTML開始和結束標籤之間 (<HTML>content</HTML>)。 半结构化
可擴展標記語言 (XML) XML XML 標籤被過濾掉以提取內容。 半结构化
可擴展樣式表語言轉換(XSLT) XSLT 標籤被過濾掉以提取內容。 半结构化
MarkDown (馬里蘭州) 純文字 內容提取並包含 MarkDown 語法。 半结构化
逗號分隔符號值 (CSV) CSV 從每個儲存格擷取的內容,並將單一檔案視為單一文件結果。 結構化常見問題解答文件,否則半結構
Microsoft Excel(XLS 和 XLSX) XLS 和 XLSX 從每個儲存格擷取的內容,並將單一檔案視為單一文件結果。 半结构化
JavaScript 对象标记法 純文字 使用 JSON 語法提取內容。 半结构化
RTF 格式 (RTF) RTF RTF 語法被過濾掉以提取內容。 半结构化
Microsoft 軟件 PowerPoint (PPT) PPT 僅從 PowerPoint 幻燈片中提取文本內容進行搜索。不會擷取影像和其他內容。 非结构化
Microsoft 文字 DOCX 僅從 Word 頁面中提取文本內容進行搜索。不會擷取影像和其他內容。 非结构化
純文字 (TXT) TXT 會擷取文字文件中的所有文字。 非结构化