本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
文件類型或格式
Amazon Kendra 支持流行的文檔類型或格式,例如 PDF,HTML PowerPoint,Word 等。索引可以包含多種文件格式。
Amazon Kendra 擷取文件內的內容,以便使文件可搜尋。文檔被解析的方式來優化對提取的文本和文檔中的任何表格內容(HTML 表格)的搜索。這表示將文件結構化為用於搜尋的欄位或屬性。文件中繼資料 (例如上次修改日期) 可能是有用的搜尋欄位。
文件可以組織成列和欄。例如,每個文件都是一列,而每個文件欄位/屬性 (例如標題和內文內容) 都是一欄。例如,如果您使用資料庫做為資料來源,則應將資料結構化或組織成列和欄。
您可以透過下列方式將文件新增至索引:
如果要新增常見問題集檔案,請使用 CreateFaqAPI 新增儲存在 Amazon S3 值區中的檔案。您可以選擇基本 CSV 格式、在標題中包含海關欄位/屬性的 CSV 格式,以及包含自訂欄位的 JSON 格式。預設格式為基本 CSV。
以下提供每種支援文件格式的資訊,以及編製文件索引時如何 Amazon Kendra 處理每種格式的資訊。
文件格式 | 被視為 | 如何處理文件 | 原始結構 |
---|---|---|---|
可攜式文件格式 (PDF) | HTML | 轉換為 HTML,然後提取內容。 | 非结构化 |
HyperText 标记语言 | HTML | HTML 標籤被過濾掉以提取內容。內容必須在主要HTML 開始和結束標籤之間 (<HTML>content</HTML> )。 |
半结构化 |
可擴展標記語言 (XML) | XML | XML 標籤被過濾掉以提取內容。 | 半结构化 |
可擴展樣式表語言轉換(XSLT) | XSLT | 標籤被過濾掉以提取內容。 | 半结构化 |
MarkDown (馬里蘭州) | 純文字 | 內容提取並包含 MarkDown 語法。 | 半结构化 |
逗號分隔符號值 (CSV) | CSV | 從每個儲存格擷取的內容,並將單一檔案視為單一文件結果。 | 結構化常見問題解答文件,否則半結構 |
Microsoft Excel(XLS 和 XLSX) | XLS 和 XLSX | 從每個儲存格擷取的內容,並將單一檔案視為單一文件結果。 | 半结构化 |
JavaScript 对象标记法 | 純文字 | 使用 JSON 語法提取內容。 | 半结构化 |
RTF 格式 (RTF) | RTF | RTF 語法被過濾掉以提取內容。 | 半结构化 |
Microsoft 軟件 PowerPoint (PPT) | PPT | 僅從 PowerPoint 幻燈片中提取文本內容進行搜索。不會擷取影像和其他內容。 | 非结构化 |
Microsoft 文字 | DOCX | 僅從 Word 頁面中提取文本內容進行搜索。不會擷取影像和其他內容。 | 非结构化 |
純文字 (TXT) | TXT | 會擷取文字文件中的所有文字。 | 非结构化 |