建立資料來源連接器 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立資料來源連接器

您可以建立資料來源連接器 Amazon Kendra ,以連接至文件並編製索引。 Amazon Kendra 可以連接到 Microsoft SharePoint,Google 雲端硬盤和許多其他提供商。當您建立資料來源連接器時,您會提供 Amazon Kendra 連線至來源儲存庫所需的組態資訊。與直接將文件新增至索引不同,您可以定期掃描資料來源以更新索引。

例如,假設您有儲存在 Amazon S3 值區中的稅捐文件儲存庫。會不時變更現有文件,並將新文件新增至存放庫。如果您將存放庫 Amazon Kendra 作為資料來源新增至,則可以透過設定資料來源和索引之間的定期同步來使索引保持最新狀態。

您可以選擇使用主控台或 StartDataSourceSyncJobAPI 手動更新索引。否則,您可以設定排程來更新索引,並讓它與您的資料來源同步。

一個索引可以有多個資料來源。每個資料來源都可以有自己的更新排程。例如,您可以每天甚至每小時更新工作文件的索引,同時在封存變更時手動更新已封存文件。

如果您想要在文件擷取程序期間變更文件中繼資料或屬性和內容,請參閱Amazon Kendra 自訂文件增強功能。

注意

每個文件 ID 必須是每個索引唯一的。您無法建立資料來源以使用其唯一 ID 為文件建立索引,然後使用 BatchPutDocument API 來索引相同的文件,反之亦然。您可以刪除資料來源,然後使用 BatchPutDocument API 索引相同的文件,反之亦然。針對同一組文件使用BatchPutDocumentBatchDeleteDocument API 搭配 Amazon Kendra 資料來源連接器,可能會導致資料不一致。相反地,我們建議使用Amazon Kendra 自訂資料來源連接器

注意

新增至索引的檔案必須位於 UTF-8 編碼位元組串流中。如需中文件的詳細資訊 Amazon Kendra,請參閱文件

設定更新排程

將資料來源設定為定期使用主控台進行更新,或在建立或更新資料來源時使用Schedule參數進行更新。參數的內容是一個字串,其中包含 cron-format 排程字串或空字串,表示索引會隨需更新。如需 Cron 運算式的格式,請參閱《Amazon CloudWatch Events 使用指南》的規則排程運算式。 Amazon Kendra 僅支持 cron 表達式。它不支援速率運算式。

設定語言

您可以使用支援的語言,為資料來源中的所有文件建立索引。您可以在呼叫時為資料來源中的所有文件指定語言代碼CreateDataSource。如果文件沒有在中繼資料欄位中指定的語言代碼,則會使用在資料來源層級為所有文件指定的語言代碼為文件編製索引。如果您未指定語言,則依預設會以英文 Amazon Kendra 編製資料來源中的文件索引。如需支援語言 (包括其代碼) 的詳細資訊,請參閱以英文以外的語言新增文件

您可以使用主控台以支援的語言編製資料來源中的所有文件索引。轉到數據源並編輯您的數據源或添加數據源(如果要添加新的數據源)。在 [指定資料來源詳細資料] 頁面上,從下拉式清單中選擇語言 [語言]。您可以選取 [更新] 或繼續輸入組態資訊以連線至資料來源。