Amazon S3 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon S3

Amazon S3 是一種物件儲存服務,可將資料儲存為值區中的物件。您可以使 Amazon Kendra 用索引文件的 Amazon S3 值區儲存庫。

警告

Amazon Kendra 不使用將權限授予 Amazon Kendra 主體與 S3 儲存貯體互動的儲存貯體政策。而是使用 IAM 角色。請確定該成員 Amazon Kendra 未包含在儲存貯體政策中,以避免在意外授與任意主體權限時出現任何資料安全性問題。不過,您可以新增值區政策,以便跨不同帳戶使用 Amazon S3 儲存貯體。如需詳細資訊,請參閱Amazon S3 跨帳戶使用的政策 (在 S3 IAM 角色索引標籤的資料來源IAM 角色下)。如需 S3 資料來源 IAM 角色的相關資訊,請參閱IAM 角色

注意

Amazon Kendra 現在支援升級的 Amazon S3 連接器。

主機已自動為您升級。您在主控台中建立的任何新連接器都會使用升級的架構。如果您使用 API,您現在必須使用TemplateConfiguration物件而非S3DataSourceConfiguration物件來設定連接器。

使用舊版主控台和 API 架構設定的連接器將繼續如設定般運作。但是,您將無法編輯或更新它們。如果您要編輯或更新連接器組態,您必須建立新的連接器。

我們建議您將連接器工作流程移轉至升級版本。使用舊架構設定的連接器 Support 排程於 2024 年 6 月結束。

您可以使用Amazon Kendra 主控台TemplateConfigurationAPI 連線到 Amazon S3 資料來源。

注意

若要產生 Amazon S3 資料來源的同步狀態報告,請參閱資料來源疑難排解

如需 Amazon Kendra S3 資料來源連接器的疑難排解,請參閱疑難排解資料來

支援的功能

  • 欄位對映

  • 使用者內容篩選

  • 包含/排除過濾器

  • 完整和增量內容同步

  • 虛擬私有雲端 (VPC)

必要條件

在您可以用 Amazon Kendra 來為 S3 資料來源建立索引之前,請先在 S3 和 AWS 帳戶中進行這些變更。

在 S3 中,請確保您具有:

  • 複製 Amazon S3 值區名稱的名稱。

    注意

    您的值區必須與 Amazon Kendra 索引位於相同的區域,且索引必須具有存取包含文件之值區的權限。

  • 已核取的每個文件在 S3 和您打算用於相同索引的其他資料來源中都是唯一的。您要用於索引的每個資料來源不得包含跨資料來源的相同文件。文件 ID 對索引來說是全域的,而且每個索引必須是唯一的。

在您的 AWS 帳戶中,請確定您有:

如果您沒有現有 IAM 角色,則可以在將 S3 資料來源連接到時使用主控台建立新 IAM 角色 Amazon Kendra。如果您使用 API,則必須提供現有 IAM 角色的 ARN 和索引識別碼。

連接說明

若要連接 Amazon Kendra 到 S3 資料來源,您必須提供 S3 資料來源的必要詳細資訊, Amazon Kendra 以便能夠存取您的資料。如果您尚未為 S3 設定 Amazon Kendra,請參閱必要條件

Console

若要連線 Amazon Kendra 到 Amazon S3

  1. 登入 AWS Management Console 並開啟Amazon Kendra 主控台

  2. 在左側導覽窗格中,選擇 [索引],然後從索引清單中選擇要使用的索引。

    注意

    您可以選擇在索引設置下配置或編輯用戶訪問控制設置

  3. 在 [開始使用] 頁面上,選擇 [新增資料來源]。

  4. 在 [新增資料來源] 頁面上,選擇 [S3 連接器],然後選擇 [新增連接器]。

  5. 在 [指定資料來源詳細資訊] 頁面上,輸入下列資訊:

    1. 名稱和說明中,對於資料來源名稱 — 輸入資料來源的名稱。您可以包含連字號,但不能包含空格。

    2. (選擇性) 說明 — 輸入資料來源的選用說明。

    3. 預設語言中 — 選擇一種語言來篩選索引的文件。除非另有指定,否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。

    4. 在「」中,針對「新增標籤」— 包含可選標籤以搜尋和篩選資源或追蹤 AWS 成本。

    5. 選擇下一步

  6. 在「定義存取權與安全性」頁面上,輸入下列選用資訊:

    1. IAM role — 選擇現有 IAM 角色或建立新 IAM 角色以存取存放庫認證和索引內容。

      注意

      IAM 用於索引的角色不能用於資料來源。如果您不確定索引或常見問題集是否使用現有角色,請選擇 [建立新角色] 以避免發生錯誤。

    2. V@@ irtual Private Cloud (VPC) — 如果儲存貯體無法從公用網際網路存取,您可以選擇 Amazon VPC 將其用於儲存 Amazon S3 貯體。如果是這樣,您必須新增子網路和 Amazon VPC 安全群組

      重要

      請確定您擁有:

    3. 選擇下一步

  7. 在 [設定同步設定] 頁面上,輸入下列資訊:

    1. 同步範圍中,對於資料來源位置 — 儲存資料所在 Amazon S3 值區的路徑。選取瀏覽 S3 以選擇儲存貯體。

    2. (選擇性) 中繼資料檔案首碼資料夾位置-儲存中繼資料的資料夾路徑。選取瀏覽 S3 以尋找您的中繼資料資料夾。

    3. (選擇性) 存取控制清單組態檔案位置-包含 JSON 結構的檔案位置路徑,該 JSON 結構為存放在 S3 資料來源中的檔案指定存取設定。選取瀏覽 S3 以尋找您的 ACL 檔案。

    4. (選擇性) 選取解密金鑰 — 選取以使用解密金鑰。您可以選擇使用現有的 AWS KMS 金鑰。

    5. (選擇性) 在其他組態中,對於模式-新增模式以在索引中包含或排除文件。所有路徑均相對於資料來源位置 S3 儲存貯體。您最多可以添加 100 個圖案。

    6. 同步模式 — 選擇資料來源內容變更時要如何更新索引。當您第一次將資料來源同 Amazon Kendra 步處理時,依預設會檢索所有內容並建立索引。如果初始同步失敗,您必須執行資料的完整同步,即使您沒有選擇完整同步作為同步模式選項。

      • 完全同步:新鮮索引所有內容,並在每次資料來源與索引同步時取代現有內容。

      • 新增、修改、刪除的同步:每次資料來源與索引同步時,僅對新內容、已修改和刪除的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。

    7. 同步執行排程中,對於頻率 — 選擇與資料來源同步的頻率。 Amazon Kendra

    8. 選擇下一步

  8. [設定欄位對映] 頁面上,輸入下列選用資訊:

    1. S3 欄位對應 — 從 Amazon Kendra 產生的預設資料來源欄位中選取您要對映至索引的欄位。

    2. 新增欄位 — 選擇新增自訂資料來源欄位,以建立要對映的索引欄位名稱和欄位資料類型。

    3. 選擇下一步

  9. 在 [檢閱並建立] 頁面上,檢查您輸入的資訊是否正確,然後選取 [新增資料來源]。您也可以從此頁面選擇編輯您的資訊。成功新增資料來源後,您的資料來源將顯示在 [資料來源] 頁面上。

API

若要連線 Amazon Kendra 到 Amazon S3

您必須使用 TemplateConfigurationAPI 指定資料來源結構描述的 JSON。您必須提供以下信息:

  • BucketName包含文件的值區名稱。

  • 同步模式 — 指定資料來源內容變更時 Amazon Kendra 應如何更新索引。當您第一次將資料來源同 Amazon Kendra 步處理時,依預設會檢索所有內容並建立索引。如果初始同步失敗,您必須執行資料的完整同步,即使您沒有選擇完整同步作為同步模式選項。您可以選擇:

    • FORCED_FULL_CRAWL新建索引所有內容,並在每次資料來源與索引同步時取代現有內容。

    • FULL_CRAWL,以在每次資料來源與索引同步時,僅對新的、修改的和刪除的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。

  • IAM role — 指定RoleArn何時呼叫CreateDataSource以提供具有存取 Secrets Manager 密碼的權限的 IAM 角色,以及呼叫 S3 連接器和 Amazon Kendra所需的公用 API。如需詳細資訊,請參閱 S3 資料來源的IAM 角色

您還可以添加以下可選功能:

  • V@@ irtual Private Cloud (VPC) — 指定您撥打電話的VpcConfiguration時間。CreateDataSource如需詳細資訊,請參閱 配置 Amazon Kendra 為使用 Amazon VPC

  • 包含和排除篩選器 — 指定要包含還是排除特定檔案名稱、檔案類型和檔案路徑。您可以使用 glob 模式(可以將通配符模式擴展到與給定模式匹配的路徑名稱列表中的模式)。如需範例,請參閱 AWS CLI 命令參考中的使用排除和包含篩選器

  • 文件中繼資料組態 — 新增文件中繼資料檔案,其中包含文件存取控制資訊、來源 URI、文件作者和自訂屬性等資訊。每個中繼資料檔案都包含單一文件的相關中繼資料。

  • 欄位對映 — 選擇將 S3 資料來源欄位對應至 Amazon Kendra 索引欄位。如需詳細資訊,請參閱映射資料來源欄位

    注意

    您的文件需要文件內文欄位或文件內文對等項目,才能搜尋您的文件。 Amazon Kendra 您必須將資料來源中的文件內文欄位名稱對應至索引欄位名稱_document_body。所有其他欄位是選用的。

如需要設定的其他重要 JSON 金鑰清單,請參閱Amazon S3 模板架構

進一步了解

若要進一步了解 Amazon Kendra 與 S3 資料來源整合的相關資訊,請參閱: