Microsoft OneDrive 連接器 V2.0 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Microsoft OneDrive 連接器 V2.0

Microsoft OneDrive 是雲端式儲存服務,您可以用來儲存、共用和主控您的內容。您可以使 Amazon Kendra 用索引您的 OneDrive資料來源。

您可以使用Amazon Kendra 主控台OneDriveConfigurationAPI 連線 Amazon Kendra 到 OneDrive 資料來源。

注意

對 OneDrive 連接器 1.0/ OneDriveConfiguration API 的 Support 預定於 2023 年 6 月結束。我們建議您使用 OneDrive 連接器 V2.0/ TemplateConfiguration API。2.0 版提供了額外的 ACL 和身份編目器功能。

如需對資 Amazon Kendra OneDrive 料來源連接器進行疑難排解,請參 疑難排解資料來

支援的功能

Amazon Kendra OneDrive 資料來源連接器支援下列功能:

  • 欄位對映

  • 使用者存取控制

  • 包含/排除過濾器

  • 完整和增量內容同步

  • 虛擬私有雲端 (VPC)

必要條件

在您可以用來 Amazon Kendra 為資 OneDrive 料來源建立索引之前,請先在 OneDrive 和 AWS 帳戶中進行這些變更。

在中 OneDrive,請確定您有:

  • 在辦公室 365 中創建了一個 OneDrive 帳戶。

  • 記下您的 Microsoft 365 租戶識別碼。您可以在 Azure 作用中目錄入口網站的內容或 OAuth 應用程式中找到您的租用戶識別碼。

  • 在 Azure 入口網站中建立 OAuth 應用程式,並記下用於驗證密碼的用戶端識別碼和用戶端 AWS Secrets Manager 密碼或用戶端認證。如需詳細資訊,請參閱 Microsoft 教學課程已註冊應用程式

    注意

    當您在 Azure 入口網站中建立或註冊應用程式時,秘密識別碼代表實際的密碼值。建立密碼和應用程式時,您必須立即記下或儲存實際的密碼值。您可以在 Azure 入口網站中選取應用程式的名稱,然後導覽至憑證和密碼上的功能表選項,以存取您的密碼。

    您可以在 Azure 入口網站中選取應用程式的名稱,然後導覽至概觀頁面,以存取用戶端識別碼。應用程序(客戶端)ID 是客戶端 ID。

    注意

    我們建議您定期重新整理或輪換您的認證和密碼。僅為您自己的安全提供必要的訪問級別。我們建議您跨資料來源以及連接器 1.0 和 2.0 版 (如果適用) 重複使用認證和密碼。

  • 使用 AD 應用程式 ID 為 AD 網站上的應用程式註冊秘密金鑰。密鑰必須包含應用程序 ID 和密鑰。

  • 複製組織的 AD 網域。

  • 新增下列權限到您的 AD 應用程式上的 Microsoft 圖形選項:

    • 讀取所有網站集合中的檔案 (檔案 .Read.All)

    • 閱讀所有用戶的完整配置文件(用戶 .Read.All)

    • 讀取所有群組 (群組閱讀全部)

    • 閱讀所有筆記 (注意. 閱讀全部)

  • 複製其文件必須編製索引的使用者清單。您可以選擇提供使用者名稱清單,也可以在儲存於 Amazon S3. 建立資料來源之後,您可以:

    • 修改使用者清單。

    • 從使用者清單變更為儲存在值區中的 Amazon S3 清單。

    • 變更使用者清單的 Amazon S3 值區位置。如果您變更值區位置,也必須更新資料來源的 IAM 角色,以便資料來源具有值區的存取權。

      注意

      如果您將使用者名稱清單儲存在 Amazon S3 值區中,資料來源的 IAM 政策必須提供儲存貯體的存取權,以及儲存貯體使用加密金鑰的存取權 (如果有的話)。

      OneDrive 連接器使用 Onedrive 使用者內容中存在的連絡人資訊中的電子郵件。確保您要檢索其數據的用戶在「聯繫信息」頁面中配置了電子郵件字段,因為對於新用戶而言,這可能是空白的。

在您的 AWS 帳戶中,請確定您有:

  • 創建了一個 Amazon Kendra 索引,如果使用 API,則註明索引 ID。

  • 為您的資料來源建立 IAM 角色,如果使用 API,則會記錄 IAM 角色的 ARN。

  • 將您的 OneDrive 身份驗證憑據存儲在 AWS Secrets Manager 密鑰中,如果使用 API,則記錄密鑰的 ARN。

如果您沒有現有的 IAM 角色或密碼,則可以在將 OneDrive 資料來源連線到時使用主控台建立新 IAM 角色和 Secrets Manager 密碼 Amazon Kendra。如果您使用 API,則必須提供現有 IAM 角色和 Secrets Manager 密碼的 ARN 以及索引 ID。

連接說明

若要連線 Amazon Kendra 到 OneDrive 資料來源,您必須提供 OneDrive 認證的詳細資料, Amazon Kendra 以便能夠存取您的資料。如果您尚未配置 Amazon Kendra, OneDrive 請參閱必要條件

Console

若要連線 Amazon Kendra 到 OneDrive

  1. 登入 AWS Management Console 並開啟Amazon Kendra 主控台

  2. 在左側導覽窗格中,選擇 [索引],然後從索引清單中選擇要使用的索引。

    注意

    您可以選擇在索引設置下配置或編輯用戶訪問控制設置

  3. 在 [開始使用] 頁面上,選擇 [新增資料來源]。

  4. 在 [新增資料來源] 頁面上,選擇 [OneDrive 連接器],然後選擇 [新增連接器]。如果使用版本 2(如果適用),請選擇帶有「V2.0」標籤的OneDrive 連接器

  5. 在 [指定資料來源詳細資訊] 頁面上,輸入下列資訊:

    1. 名稱和說明中,對於資料來源名稱 — 輸入資料來源的名稱。您可以包含連字號,但不能包含空格。

    2. (選擇性) 說明 — 輸入資料來源的選用說明。

    3. 預設語言中 — 選擇一種語言來篩選索引的文件。除非另有指定,否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。

    4. 在「」中,針對「新增標籤」— 包含可選標籤以搜尋和篩選資源或追蹤 AWS 成本。

    5. 選擇下一步

  6. 在 [定義存取和安全性] 頁面上,輸入下列資訊:

    1. OneDrive 承租人識別碼 — 輸入不含通訊協定的 OneDrive 承租人識別碼。

    2. 授權 — 開啟或關閉文件的存取控制清單 (ACL) 資訊 (如果您有 ACL),且想要將其用於存取控制。ACL 會指定使用者和群組可存取的文件。ACL 資訊可用來根據使用者或使用者對文件的群組存取來篩選搜尋結果。如需詳細資訊,請參閱使用者內容篩選

    3. 驗證中 — 選擇 [新增] 和 [現有]。

      1. 如果您選擇現有密碼,請為選取密碼選取現有的密碼

      2. 如果您選擇 [新增],請在 [新 AWS Secrets Manager 密碼] 區段中輸入下列資訊:

        1. 秘密名稱 — 您秘密的名稱。前綴 'AmazonKendraOneDrive-' 會自動添加到您的密碼名稱中。

        2. 對於用戶端 ID用戶端密碼 — 輸入用戶端 ID 和用戶端密碼。

    4. V@@ irtual Private Cloud (VPC) (VPC) — 您可以選擇使用 VPC。如果是這樣,您必須新增子網路VPC 安全性群組。

    5. 識別爬行者程式 — 指定是否要開啟身分爬行 Amazon Kendra者程式。識別爬行者程式會使用文件的存取控制清單 (ACL) 資訊,根據使用者或使用者對文件的群組存取權來篩選搜尋結果。如果您有文件的 ACL 並選擇使用 ACL,您也可以選擇開啟的身分識別爬行者程式,以設定搜尋結果的使用者環境定義篩選。 Amazon Kendra否則,如果關閉身分搜索器,則可以公開搜索所有文檔。如果您想要對文件使用存取控制,且身分識別編目程式已關閉,您也可以使用 PutPrincipalMappingAPI 來上傳使用者和群組存取資訊以進行使用者內容篩選。

    6. IAM role — 選擇現有 IAM 角色或建立新 IAM 角色以存取存放庫認證和索引內容。

      注意

      IAM 用於索引的角色不能用於資料來源。如果您不確定索引或常見問題集是否使用現有角色,請選擇 [建立新角色] 以避免發生錯誤。

    7. 選擇下一步

  7. 在 [設定同步設定] 頁面上,輸入下列資訊:

    1. 針對同步範圍 — 選擇要編製索引的使用者 OneDrive 資料。您最多可以手動新增 10 個使用者。

    2. 對於其他組態 — 新增規則運算式模式以包含或排除某些內容。您最多可以添加 100 個圖案。

    3. 同步模式 — 選擇資料來源內容變更時要如何更新索引。當您第一次將資料來源同 Amazon Kendra 步處理時,依預設會檢索所有內容並建立索引。如果初始同步失敗,您必須執行資料的完整同步,即使您沒有選擇完整同步作為同步模式選項。

      • 完全同步:新鮮索引所有內容,並在每次資料來源與索引同步時取代現有內容。

      • 新增、修改的同步:每次資料來源與索引同步時,僅對新內容和已修改的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。

      • 新增、修改、刪除的同步:每次資料來源與索引同步時,僅對新內容、已修改和刪除的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。

    4. 同步執行排程中,對於頻率 — 選擇同步資料來源內容和更新索引的頻率。

    5. 選擇下一步

  8. [設定欄位對映] 頁面上,輸入下列資訊:

    1. 預設資料來源欄位 — 從 Amazon Kendra 產生的預設資料來源欄位中選取您要對映至索引的資料來源欄位。

    2. 選擇下一步

  9. 在 [檢閱並建立] 頁面上,檢查您輸入的資訊是否正確,然後選取 [新增資料來源]。您也可以從此頁面選擇編輯您的資訊。成功新增資料來源後,您的資料來源將顯示在 [資料來源] 頁面上。

API

若要連線 Amazon Kendra 到 OneDrive

您必須使用 TemplateConfigurationAPI 指定資料來源結構描述的 JSON。您必須提供以下信息:

  • 資料來源 — 指定使用 TemplateConfigurationJSON 結構定義ONEDRIVEV2時的資料來源類型。同時指定呼叫 CreateDataSourceAPI TEMPLATE 時的資料來源。

  • 租用戶識別碼 — 指定 Microsoft 365 租用戶識別碼。您可以在 Azure 作用中目錄入口網站的內容或 OAuth 應用程式中找到您的租用戶識別碼。

  • 同步模式 — 指定資料來源內容變更時 Amazon Kendra 應如何更新索引。當您第一次將資料來源同 Amazon Kendra 步處理時,依預設會檢索所有內容並建立索引。如果初始同步失敗,您必須執行資料的完整同步,即使您沒有選擇完整同步作為同步模式選項。您可以選擇:

    • FORCED_FULL_CRAWL新建索引所有內容,並在每次資料來源與索引同步時取代現有內容。

    • FULL_CRAWL,以在每次資料來源與索引同步時,僅對新的、修改的和刪除的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。

    • CHANGE_LOG每次資料來源與索引同步時,僅對新內容和修改的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。

  • 秘密 Amazon 資源名稱 (ARN) — 提供包含您在帳戶中建立的身份驗證登入資料的 Secrets Manager 密碼的 Amazon 資源名稱 (ARN)。 OneDrive

    如果您使用 OAuth 2.0 驗證,則密碼會以下列金鑰儲存在 JSON 結構中:

    { "clientId": "client ID", "clientSecret": "client secret" }
  • IAM role — 指定RoleArn何時呼叫CreateDataSource以提供具有存取 Secrets Manager 密碼之權限的 IAM 角色,以及呼叫 OneDrive 連接器和 Amazon Kendra所需公用 API 的時間。有關詳情,請參閱資 OneDrive 料來源的IAM 角色

您還可以添加以下可選功能:

  • V@@ irtual Private Cloud (VPC) — 指定您呼叫的VpcConfiguration時間。CreateDataSource如需詳細資訊,請參閱 配置 Amazon Kendra 為使用 Amazon VPC

  • 包含和排除篩選器 — 您可以指定是否要包含或排除特定檔案、 OneNote 區段和 OneNote 頁面。

    注意

    大多數資料來源使用規則運算式模式,這些模式是稱為篩選器的包含或排除模式。如果您指定包含篩選器,則只有符合包含項目篩選器的內容會編製索引。不符合包含篩選器的任何文件都不會建立索引。如果您指定包含和排除篩選器,符合排除篩選器的文件將不會建立索引,即使它們符合包含篩選器也是如此。

  • 識別爬行者程式 — 指定是否要開啟身分爬行 Amazon Kendra者程式。識別爬行者程式會使用文件的存取控制清單 (ACL) 資訊,根據使用者或使用者對文件的群組存取權來篩選搜尋結果。如果您有文件的 ACL 並選擇使用 ACL,您也可以選擇開啟的身分識別爬行者程式,以設定搜尋結果的使用者環境定義篩選。 Amazon Kendra否則,如果關閉身分搜索器,則可以公開搜索所有文檔。如果您想要對文件使用存取控制,且身分識別編目程式已關閉,您也可以使用 PutPrincipalMappingAPI 來上傳使用者和群組存取資訊以進行使用者內容篩選。

  • 欄位對映 — 您只能對應 Amazon Kendra OneDrive 連接器的內建索引欄位或一般索引欄位。由於 API 限制, OneDrive 連接器無法使用自訂欄位對應。如需詳細資訊,請參閱映射資料來源欄位

如需要設定的其他重要 JSON 金鑰清單,請參閱OneDrive 範本結構定義