谷歌驅動器連接器 V2.0 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

谷歌驅動器連接器 V2.0

Google 雲端硬盤是一種基於雲的文件存儲服務。您可以使用在 Google 雲端硬碟資料 Amazon Kendra 來源的共用雲端硬碟、「我的雲端硬碟」和「與我共享」資料夾中儲存的文件和註解建立索引。您可以編製 Google 工作區文件的索引,以及文件類型中列出的文件。您也可以使用包含和排除篩選器,依檔案名稱、檔案類型和檔案路徑為內容建立索引。

注意

Support 谷歌驅動器連接器 V1.0 /谷歌 DriveConfiguration API計劃在2023 年結束。我們建議您遷移到或使用谷歌驅動器連接器 V2.0/ TemplateConfiguration API。

如需 Amazon Kendra Google 雲端硬碟資料來源連接器的疑難排解,請參閱 疑難排解資料來

支援的功能

  • 欄位對映

  • 使用者存取控制

  • 包含/排除過濾器

  • 完整和增量內容同步

  • 虛擬私有雲 (VPC)

必要條件

在您可以用 Amazon Kendra 來為 Google 雲端硬碟資料來源建立索引之前,請先在 Google 雲端硬碟和 AWS 帳戶中進行這些變更。

在 Google 雲端硬盤中,請確保您具有:

  • 被超級管理員角色授與存取權,者是具有管理權限的使用者。如果您已被超級管理員角色授與存取權,則不需要自己的超級管理員角色。

  • 已設定的 Google 雲端硬碟服務帳戶連線憑證,其中包含您的管理員帳戶電子郵件、用戶端電子郵件 (服務帳戶電子郵件) 請參閱 GCP 文件,瞭解如何建立和刪除服務帳戶金鑰

    注意

    我們建議您定期重新整理或輪換您的認證和密碼。僅為您自己的安全提供必要的訪問級別。我們建議您跨資料來源以及連接器 1.0 和 2.0 版 (如果適用) 重複使用認證和密碼。

  • 建立 Google Cloud 服務帳戶 (具有委派授權以假設使用者身分的帳戶),並啟用 G Suite 網域範圍委派以進行 server-to-server驗證,然後使用該帳戶產生JSON私密金鑰。

    注意

    私密金鑰應在建立服務帳戶之後產生。

  • API在您的用戶帳戶中添加了管理員SDKAPI和 Google 雲端硬盤。

  • 可選:配置 Google 雲端硬盤 OAuth 2.0 連接憑據,其中包含客戶端 ID,客戶端密鑰和刷新令牌作為特定用戶的連接憑據。您需要此功能來檢索個別帳戶資料。請參閱有關使用 OAuth 2.0 訪問的谷歌文檔APIs

  • 使用超級管理員角色將以下範圍新增 (或要求具有超級管理員角色的使用者新增) 下列OAuth範圍至您的服務帳戶。編目所有文件以及 Google Workspace 網域中所有使用者的存取控制 (ACL) 資訊需要下列API範圍:

    • https://www.googleapis.com/auth/只讀 — 查看和下載您的所有 Google 雲端硬盤文件

    • https://www.googleapis.com/auth/只讀驅動器. 元數據 — 查看 Google 雲端硬盤中文件的元數據

    • https://www.googleapis.com/auth/唯讀管理員目錄群組 — 僅擷取群組、群組別名和成員資訊的範圍。這是 Amazon Kendra 身份爬行者程式所需的。

    • https://www.googleapis.com/auth/唯讀管理員目錄:僅擷取使用者或使用者別名的範圍。在「 Amazon Kendra 識別爬行者程式」中列出使用者以及進行設定ACLs時,需要此選項。

    • https://www.googleapis.com/auth/雲平台-用於生成訪問令牌以獲取大型 Google 雲端硬盤文件內容的範圍。

    • https://www.googleapis.com/auth/唯讀表單. Body — 從 Google 表單擷取資料的範圍。

    若要支援表單API,請新增下列其他範圍:

    • https://www.googleapis.com/auth/形式. 身體. 只讀

  • 已核取每個文件在 Google 雲端硬碟和您打算用於相同索引的其他資料來源中都是唯一的。您要用於索引的每個資料來源不得包含跨資料來源的相同文件。文件對索引來說IDs是全域的,而且每個索引必須是唯一的。

在您的中 AWS 帳戶,請確保您具有:

  • 創建了一個 Amazon Kendra 索引,如果使用API,則註明索引 ID。

  • 為您的資料來源建立 IAM 角色,如果使用API,則會記錄 IAM 角色ARN的。

    注意

    如果您變更驗證類型和認證,則必須更新 IAM 角色才能存取正確的 AWS Secrets Manager 密碼 ID。

  • 將您的 Google 雲端硬盤身份驗證憑據存儲在 AWS Secrets Manager 秘密中,如果使用API,則註明秘密ARN的內容。

    注意

    我們建議您定期重新整理或輪換您的認證和密碼。僅為您自己的安全提供必要的訪問級別。我們建議您跨資料來源以及連接器 1.0 和 2.0 版 (如果適用) 重複使用認證和密碼。

如果您沒有現有的 IAM 角色或機密,可以在將 Google 雲端硬碟資料來源連線至時,使用主控台建立新 IAM 角色和 Secrets Manager 密碼 Amazon Kendra。如果您使用的是API,則必須提ARN供現有 IAM 角色和 Secrets Manager 密碼,以及索引 ID。

連接說明

若要連線 Amazon Kendra 至 Google 雲端硬碟資料來源,您必須提供 Google 雲端硬碟資料來源的必要詳細資料,才 Amazon Kendra 能存取您的資料。如果您尚未配置 Google 雲端硬盤以供 Amazon Kendra 查看必要條件

Console

連接 Amazon Kendra 到谷歌雲端硬盤

  1. 登入 AWS Management Console 並開啟Amazon Kendra 主控台

  2. 在左側導覽窗格中,選擇 [索引],然後從索引清單中選擇要使用的索引。

    注意

    您可以選擇在索引設置下配置或編輯用戶訪問控制設置

  3. 在 [開始使用] 頁面上,選擇 [新增資料來源]。

  4. 在 [新增資料來源] 頁面上選擇 [Google 雲端硬碟連接器],然後選擇 [新增連接器]。如果使用第 2 版(如果適用),請選擇帶有「V2.0」標籤的 Google 雲端硬盤連接器

  5. 在 [指定資料來源詳細資訊] 頁面上,輸入下列資訊:

    1. 名稱和說明中,對於資料來源名稱 — 輸入資料來源的名稱。您可以包含連字號,但不能包含空格。

    2. (選擇性) 說明 — 輸入資料來源的選用說明。

    3. 預設語言中 — 選擇一種語言來篩選索引的文件。除非另有指定,否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。

    4. 在「」中,針對「新增標籤」— 包含可選標籤以搜尋和篩選資源或追蹤 AWS 成本。

    5. 選擇 Next (下一步)

  6. 在 [定義存取和安全性] 頁面上,輸入下列資訊:

    1. 授權 — 開啟或關閉文件的存取控制清單 (ACL) 資訊 (如果您有ACL並且想要將其用於存取控制)。ACL指定使用者和群組可存取的文件。此資ACL訊可用來根據使用者或使用者對文件的群組存取權來篩選搜尋結果。如需詳細資訊,請參閱使用者內容篩選

    2. 對於身份驗證 — 根據您的用例在 Google 服務帳戶OAuth2.0 身份驗證之間進行選擇。

    3. AWS Secrets Manager 密碼:選擇現有密碼,或建立新 Secrets Manager 密碼來儲存您的 Google 雲端硬碟驗證憑證。如果您選擇建立新密碼,則會開啟一個 AWS Secrets Manager 密碼視窗。

      1. 如果您選擇 Google 服務帳戶,請在服務帳戶配置(管理員電子郵件)中輸入密鑰的名稱,管理員用戶的電子郵件 ID 或「服務帳戶用戶」,服務帳戶的電子郵件 ID(客戶端電子郵件)以及您在服務帳戶中創建的私鑰。

        保存並添加您的密碼

      2. 如果您選擇 OAuth2.0 驗證,請輸入您在帳戶中建立的密碼、用戶端 ID、用OAuth戶端密碼和重新整理權杖的名稱。使用者郵件 ID (已設定連線詳細資料的使用者) 將設定為ACL。ACL由於限制,連接器不會設定其他使用者/群組主要資訊。API

        保存並添加您的秘密。

    4. 虛擬私人雲端 (VPC) — 您可以選擇使用VPC. 如果是這樣,您必須新增子網路VPC安全性群組

    5. (僅適用於 Google 服務帳戶身份驗證用戶)

      識別爬行者程式 — 指定是否要開啟身分識別爬行 Amazon Kendra者程式。身分識別爬行者程式會使用文件的存取控制清單 (ACL) 資訊,根據使用者或使用者對文件的群組存取權來篩選搜尋結果。如果您的文件有一個ACL,並選擇使用您的ACL,您也可以選擇開啟的身分識別爬行 Amazon Kendra者程式,以設定搜尋結果的使用者內容篩選。否則,如果關閉身分搜索器,則可以公開搜索所有文檔。如果您想要對文件使用存取控制,且身分識別爬行者程式已關閉,您也可以使用PutPrincipalMappingAPI來上傳使用者和群組存取資訊以進行使用者前後關聯篩選。

    6. IAM role — 選擇現有 IAM 角色或建立新 IAM 角色以存取存放庫認證和索引內容。

      注意

      IAM 用於索引的角色不能用於資料來源。如果您不確定索引是否使用現有角色FAQ,或選擇建立新角色以避免發生錯誤。

    7. 選擇 Next (下一步)

  7. 在 [設定同步設定] 頁面上,輸入下列資訊:

    1. 同步內容 — 選取您要編目的選項或內容。您可以選擇檢索「我的雲端硬碟」(個人資料夾)、「共用雲端硬碟」(與您共享的資料夾),或兩者皆可。您也可以包含檔案註解。

    2. 其他組態-選用您也可以輸入下列選用資訊:

      1. 最大檔案大小 — 設定要編目MBs的檔案大小上限。

      2. 使用者電子郵件 — 新增您要包含或排除的使用者電子郵件。

      3. 共用雲端硬碟:新增您要包含或排除的共用磁碟機名稱。

      4. MIME 類型 — 新增您要包含或排除的MIME類型。

      5. 實體正則表達式模式 — 添加規則運算式模式以包含或排除所有支援實體的某些附件。您最多可以添加 100 個圖案。

        您可以為文件名,文件型和文件路徑配置包含/排除正則表達式模式。

        • 檔案名稱 — 要包含或排除的檔案名稱。例如,若要建立具有名稱的檔案索引teamroster.txt,請提供teamroster

        • 檔案類型 — 要包含或排除的檔案類型。例如,.pdf .txt 文檔。

        • 檔案路徑 — 要包含或排除的檔案路徑。例如,若要僅索引磁碟機資料夾內Products list的檔案,請提供/Products list

    3. 同步模式 — 選擇資料來源內容變更時要如何更新索引。當您第一次將資料來源同 Amazon Kendra 步處理時,依預設會檢索所有內容並建立索引。如果初始同步失敗,您必須執行資料的完整同步,即使您沒有選擇完整同步作為同步模式選項。

      • 完全同步:新鮮索引所有內容,並在每次資料來源與索引同步時取代現有內容。

      • 新增、修改的同步:每次資料來源與索引同步時,僅對新內容和已修改的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。

      • 新增、修改、刪除的同步:每次資料來源與索引同步時,僅對新內容、已修改和刪除的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。

      重要

      Google 雲端硬盤API不支持從永久刪除的文件中檢索評論。刪除文件中的註釋是可檢索的。刪除檔案時,連接器會刪除 Amazon Kendra 索引中的註解。

    4. 同步執行排程中,對於頻率 — 選擇同步資料來源內容和更新索引的頻率。

    5. 在 [同步執行歷程記錄] 中,選擇在同步資料來源 Amazon S3 時將自動產生的報告儲存在中。這對於在系統管理資料來源時追蹤問題非常有用。

    6. 選擇 Next (下一步)

  8. [設定欄位對映] 頁面上,輸入下列資訊:

    1. 對於檔案 — 從 Amazon Kendra 產生的預設資料來源欄位中選取您要對映至索引的欄位。

      注意

      Google 雲端硬碟API不支援建立自訂欄位。Google 雲端硬碟連接器無法使用自訂欄位對應。

    2. 選擇 Next (下一步)

  9. 在 [檢閱並建立] 頁面上,檢查您輸入的資訊是否正確,然後選取 [新增資料來源]。您也可以從此頁面選擇編輯您的資訊。成功新增資料來源後,您的資料來源將顯示在 [資料來源] 頁面上。

API

連接 Amazon Kendra 到谷歌雲端硬盤

您必須使用指定JSON一個資料來源結構描述TemplateConfigurationAPI。您必須提供以下信息:

  • 資料來源 — 指定使用TemplateConfigurationJSON結構描述GOOGLEDRIVEV2時的資料來源類型。同時指定呼叫TEMPLATE時的資料來源CreateDataSourceAPI。

  • 驗證類型 — 指定要使用服務帳戶驗證還是 OAuth 2.0 驗證。

  • 同步模式 — 指定資料來源內容變更時 Amazon Kendra 應如何更新索引。當您第一次將資料來源同 Amazon Kendra 步處理時,依預設會檢索所有內容並建立索引。如果初始同步失敗,您必須執行資料的完整同步,即使您沒有選擇完整同步作為同步模式選項。您可以選擇:

    • FORCED_FULL_CRAWL新建索引所有內容,並在每次資料來源與索引同步時取代現有內容。

    • FULL_CRAWL,以在每次資料來源與索引同步時,僅對新的、修改的和刪除的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。

    • CHANGE_LOG每次資料來源與索引同步時,僅對新內容和修改的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。

    重要

    Google 雲端硬盤API不支持從永久刪除的文件中檢索評論。刪除文件中的註釋是可檢索的。刪除檔案時,連接器會刪除 Amazon Kendra 索引中的註解。

  • 秘密 Amazon 資源名稱(ARN)-提供包含您在 Google 雲端硬盤帳戶中創建的身份驗證憑據的 Secrets Manager 秘密的 Amazon 資源名稱(ARN)。如果您使用 Google 服務帳戶身份驗證,則密鑰將存儲在具有以下密鑰的JSON結構中:

    { "clientEmail": "user account email", "adminAccountEmail": "service account email", "privateKey": "private key" }

    如果您使用 OAuth 2.0 驗證,密碼會儲存在具有下列金鑰的JSON結構中:

    { "clientID": "OAuth client ID", "clientSecret": "client secret", "refreshToken": "refresh token" }
  • IAM role — 指定您撥打電話的RoleArn時間,CreateDataSource以提供具有存取 Secrets Manager 密碼權限的 IAM 角色,以及呼叫 Google 雲端硬碟連接器和 Amazon Kendra所APIs需公用者的時間。如需詳細資訊,請參閱 Google 雲端硬碟資料來源的IAM 角色

您還可以添加以下可選功能:

  • 虛擬私人雲端 (VPC) — 指定您撥打電話CreateDataSourceVpcConfiguration時間。如需詳細資訊,請參閱配置 Amazon Kendra 為使用 Amazon VPC

  • 我的雲端硬碟、共用雲端硬碟、註解 — 您可以指定是否要編目這些類型的內容。

  • 包含和排除篩選器 — 您可以指定是否要包含或排除特定使用者帳戶、共用雲端硬碟和MIME類型。

    注意

    大多數資料來源使用規則運算式模式,這些模式是稱為篩選器的包含或排除模式。如果您指定包含篩選器,則只有符合包含項目篩選器的內容會編製索引。不符合包含篩選器的任何文件都不會建立索引。如果您指定包含和排除篩選器,符合排除篩選器的文件將不會建立索引,即使它們符合包含篩選器也是如此。

  • 存取控制清單 (ACL) — 指定是否要編目文件的ACL資訊 (如果您有ACL並且想要將其用於存取控制)。ACL指定使用者和群組可存取的文件。此資ACL訊可用來根據使用者或使用者對文件的群組存取權來篩選搜尋結果。如需詳細資訊,請參閱使用者內容篩選

  • 識別爬行者程式 — 指定是否要開啟身分識別爬行 Amazon Kendra者程式。身分識別爬行者程式會使用文件的存取控制清單 (ACL) 資訊,根據使用者或使用者對文件的群組存取權來篩選搜尋結果。如果您的文件有一個ACL,並選擇使用您的ACL,您也可以選擇開啟的身分識別爬行 Amazon Kendra者程式,以設定搜尋結果的使用者內容篩選。否則,如果關閉身分搜索器,則可以公開搜索所有文檔。如果您想要對文件使用存取控制,且身分識別爬行者程式已關閉,您也可以使用PutPrincipalMappingAPI來上傳使用者和群組存取資訊以進行使用者前後關聯篩選。

  • 欄位對應 — 選擇將 Google 雲端硬碟資料來源欄位對應至 Amazon Kendra 索引欄位。如需詳細資訊,請參閱映射資料來源欄位

    注意

    您的文件需要文件內文欄位或文件內文對等項目,才能搜尋您的文件。 Amazon Kendra 您必須將資料來源中的文件內文欄位名稱對應至索引欄位名稱_document_body。所有其他欄位是選用的。

如需要設定的其他重要JSON金鑰清單,請參閱 Google 雲端硬碟範本結構描述

備註

  • 自訂欄位對應不適用於 Google 雲端硬碟連接器,因為 Google 雲端硬碟 UI 不支援建立自訂欄位。

  • Google 雲端硬盤API不支持從永久刪除的文件中檢索評論。但是,對於已刪除的文件,註釋是可以檢索的。刪除檔案時, Amazon Kendra 連接器會刪除 Amazon Kendra 索引中的註解。

  • Google 雲端硬盤API不會返回 .docx 文件中存在的註釋。

  • 如果將特定 Google document (文件、試算表、幻燈片等) 的權限設定為「一般存取權:任何擁有連結共用至您特定公司網域的使用者」,Amazon Kendra 搜尋使用者在進行查詢的使用者存取文件之前,才能看到該文件。