Amazon Kendra 網路爬蟲連接器 v1.0 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Kendra 網路爬蟲連接器 v1.0

您可以使用 Amazon Kendra Web 爬蟲來檢索和索引網頁。

您只能抓取使用安全通訊協定超文字傳輸通訊協定安全 (HTTPS) 的公開網站和網站。如果在網路爬取網站時收到錯誤訊息,可能是網站阻止網路爬取。要檢索內部網站,您可以設置 Web 代理。Web 代理必須面對公開。

選取要索引的網站時,您必須遵守 Amazon 可接受的使用政策以及 Amazon所有其他條款。請記住,您只能使用 Amazon Kendra Web 爬蟲來索引您自己的網頁或您有權索引的網頁。要了解如何阻止 Amazon Kendra Web 爬蟲索引您的網站,請參閱設定 Amazon Kendra 網頁爬行者程式的robots.txt檔案

注意

濫用 Amazon Kendra Web 爬蟲積極抓取您不擁有的網站或網頁是被認為是可接受的使用。

如需 Amazon Kendra Web 爬行者程式資料來源連接器的疑難排解,請參閱疑難排解資料來

支援的功能

  • 网络代理

  • 包含/排除過濾器

必要條件

在您可以使用索引您 Amazon Kendra 的網站之前,請檢查您的網站和 AWS 帳戶的詳細資料。

對於您的網站,請確保您擁有:

  • 複製您要索引的網站的種子或站點地圖 URL。

  • 對於需要基本驗證的網站:記下使用者名稱和密碼,並複製網站的主機名稱和連接埠號碼。

  • 選用性:如果您想要使用 Web Proxy 連線至您要檢索的內部網站,請複製網站的主機名稱和連接埠號碼。Web 代理必須面對公開。 Amazon Kendra 支持連接到基本身份驗證支持的 Web 代理服務器,或者您可以在沒有身份驗證的情況下連接。

  • 檢查您要索引的每個網頁文檔是唯一的,並且在您計劃用於相同索引的其他數據源中。您要用於索引的每個資料來源不得包含跨資料來源的相同文件。文件 ID 對索引來說是全域的,而且每個索引必須是唯一的。

在您的 AWS 帳戶中,請確定您有:

  • 建立 Amazon Kendra 索引,如果使用 API,則會記下索引識別碼。

  • 為您的資料來源建立 IAM 角色,如果使用 API,則會記錄 IAM 角色的 ARN。

    注意

    如果您變更驗證類型和認證,則必須更新 IAM 角色才能存取正確的 AWS Secrets Manager 密碼 ID。

  • 對於需要身份驗證的網站,或者如果使用具有身份驗證的 Web 代理,則將您的身份驗證憑據存儲在 AWS Secrets Manager 密鑰中,並且如果使用 API,則會記錄密鑰的 ARN。

    注意

    我們建議您定期重新整理或輪換您的認證和密碼。僅為您自己的安全提供必要的訪問級別。我們建議您跨資料來源以及連接器 1.0 和 2.0 版 (如果適用) 重複使用認證和密碼。

如果您沒有現有的 IAM 角色或密碼,則可以在將web crawler資料來源連線到時使用主控台建立新 IAM 角色和 Secrets Manager 密碼 Amazon Kendra。如果您使用 API,則必須提供現有 IAM 角色和 Secrets Manager 密碼的 ARN,以及索引 ID。

連接說明

若要連線 Amazon Kendra 到web crawler資料來源,您必須提供資料來源的必要詳細web crawler資訊, Amazon Kendra 以便能夠存取您的資料。如果您尚未設定「 Amazon Kendra 請web crawler參閱必要條件」。

Console

若要連線 Amazon Kendra 到 web crawler

  1. 登入 AWS Management Console 並開啟Amazon Kendra 主控台

  2. 在左側導覽窗格中,選擇 [索引],然後從索引清單中選擇要使用的索引。

    注意

    您可以選擇在索引設置下配置或編輯您的用戶訪問控制設置

  3. 在 [開始使用] 頁面上,選擇 [新增資料來源]。

  4. 在 [新增資料來源] 頁面上,選擇 Web 爬行者程式連接器,然後選擇 [新增連接器]。如果使用第 2 版(如果適用),請選擇帶有「V2.0」標籤的 Web 爬行者程式連接器

  5. 在 [指定資料來源詳細資訊] 頁面上,輸入下列資訊:

    1. 名稱和說明中,對於資料來源名稱 — 輸入資料來源的名稱。您可以包含連字號,但不能包含空格。

    2. (選擇性) 說明 — 輸入資料來源的選用說明。

    3. 預設語言中 — 選擇一種語言來篩選索引的文件。除非另有指定,否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。

    4. 在「」中,針對「新增標籤」— 包含可選標籤以搜尋和篩選資源或追蹤 AWS 成本。

    5. 選擇下一步

  6. 在 [定義存取權和安全性] 頁面上,輸入下列資訊:

    1. 對於「來源」,請根據您的使用案例選擇「來源 URL」和「來源網站地圖」,然後輸入每個網站地圖的值。

      您最多可以新增 10 個來源 URL 和三個網站地圖。

      注意

      如果您要檢索 Sitemap,請檢查基礎或根網址是否與 Sitemap 頁面上列出的 URL 相同。例如,如果您的 Sitemap URL 是 https://example.com/sitemap-page.html,則此 Sitemap 頁面上列出的網址也應使用基本 URL「https://example.com/」。

    2. (選擇性) 對於 Web 代理伺服器 — 輸入下列資訊:

      1. 主機名稱 — 需要 Web Proxy 的主機名稱。

      2. 連接埠號碼 — 主機 URL 傳輸通訊協定所使用的連接埠。連接埠號碼應該是介於 0 到 65535 之間的數值。

      3. 對於 Web Proxy 憑證 — 如果您的 Web Proxy 連線需要驗證,請選擇現有密碼或建立新密碼來儲存您的驗證憑證。如果您選擇建立新密碼,則會開啟一個 AWS Secrets Manager 密碼視窗。

      4. 在「建立 AWS Secrets Manager Secrets Manager 密碼視窗」中輸入下列資訊:

        1. 秘密名稱 — 您秘密的名稱。字首 'AmazonKendra-WebCrawler-' 會自動新增至您的密碼名稱。

        2. 針對使用者名稱密碼 — 輸入您網站的這些基本驗證憑證。

        3. 選擇儲存

    3. (選擇性) 具有驗證的主機 — 選取此選項可新增具有驗證的其他主機。

    4. IAM role — 選擇現有 IAM 角色或建立新 IAM 角色以存取存放庫認證和索引內容。

      注意

      IAM 用於索引的角色不能用於資料來源。如果您不確定索引或常見問題集是否使用現有角色,請選擇 [建立新角色] 以避免發生錯誤。

    5. 選擇下一步

  7. 在 [設定同步設定] 頁面上,輸入下列資訊:

    1. 抓取範圍 — 選擇您要抓取的網頁類型。

    2. 編目深度 — 從應編目的種子 URL 中選取層級 Amazon Kendra 數目。

    3. 進階編目設定其他組態輸入下列資訊:

      1. 檔案大小上限 — 要編目的網頁或附件大小上限。最小 1 MB(1 個字節)。最大值 50 MB

      2. 每頁最大連結數 — 每頁編目的連結數目上限。連結會依外觀順序編目。最少 1 個鏈接/頁面。每頁最多 1000 個連結。

      3. 節流上限 — 每分鐘每個主機名稱編目的 URL 數目上限。至少 1 個網址/主機名稱/分鐘。最多 300 個網址/主機名稱/分鐘。

      4. 正則表達式模式-添加正則表達式模式以包含或排除某些 URL。您最多可以添加 100 個圖案。

    4. 同步執行排程中,對於頻率 — 選擇與資料來源同步的頻率。 Amazon Kendra

    5. 選擇下一步

  8. 在 [檢閱並建立] 頁面上,檢查您輸入的資訊是否正確,然後選取 [新增資料來源]。您也可以從此頁面選擇編輯您的資訊。成功新增資料來源後,您的資料來源將顯示在 [資料來源] 頁面上。

API

若要連線 Amazon Kendra 到 web crawler

您必須使用 WebCrawlerConfigurationAPI 指定下列項目:

  • URL — 指定網站的種子或起點 URL,或是您要使用SeedUrlConfigurationSiteMapsConfiguration檢索之網站的 Sitemap URL。

    注意

    如果您要檢索 Sitemap,請檢查基礎或根網址是否與 Sitemap 頁面上列出的 URL 相同。例如,如果您的 Sitemap URL 是 https://example.com/sitemap-page.html,則此 Sitemap 頁面上列出的網址也應使用基本 URL「https://example.com/」。

  • 秘密 Amazon 資源名稱 (ARN) — 如果網站需要基本身份驗證,您需要提供主機名稱、連接埠號碼和密碼,以儲存使用者名稱和密碼的基本身份驗證登入資料。您可以使用 AuthenticationConfigurationAPI 提供秘密 ARN。密碼會以下列金鑰儲存在 JSON 結構中:

    { "username": "user name", "password": "password" }

    您還可以使用 AWS Secrets Manager 密碼提供 Web 代理憑據。您可以使用 ProxyConfigurationAPI 提供網站主機名稱和連接埠號碼,以及選擇性地提供儲存 Web Proxy 憑證的密碼。

  • IAM role — 指定RoleArn何時呼叫CreateDataSource以提供具有存取 Secrets Manager 密碼之權限的 IAM 角色,以及呼叫 Web 爬行者程式連接器和所需公用 API 的時間。 Amazon Kendra如需詳細資訊,請參閱 Web 爬行者程式資料來源的IAM 角色

您還可以添加以下可選功能:

  • 編目模式:選擇是僅編目網站主機名稱,還是編目具有子網域的主機名稱,還是檢索網頁連結的其他網域。

  • 從種子級別到爬網的「深度」或級別數。例如,種子 URL 頁面是深度 1,而此頁面上也經過探索的任何超連結都是深度 2。

  • 單一網頁上要檢索的 URL 數目上限。

  • 要抓取的網頁大小上限 (以 MB 為單位)。

  • 每分鐘每個網站主機網路爬取的 URL 數目上限。

  • 用於連線和爬取內部網站的 Web Proxy 主機和連接埠號碼。例如,的主機名稱https://a.example.com/page1.html是 "a.example.com",連接埠號碼是 443,也就是 HTTPS 的標準連接埠。如果需要 Web Proxy 憑證才能連線到網站主機,您可以建立儲存 AWS Secrets Manager 認證的。

  • 存取和檢索需要使用者驗證之網站的驗證資訊。

  • 您可以使用「自訂文件強化」工具將 HTML 中繼標記擷取為欄位。如需詳細資訊,請參閱在擷取過程中自訂文件中繼資料。如需擷取 HTML 中繼標記的範例,請參閱 CDE 範例

  • 包含和排除篩選器 — 指定要包含還是排除特定 URL。

    注意

    大多數資料來源使用規則運算式模式,這些模式是稱為篩選器的包含或排除模式。如果您指定包含篩選器,則只有符合包含項目篩選器的內容會編製索引。不符合包含篩選器的任何文件都不會建立索引。如果您指定包含和排除篩選器,符合排除篩選器的文件將不會建立索引,即使它們符合包含篩選器也是如此。

進一步了解

若要進一步瞭解 Amazon Kendra 與web crawler資料來源整合的相關資訊,請參閱: