Amazon Kendra 網絡爬蟲 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Kendra 網絡爬蟲

您可以使用 Amazon Kendra Web 爬蟲來檢索和索引網頁。

您只能抓取使用安全通訊協定超文字傳輸通訊協定安全 (HTTPS) 的公開網站或公司內部網站。如果在網路爬取網站時收到錯誤訊息,可能是網站阻止網路爬取。要檢索內部網站,您可以設置 Web 代理。Web 代理必須面對公開。您也可以使用驗證來存取和檢索網站。

選取要索引的網站時,您必須遵守 Amazon 可接受的使用政策以及 Amazon所有其他條款。請記住,您只能使用 Amazon Kendra Web 爬蟲來索引您自己的網頁或您有權索引的網頁。要了解如何阻止 Amazon Kendra Web 爬蟲索引您的網站,請參閱設定 Amazon Kendra 網頁爬行者程式的robots.txt檔案

注意

濫用 Amazon Kendra Web 爬蟲積極抓取您不擁有的網站或網頁是被認為是可接受的使用。

Amazon Kendra 有兩個版本的web crawler連接器。每個版本的支援功能包括:

Amazon Kendra 網路爬蟲連接器 1.0 /API WebCrawlerConfiguration

  • 网络代理

  • 包含/排除過濾器

Amazon Kendra 網路爬蟲連接器 2.0 版/API TemplateConfiguration

  • 欄位對映

  • 包含/排除過濾器

  • 完整和增量內容同步

  • 网络代理

  • 適用於您網站的基本、NTLM /Kerberos、SAML 和表單驗證

  • 虛擬私有雲端 (VPC)

重要

不支援建立 Web 爬行者程式 v2.0 連接器。 AWS CloudFormation如果您需 AWS CloudFormation 要支援,請使用 Web 爬行者程式 v1.0 連接器。

如需 Amazon Kendra Web 爬行者程式資料來源連接器的疑難排解,請參閱疑難排解資料來