本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon Kendra 網絡爬蟲
您可以使用 Amazon Kendra Web 爬蟲來檢索和索引網頁。
您只能抓取使用安全通訊協定超文字傳輸通訊協定安全 (HTTPS) 的公開網站或公司內部網站。如果在網路爬取網站時收到錯誤訊息,可能是網站阻止網路爬取。要檢索內部網站,您可以設置 Web 代理。Web 代理必須面對公開。您也可以使用驗證來存取和檢索網站。
選取要索引的網站時,您必須遵守 Amazon 可接受的使用政策
注意
濫用 Amazon Kendra Web 爬蟲積極抓取您不擁有的網站或網頁是不被認為是可接受的使用。
Amazon Kendra 有兩個版本的web crawler連接器。每個版本的支援功能包括:
Amazon Kendra 網路爬蟲連接器 1.0 /API WebCrawlerConfiguration
-
网络代理
-
包含/排除過濾器
Amazon Kendra 網路爬蟲連接器 2.0 版/API TemplateConfiguration
-
欄位對映
-
包含/排除過濾器
-
完整和增量內容同步
-
网络代理
-
適用於您網站的基本、NTLM /Kerberos、SAML 和表單驗證
-
虛擬私有雲端 (VPC)
重要
不支援建立 Web 爬行者程式 v2.0 連接器。 AWS CloudFormation如果您需 AWS CloudFormation 要支援,請使用 Web 爬行者程式 v1.0 連接器。
如需 Amazon Kendra Web 爬行者程式資料來源連接器的疑難排解,請參閱疑難排解資料來。