本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Kendra 网络爬虫
您可以使用 Amazon Kendra Web Crawler 来抓取和索引网页。
您只能爬取公共网站和使用安全通信协议(安全超文本传输协议(HTTPS))的公司内部网站。如果您在爬取网站时收到错误,则可能是该网站被阻止爬网。要爬取内部网站,可以设置 Web 代理。Web 代理必须面向公众。您还可以使用身份验证来访问和爬取网站。
当选择要编制索引的网站时,您必须遵守 Amazon 可接受使用政策
注意
滥用 Amazon Kendra Web Crawler 来积极抓取你不拥有的网站或网页是不被视为不可接受的用法。
Amazon Kendra 有两个版本的 web crawler 连接器。每个版本支持的功能包括:
Amazon Kendra 网络爬虫连接器 v1.0/WebCrawlerConfiguration API
-
Web 代理
-
包含/排除筛选条件
Amazon Kendra Web Crawler 连接器 v2.0/TemplateConfiguration API
-
字段映射
-
包含/排除筛选条件
-
完整内容和增量内容同步
-
Web 代理
-
网站的基本、NTLM/Kerberos、SAML 和表单身份验证
-
Virtual Private Cloud (VPC) [虚拟私有云(VPC)]
重要
不支持 Web Crawler v2.0 连接器的创建。 AWS CloudFormation如果需要 AWS CloudFormation 支持,请使用 Web Crawler v1.0 连接器。
要对 Amazon Kendra 网络爬虫数据源连接器进行故障排除,请参阅数据来源故障排除。