Amazon Kendra 网络爬虫

您可以使用 Amazon Kendra Web Crawler 来抓取和索引网页。

您只能爬取公共网站和使用安全通信协议（安全超文本传输协议（HTTPS））的公司内部网站。如果您在爬取网站时收到错误，则可能是该网站被阻止爬网。要爬取内部网站，可以设置 Web 代理。Web 代理必须面向公众。您还可以使用身份验证来访问和爬取网站。

当选择要编制索引的网站时，您必须遵守 Amazon 可接受使用政策以及所有其他 Amazon 条款。请记住，您只能使用 Amazon Kendra Web Crawler 来索引自己的网页或您有权编制索引的网页。要了解如何阻止 Amazon Kendra Web Crawler 将您的网站编入索引，请参阅为 Amazon Kendra Web 爬网程序配置 robots.txt 文件。

注意

滥用 Amazon Kendra Web Crawler 来积极抓取你不拥有的网站或网页是不被视为不可接受的用法。

Amazon Kendra 有两个版本的web crawler连接器。每个版本支持的功能包括：

Amazon Kendra Web Crawler 连接器 v1.0/API WebCrawlerConfiguration

Web 代理
包含/排除筛选条件

Amazon Kendra Web Crawler 连接器 v2.0/API TemplateConfiguration

字段映射
包含/排除筛选条件
完整内容和增量内容同步
Web 代理
网站的基本、NTLM/Kerberos、SAML 和表单身份验证
Virtual Private Cloud (VPC) [虚拟私有云（VPC）]

重要

不支持 Web Crawler v2.0 连接器的创建。 AWS CloudFormation如果需要 AWS CloudFormation 支持，请使用 Web Crawler v1.0 连接器。

要对 Amazon Kendra 网络爬虫数据源连接器进行故障排除，请参阅数据来源故障排除。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

Amazon VPC 与一起使用 Amazon S3

Amazon Kendra 网络爬虫连接器 v1.0