Amazon Kendra 网络爬虫 - Amazon Kendra

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Kendra 网络爬虫

您可以使用 Amazon Kendra Web Crawler 来抓取和索引网页。

您只能爬取公共网站和使用安全通信协议(安全超文本传输协议(HTTPS))的公司内部网站。如果您在爬取网站时收到错误,则可能是该网站被阻止爬网。要爬取内部网站,可以设置 Web 代理。Web 代理必须面向公众。您还可以使用身份验证来访问和爬取网站。

当选择要编制索引的网站时,您必须遵守 Amazon 可接受使用政策以及所有其他 Amazon 条款。请记住,您只能使用 Amazon Kendra Web Crawler 来索引自己的网页或您有权编制索引的网页。要了解如何阻止 Amazon Kendra Web Crawler 将您的网站编入索引,请参阅为 Amazon Kendra Web 爬网程序配置 robots.txt 文件

注意

滥用 Amazon Kendra Web Crawler 来积极抓取你不拥有的网站或网页是不被视为不可接受的用法。

Amazon Kendra 有两个版本的web crawler连接器。每个版本支持的功能包括:

Amazon Kendra Web Crawler 连接器 v1.0/API WebCrawlerConfiguration

  • Web 代理

  • 包含/排除筛选条件

Amazon Kendra Web Crawler 连接器 v2.0/API TemplateConfiguration

  • 字段映射

  • 包含/排除筛选条件

  • 完整内容和增量内容同步

  • Web 代理

  • 网站的基本、NTLM/Kerberos、SAML 和表单身份验证

  • Virtual Private Cloud (VPC)

重要

不支持 Web Crawler v2.0 连接器的创建。 AWS CloudFormation如果需要 AWS CloudFormation 支持,请使用 Web Crawler v1.0 连接器。

要对 Amazon Kendra 网络爬虫数据源连接器进行故障排除,请参阅数据来源故障排除