选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

Amazon Kendra 网络爬虫 - Amazon Kendra

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Kendra 网络爬虫

您可以使用 Amazon Kendra Web Crawler 来抓取和索引网页。

您只能爬取公共网站和使用安全通信协议(安全超文本传输协议(HTTPS))的公司内部网站。如果您在爬取网站时收到错误,则可能是该网站被阻止爬网。要爬取内部网站,可以设置 Web 代理。Web 代理必须面向公众。您还可以使用身份验证来访问和爬取网站。

当选择要编制索引的网站时,您必须遵守 Amazon 可接受使用政策以及所有其他 Amazon 条款。请记住,您只能使用 Amazon Kendra Web Crawler 来索引自己的网页或您有权编制索引的网页。要了解如何阻止 Amazon Kendra Web Crawler 将您的网站编入索引,请参阅为 Amazon Kendra Web 爬网程序配置 robots.txt 文件

注意

滥用 Amazon Kendra Web Crawler 来积极抓取你不拥有的网站或网页是不被视为不可接受的用法。

Amazon Kendra 有两个版本的 web crawler 连接器。每个版本支持的功能包括:

Amazon Kendra 网络爬虫连接器 v1.0/WebCrawlerConfiguration API

  • Web 代理

  • 包含/排除筛选条件

Amazon Kendra Web Crawler 连接器 v2.0/TemplateConfiguration API

  • 字段映射

  • 包含/排除筛选条件

  • 完整内容和增量内容同步

  • Web 代理

  • 网站的基本、NTLM/Kerberos、SAML 和表单身份验证

  • Virtual Private Cloud (VPC) [虚拟私有云(VPC)]

重要

不支持 Web Crawler v2.0 连接器的创建。 AWS CloudFormation如果需要 AWS CloudFormation 支持,请使用 Web Crawler v1.0 连接器。

要对 Amazon Kendra 网络爬虫数据源连接器进行故障排除,请参阅数据来源故障排除

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。