Amazon Kendra ウェブクローラー - Amazon Kendra

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Kendra ウェブクローラー

Amazon Kendra Web Crawler を使用して、ウェブページをクロールおよびインデックス作成できます。

クロールできるのは、公開ウェブサイト、または、安全な通信プロトコルである Hypertext Transfer Protocol Secure (HTTPS) を使用する社内ウェブサイトのみです。ウェブサイトをクロールするときにエラーが発生した場合は、ウェブサイトのクロールがブロックされている可能性があります。内部ウェブサイトをクロールするには、ウェブプロキシを設定できます。ウェブプロキシは公開されている必要があります。認証を使用してウェブサイトにアクセスし、クロールすることもできます。

インデックス作成するウェブサイトを選択するときは、Amazon 利用規定ポリシーおよびその他の Amazon 規約のすべてに準拠している必要があります。Web Crawler Amazon Kendra は、独自のウェブページ、またはインデックス作成の権限を持つウェブページのインデックス作成にのみ使用する必要があることに注意してください。 Amazon Kendra Web Crawler によるウェブサイトのインデックス作成を停止する方法については、「」を参照してくださいAmazon Kendra Web Crawler 用の robots.txt ファイルの設定

注記

Web Amazon Kendra Crawler を使用して、所有していないウェブサイトやウェブページを積極的にクロールすることは、許容できる使用とは見なされません

Amazon Kendra には 2 つのバージョンのweb crawlerコネクタがあります。各バージョンでサポートされる機能は次のとおりです。

Amazon Kendra ウェブクローラーコネクタ v1.0/WebCrawlerConfigurationAPI

  • ウェブプロキシ

  • 包含/除外フィルター

Amazon Kendra ウェブクローラーコネクタ v2.0/TemplateConfigurationAPI

  • フィールドマッピング

  • 包含/除外フィルター

  • 完全および増分コンテンツ同期

  • ウェブプロキシ

  • ウェブサイトの基本認証、NTLM/Kerberos 認証、SAML 認証、フォーム認証

  • 仮想プライベートクラウド (VPC)

重要

Web Crawler v2.0 コネクタの作成は、 ではサポートされていません AWS CloudFormation。 AWS CloudFormation サポートが必要な場合は、Web Crawler v1.0 コネクタを使用します。

Amazon Kendra ウェブクローラーデータソースコネクタのトラブルシューティングについては、「」を参照してくださいデータソースのトラブルシューティング