Konfigurieren Sie, wie Amazon Kendra Web Crawler auf Ihre Website zugreift Web Crawler daran hindern, Amazon Kendra Ihre Website zu crawlen

Konfiguration der `robots.txt` Datei für Amazon Kendra Web Crawler

Amazon Kendra ist ein intelligenter Suchdienst, mit dem AWS Kunden Dokumente ihrer Wahl indexieren und durchsuchen können. Um Dokumente im Internet zu indexieren, können Kunden den Amazon Kendra Web Crawler verwenden, der angibt, welche URL (s) indexiert werden sollen und welche Betriebsparameter angegeben werden sollen. Amazon Kendra Kunden müssen vor der Indexierung einer bestimmten Website eine Autorisierung einholen.

Amazon Kendra Web Crawler respektiert die Standardanweisungen von robots.txt wie Allow und. Disallow Sie können die robots.txt Datei Ihrer Website ändern, um zu steuern, wie Amazon Kendra Web Crawler Ihre Website crawlt.

Konfigurieren Sie, wie Amazon Kendra Web Crawler auf Ihre Website zugreift

Sie können mithilfe von AND-Anweisungen steuern, wie der Amazon Kendra Web Crawler Ihre Website indexiert. Allow Disallow Sie können auch steuern, welche Webseiten indexiert werden und welche Webseiten nicht gecrawlt werden.

Verwenden Sie die folgende Direktive, damit Amazon Kendra Web Crawler alle Webseiten mit Ausnahme unzulässiger Webseiten crawlen kann:


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Disallow: /credential-pages/ # disallow access to specific pages

Verwenden Sie die folgende Direktive, damit Amazon Kendra Web Crawler nur bestimmte Webseiten crawlen kann:


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Allow: /pages/ # allow access to specific pages

Verwenden Sie die folgende Anweisung, um Amazon Kendra Web Crawler das Crawlen aller Website-Inhalte zu ermöglichen und das Crawlen für andere Roboter zu verbieten:


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages

Web Crawler daran hindern, Amazon Kendra Ihre Website zu crawlen

Mithilfe der Direktive können Sie verhindern, dass Amazon Kendra Web Crawler Ihre Website indexiert. Disallow Sie können auch steuern, welche Webseiten gecrawlt werden und welche nicht.

Verwenden Sie die folgende Anweisung, um zu verhindern, dass Amazon Kendra Web Crawler die Website crawlt:


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Disallow: / # disallow access to any pages

Amazon Kendra Web Crawler unterstützt auch die Robots noindex und nofollow Direktiven in Metatags auf HTML-Seiten. Diese Direktiven verhindern, dass der Webcrawler eine Webseite indexiert, und er folgt keinen Links auf der Webseite mehr. Sie fügen die Metatags in den Abschnitt des Dokuments ein, um die Regeln der Robots-Regeln festzulegen.

Die folgende Webseite enthält beispielsweise die Direktiven Robots noindex undnofollow:



            <html>
            <head>
                <meta name="robots" content="noindex, nofollow"/>
                ...
            </head>
            <body>...</body>
            </html>

Wenn Sie Fragen oder Bedenken zu Amazon Kendra Web Crawler haben, können Sie sich an das AWS Support-Team wenden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Amazon Kendra Web Crawler-Konnektor v2.0

Amazon WorkDocs

Konfiguration der robots.txt Datei für Amazon Kendra Web Crawler

Konfigurieren Sie, wie Amazon Kendra Web Crawler auf Ihre Website zugreift

Web Crawler daran hindern, Amazon Kendra Ihre Website zu crawlen

Konfiguration der `robots.txt` Datei für Amazon Kendra Web Crawler