Unterstützte Features Voraussetzungen Anweisungen zur Verbindung

Amazon Kendra Web Crawler-Konnektor v2.0

Sie können Amazon Kendra Web Crawler verwenden, um Webseiten zu crawlen und zu indizieren.

Sie können nur öffentlich zugängliche Websites oder interne Unternehmenswebsites crawlen, die das sichere Kommunikationsprotokoll Hypertext Transfer Protocol Secure (HTTPS) verwenden. Wenn Sie beim Crawling einer Website einen Fehler erhalten, kann es sein, dass die Website für das Crawling gesperrt ist. Um interne Websites zu crawlen, können Sie einen Webproxy einrichten. Der Web-Proxy muss öffentlich zugänglich sein. Sie können die Authentifizierung auch verwenden, um auf Websites zuzugreifen und diese zu crawlen.

Amazon Kendra Web Crawler v2.0 verwendet das Selenium-Webcrawler-Paket und einen Chromium-Treiber. Amazon Kendra aktualisiert automatisch die Version von Selenium und den Chromium-Treiber mithilfe von Continuous Integration (CI).

Bei der Auswahl der zu indizierenden Websites müssen Sie die Amazon Acceptable Use Policy (Richtlinie zur zulässigen Nutzung) und alle anderen Amazon-Bedingungen einhalten. Denken Sie daran, dass Sie Amazon Kendra Web Crawler nur verwenden dürfen, um Ihre eigenen Webseiten oder Webseiten zu indizieren, für deren Indexierung Sie autorisiert sind. Informationen dazu, wie Sie verhindern können, dass Amazon Kendra Web Crawler Ihre Website (s) indexiert, finden Sie unter. Konfiguration der robots.txt Datei für Amazon Kendra Web Crawler . Der Missbrauch von Amazon Kendra Web Crawler zum aggressiven Crawlen von Websites oder Webseiten, die Ihnen nicht gehören, wird nicht als akzeptable Nutzung angesehen.

Informationen zur Problembehandlung Ihres Amazon Kendra Webcrawler-Datenquellen-Connectors finden Sie unter. Problembehandlung bei Datenquellen

Anmerkung

Web Crawler Connector v2.0 unterstützt das Crawlen von Website-Listen aus verschlüsselten Buckets nicht. AWS KMS Amazon S3 Er unterstützt nur serverseitige Verschlüsselung mit verwalteten Schlüsseln. Amazon S3

Wichtig

Die Erstellung von Web Crawler v2.0-Connectoren wird von nicht unterstützt. AWS CloudFormation Verwenden Sie den Web Crawler v1.0-Connector, wenn Sie Unterstützung benötigen. AWS CloudFormation

Unterstützte Features

Feldzuordnungen
Einschluss-/Ausschlussfilter
Vollständige und inkrementelle Inhaltssynchronisierung
Web-Proxy
Basic-, NTLM/Kerberos-, SAML- und Formularauthentifizierung für Ihre Websites
Virtual Private Cloud (VPC)

Voraussetzungen

Bevor Sie Ihre Websites Amazon Kendra indexieren können, sollten Sie die Details Ihrer Websites und Konten überprüfen. AWS

Stellen Sie für Ihre Websites sicher, dass Sie über Folgendes verfügen:

Sie haben den Startwert oder die Sitemap URLs der Websites kopiert, die Sie indexieren möchten. Sie können das URLs in einer Textdatei speichern und in einen Amazon S3 Bucket hochladen. Jede URL in der Textdatei muss in einer separaten Zeile formatiert werden. Wenn Sie Ihre Sitemaps in einem Amazon S3 Bucket speichern möchten, stellen Sie sicher, dass Sie das Sitemap-XML kopiert und in einer XML-Datei gespeichert haben. Sie können auch mehrere Sitemap-XML-Dateien in einer ZIP-Datei zusammenfassen.

Anmerkung
(On-Premise/Server) Amazon Kendra überprüft, ob die in AWS Secrets Manager der Datei enthaltenen Endpunktinformationen mit den Endpunktinformationen übereinstimmen, die in den Konfigurationsdetails Ihrer Datenquelle angegeben sind. Dies schützt vor dem Problem des verwirrten Stellvertreters, bei dem es sich um ein Sicherheitsproblem handelt, bei dem ein Benutzer nicht berechtigt ist, eine Aktion auszuführen, sondern Amazon Kendra als Proxy verwendet, um auf das konfigurierte Geheimnis zuzugreifen und die Aktion auszuführen. Wenn Sie Ihre Endpunktinformationen später ändern, müssen Sie ein neues Geheimnis erstellen, um diese Informationen zu synchronisieren.
Für Websites, die eine Basic-, NTLM- oder Kerberos-Authentifizierung erfordern:
- Notieren Sie sich Ihre Anmeldeinformationen für die Website-Authentifizierung, die einen Benutzernamen und ein Passwort enthalten.
  
  Anmerkung
  Amazon Kendra Web Crawler v2.0 unterstützt das NTLM-Authentifizierungsprotokoll, das Passwort-Hashing beinhaltet, und das Kerberos-Authentifizierungsprotokoll, das Passwortverschlüsselung beinhaltet.
Für Websites, die eine SAML- oder Anmeldeformularauthentifizierung erfordern:
- Notiert Ihre Anmeldeinformationen für die Website-Authentifizierung, die einen Benutzernamen und ein Passwort enthalten.
- Die XPaths (XML Path Language) des Benutzernamenfeldes (und der Benutzernamenschaltfläche bei Verwendung von SAML), das Passwortfeld und die Schaltfläche wurden kopiert und die URL der Anmeldeseite kopiert. Sie können die Elemente mithilfe XPaths der Entwicklertools Ihres Webbrowsers finden. XPaths folgen normalerweise diesem Format://tagname[@Attribute='Value'].
  
  Anmerkung
  Amazon Kendra Web Crawler v2.0 verwendet einen Headless-Chrome-Browser und die Informationen aus dem Formular, um den Zugriff mit einer 2.0-geschützten URL zu authentifizieren und zu autorisieren. OAuth
Optional: Der Hostname und die Portnummer des Web-Proxyservers wurden kopiert, wenn Sie einen Webproxy verwenden möchten, um eine Verbindung zu internen Websites herzustellen, die Sie crawlen möchten. Der Web-Proxy muss öffentlich zugänglich sein. Amazon Kendra unterstützt die Verbindung zu Web-Proxyservern, die über eine Standardauthentifizierung verfügen, oder Sie können eine Verbindung ohne Authentifizierung herstellen.
Optional: Die Subnetz-ID der Virtual Private Cloud (VPC) wurde kopiert, wenn Sie eine VPC verwenden möchten, um eine Verbindung zu internen Websites herzustellen, die Sie crawlen möchten. Weitere Informationen finden Sie unter Konfiguration eines. Amazon VPC
Es wurde überprüft, ob jedes Webseitendokument, das Sie indizieren möchten, einzigartig ist und dass es sich um ein und dasselbe Dokument aus anderen Datenquellen handelt, die Sie für denselben Index verwenden möchten. Jede Datenquelle, die Sie für einen Index verwenden möchten, darf nicht dasselbe Dokument in allen Datenquellen enthalten. Dokumente IDs gelten für einen Index global und müssen pro Index eindeutig sein.

Stellen Sie in Ihrem AWS Konto sicher, dass Sie über Folgendes verfügen:

Hat einen Amazon Kendra Index erstellt und bei Verwendung der API die Index-ID notiert.
Sie haben eine IAM Rolle für Ihre Datenquelle erstellt und, falls Sie die API verwenden, den Amazon-Ressourcennamen der IAM Rolle notiert.

Anmerkung
Wenn Sie Ihren Authentifizierungstyp und Ihre Anmeldeinformationen ändern, müssen Sie Ihre IAM Rolle aktualisieren, um auf die richtige AWS Secrets Manager geheime ID zugreifen zu können.
Für Websites, die eine Authentifizierung erfordern, oder wenn Sie einen Webproxy mit Authentifizierung verwenden, haben Sie Ihre Authentifizierungsdaten AWS Secrets Manager geheim gespeichert und, falls Sie die API verwenden, den ARN des Geheimnisses notiert.

Anmerkung
Wir empfehlen Ihnen, Ihre Anmeldeinformationen und Ihr Geheimnis regelmäßig zu aktualisieren oder zu wechseln. Stellen Sie zu Ihrer eigenen Sicherheit nur die Zugriffsebene bereit, die erforderlich ist. Wir raten davon ab, Anmeldeinformationen und geheime Daten für alle Datenquellen und Connector-Versionen 1.0 und 2.0 (sofern zutreffend) wiederzuverwenden.

Wenn Sie noch keine IAM Rolle oder keinen Schlüssel haben, können Sie die Konsole verwenden, um eine neue IAM Rolle und ein neues Secrets Manager Geheimnis zu erstellen, wenn Sie Ihre web crawler Datenquelle mit verbinden. Amazon Kendra Wenn Sie die API verwenden, müssen Sie den ARN einer vorhandenen IAM Rolle und eines Secrets Manager Geheimnisses sowie eine Index-ID angeben.

Anweisungen zur Verbindung

Um eine Verbindung Amazon Kendra zu Ihrer web crawler Datenquelle herzustellen, müssen Sie die erforderlichen Details zu Ihrer web crawler Datenquelle angeben, damit Sie auf Ihre Daten zugreifen Amazon Kendra können. Falls Sie das noch nicht konfiguriert haben, Amazon Kendra finden Sie web crawler weitere Informationen unterVoraussetzungen.

Console

Um eine Verbindung Amazon Kendra herzustellen web crawler

Melden Sie sich bei der an AWS Management Console und öffnen Sie die Amazon Kendra Konsole.
Wählen Sie im linken Navigationsbereich Indizes und dann den Index, den Sie verwenden möchten, aus der Indexliste aus.

Anmerkung
Sie können Ihre Einstellungen für die Benutzerzugriffskontrolle unter Indexeinstellungen konfigurieren oder bearbeiten.
Wählen Sie auf der Seite Erste Schritte die Option Datenquelle hinzufügen aus.
Wählen Sie auf der Seite Datenquelle hinzufügen die Option Webcrawler-Connector und dann Connector hinzufügen aus. Wenn Sie Version 2 verwenden (falls zutreffend), wählen Sie den Webcrawler-Connector mit dem Tag „V2.0".
Geben Sie auf der Seite „Datenquellendetails angeben“ die folgenden Informationen ein:
1. Geben Sie im Feld Name und Beschreibung für Datenquellenname einen Namen für Ihre Datenquelle ein. Sie können Bindestriche, aber keine Leerzeichen verwenden.
2. (Optional) Beschreibung — Geben Sie eine optionale Beschreibung für Ihre Datenquelle ein.
3. In Standardsprache — Wählen Sie eine Sprache aus, um Ihre Dokumente nach dem Index zu filtern. Sofern Sie nichts anderes angeben, ist die Standardsprache Englisch. Die in den Metadaten des Dokuments angegebene Sprache hat Vorrang vor der ausgewählten Sprache.
4. Unter Tags für Neues Tag hinzufügen — Fügen Sie optionale Tags hinzu, um Ihre Ressourcen zu durchsuchen und zu filtern oder Ihre Kosten nachzuverfolgen. AWS
5. Wählen Sie Weiter aus.
Geben Sie auf der Seite Zugriff und Sicherheit definieren die folgenden Informationen ein:
1. Quelle — Wählen Sie entweder Quelle URLs, Quell-Sitemaps, Quelldatei, URLsQuell-Sitemaps-Datei aus. Wenn Sie eine Textdatei verwenden möchten, die eine Liste mit bis zu 100 Seeds enthält, geben Sie den Pfad zu dem Amazon S3 Bucket an URLs, in dem Ihre Datei gespeichert ist. Wenn Sie sich für die Verwendung einer XML-Sitemap-Datei entscheiden, geben Sie den Pfad zu dem Amazon S3 Bucket an, in dem Ihre Datei gespeichert ist. Sie können auch mehrere Sitemap-XML-Dateien in einer ZIP-Datei zusammenfassen. Andernfalls können Sie manuell bis zu 10 Startpunkte oder Startpunkte URLs und bis zu drei Sitemaps eingeben URLs.
  
  Anmerkung
  Wenn du eine Sitemap crawlen möchtest, überprüfe, ob die Basis- oder Stamm-URL mit der auf deiner Sitemap-Seite URLs angegebenen URL übereinstimmt. Wenn Ihre Sitemap-URL beispielsweise lautet https://example.com/sitemap-page.html, sollte die auf dieser Sitemap-Seite URLs aufgeführte Seite auch die Basis-URL "https://example.com/" verwenden.
  
  Wenn für Ihre Websites eine Authentifizierung für den Zugriff auf die Websites erforderlich ist, können Sie zwischen Basic-, NTLM/Kerberos-, SAML- oder Formularauthentifizierung wählen. Wählen Sie andernfalls die Option „Keine Authentifizierung“.
  
  Anmerkung
  Wenn Sie Ihre Datenquelle später bearbeiten möchten, um Ihren Startwert URLs mit Authentifizierung in Sitemaps umzuwandeln, müssen Sie eine neue Datenquelle erstellen. Amazon Kendra konfiguriert die Datenquelle mithilfe der URLs Seed-Endpunktinformationen im Secrets Manager Secret für die Authentifizierung und kann daher die Datenquelle nicht neu konfigurieren, wenn zu Sitemaps gewechselt wird.
  1. AWS Secrets Manager geheim — Wenn Ihre Websites dieselbe Authentifizierung für den Zugriff auf die Websites benötigen, wählen Sie ein vorhandenes Geheimnis oder erstellen Sie ein neues Secrets Manager Geheimnis, um Ihre Website-Anmeldeinformationen zu speichern. Wenn Sie sich dafür entscheiden, ein neues Geheimnis zu erstellen, wird ein AWS Secrets Manager geheimes Fenster geöffnet.
    
    Wenn Sie sich für Basic - oder NTML/Kerberos-Authentifizierung entschieden haben, geben Sie einen Namen für das Geheimnis sowie den Benutzernamen und das Passwort ein. Das NTLM-Authentifizierungsprotokoll umfasst Kennwort-Hashing, und das Kerberos-Authentifizierungsprotokoll beinhaltet Kennwortverschlüsselung.
    
    Wenn Sie sich für SAML oder Formularauthentifizierung entschieden haben, geben Sie einen Namen für das Geheimnis sowie den Benutzernamen und das Passwort ein. Verwenden Sie XPath ihn für das Benutzernamenfeld (und XPath für die Benutzernamenschaltfläche, wenn Sie SAML verwenden). Wird XPaths für das Passwortfeld und die Schaltfläche sowie für die URL der Anmeldeseite verwendet. Sie können die XPaths (XML Path Language) von Elementen mithilfe der Entwicklertools Ihres Webbrowsers finden. XPaths folgen normalerweise diesem Format://tagname[@Attribute='Value'].
2. (Optional) Webproxy — Geben Sie den Hostnamen und die Portnummer des Proxyservers ein, den Sie für die Verbindung zu internen Websites verwenden möchten. Der Hostname von https://a.example.com/page1.htmlist beispielsweise "a.example.com" und die Portnummer ist 443, der Standardport für HTTPS. Wenn Web-Proxy-Anmeldeinformationen erforderlich sind, um eine Verbindung zu einem Website-Host herzustellen, können Sie einen erstellen AWS Secrets Manager , der die Anmeldeinformationen speichert.
3. Virtual Private Cloud (VPC) — Sie können wählen, ob Sie eine VPC verwenden möchten. In diesem Fall müssen Sie Subnetze und VPC-Sicherheitsgruppen hinzufügen.
4. IAM Rolle — Wählen Sie eine bestehende IAM Rolle oder erstellen Sie eine neue IAM Rolle, um auf Ihre Repository-Anmeldeinformationen und Indexinhalte zuzugreifen.
  
  Anmerkung
  IAM Rollen, die für Indizes verwendet werden, können nicht für Datenquellen verwendet werden. Wenn Sie sich nicht sicher sind, ob eine vorhandene Rolle für einen Index oder eine häufig gestellte Frage verwendet wird, wählen Sie Neue Rolle erstellen, um Fehler zu vermeiden.
5. Wählen Sie Weiter aus.
Geben Sie auf der Seite „Synchronisierungseinstellungen konfigurieren“ die folgenden Informationen ein:
1. Synchronisierungsbereich — Legen Sie Grenzwerte für das Crawlen von Webseiten fest, einschließlich ihrer Domains, Dateigrößen und Links, und filtern URLs Sie mithilfe von Regex-Mustern.
  1. (Optional) Domainbereich crawlen — Wählen Sie aus, ob nur Website-Domains, Domains mit Subdomänen oder auch andere Domains gecrawlt werden sollen, auf die die Webseiten verweisen. Standardmäßig werden Amazon Kendra nur die Domains der Websites gecrawlt, die Sie crawlen möchten.
  2. (Optional) Zusätzliche Konfiguration — Legen Sie die folgenden Einstellungen fest:
    - Crawl-Tiefe — Die 'Tiefe' oder die Anzahl der Stufen von der Ausgangsebene bis zur Durchforstung. Beispielsweise hat die Seed-URL-Seite Tiefe 1 und alle Hyperlinks auf dieser Seite, die ebenfalls gecrawlt werden, haben Tiefe 2.
    - Maximale Dateigröße — Die maximale Größe einer Webseite oder eines Anhangs, die gecrawlt werden soll, in MB.
    - Maximale Anzahl von Links pro Seite — Die maximale Anzahl der Links URLs auf einer einzelnen Webseite, die gecrawlt werden sollen.
    - Maximale Drosselung der Crawling-Geschwindigkeit — Die maximale Anzahl von URLs Crawlern pro Website-Host pro Minute.
    - Dateien — Wählen Sie diese Option, um Dateien zu crawlen, auf die die Webseiten verweisen.
    - Crawlen und indexieren URLs — Fügen Sie Muster für reguläre Ausdrücke hinzu, um das Crawlen bestimmter URLs Hyperlinks und die Indexierung aller Hyperlinks auf diesen URL-Webseiten ein- oder auszuschließen.
2. Synchronisierungsmodus — Wählen Sie aus, wie Sie Ihren Index aktualisieren möchten, wenn sich der Inhalt Ihrer Datenquelle ändert. Wenn Sie Ihre Datenquelle Amazon Kendra zum ersten Mal synchronisieren, werden alle Inhalte standardmäßig gecrawlt und indexiert. Sie müssen eine vollständige Synchronisierung Ihrer Daten durchführen, falls Ihre erste Synchronisierung fehlgeschlagen ist, auch wenn Sie die Option Vollsynchronisierung nicht als Synchronisierungsmodusoption wählen.
  - Vollständige Synchronisierung: Indizieren Sie den gesamten Inhalt neu und ersetzen die vorhandenen Inhalte jedes Mal, wenn Ihre Datenquelle mit Ihrem Index synchronisiert wird.
  - Neue, geänderte, gelöschte Synchronisierung: Indizieren Sie bei jeder Synchronisierung Ihrer Datenquelle mit Ihrem Index nur neue, geänderte und gelöschte Inhalte. Amazon Kendra kann den Mechanismus Ihrer Datenquelle verwenden, um Inhaltsänderungen nachzuverfolgen und Inhalte zu indexieren, die sich seit der letzten Synchronisierung geändert haben.
3. Zeitplan für die Synchronisierungsausführung — Wählen Sie unter Häufigkeit aus, wie oft Amazon Kendra die Synchronisierung mit Ihrer Datenquelle erfolgen soll.
4. Wählen Sie Weiter aus.
Geben Sie auf der Seite Feldzuordnungen festlegen die folgenden Informationen ein:
1. Wählen Sie aus den Amazon Kendra generierten Standardfeldern von Webseiten und Dateien aus, die Sie Ihrem Index zuordnen möchten.
2. Wählen Sie Weiter aus.
Überprüfen Sie auf der Seite Überprüfen und erstellen, ob die von Ihnen eingegebenen Informationen korrekt sind, und wählen Sie dann Datenquelle hinzufügen aus. Sie können Ihre Informationen auch auf dieser Seite bearbeiten. Ihre Datenquelle wird auf der Seite Datenquellen angezeigt, nachdem die Datenquelle erfolgreich hinzugefügt wurde.

API

Um eine Verbindung Amazon Kendra herzustellen web crawler

Sie müssen mithilfe der TemplateConfigurationAPI ein JSON des Datenquellenschemas angeben. Sie müssen die folgenden Informationen angeben:

Datenquelle — Geben Sie den Datenquellentyp wie WEBCRAWLERV2 bei der Verwendung des TemplateConfigurationJSON-Schemas an. Geben Sie außerdem die Datenquelle so anTEMPLATE, wie Sie die CreateDataSourceAPI aufrufen.
URLs— Geben Sie den Startpunkt oder den Startpunkt URLs der Websites oder die Sitemap URLs der Websites an, die Sie crawlen möchten. Sie können den Pfad zu einem Amazon S3 Bucket angeben, in dem Ihre Seed-Liste gespeichert ist. URLs Jede URL in der Textdatei für Seed URLs muss in einer separaten Zeile formatiert werden. Sie können auch den Pfad zu einem Amazon S3 Bucket angeben, in dem Ihre Sitemap-XML-Dateien gespeichert sind. Sie können mehrere Sitemap-Dateien zu einer ZIP-Datei zusammenfassen und die ZIP-Datei in Ihrem Amazon S3 Bucket speichern.

Anmerkung
Wenn du eine Sitemap crawlen möchtest, überprüfe, ob die Basis- oder Stamm-URL mit der URL auf deiner Sitemap-Seite übereinstimmt. URLs Wenn Ihre Sitemap-URL beispielsweise lautet https://example.com/sitemap-page.html, sollte die auf dieser Sitemap-Seite URLs aufgeführte Seite auch die Basis-URL "https://example.com/" verwenden.
Synchronisierungsmodus — Geben Sie an, wie Ihr Index aktualisiert Amazon Kendra werden soll, wenn sich der Inhalt Ihrer Datenquelle ändert. Wenn Sie Ihre Datenquelle Amazon Kendra zum ersten Mal synchronisieren, werden alle Inhalte standardmäßig gecrawlt und indexiert. Sie müssen eine vollständige Synchronisierung Ihrer Daten durchführen, falls Ihre erste Synchronisierung fehlgeschlagen ist, auch wenn Sie die Option Vollsynchronisierung nicht als Synchronisierungsmodusoption wählen. Sie können wählen zwischen:
- FORCED_FULL_CRAWLum den gesamten Inhalt neu zu indizieren und vorhandene Inhalte jedes Mal zu ersetzen, wenn Ihre Datenquelle mit Ihrem Index synchronisiert wird.
- FULL_CRAWLum bei jeder Synchronisierung Ihrer Datenquelle mit Ihrem Index nur neue, geänderte und gelöschte Inhalte zu indizieren. Amazon Kendra kann den Mechanismus Ihrer Datenquelle verwenden, um Inhaltsänderungen nachzuverfolgen und Inhalte zu indexieren, die sich seit der letzten Synchronisierung geändert haben.
Authentifizierung — Wenn Ihre Websites dieselbe Authentifizierung erfordern, geben Sie entwederBasicAuth, NTLM_KerberosSAML, oder Form Authentifizierung an. Wenn für Ihre Websites keine Authentifizierung erforderlich ist, geben Sie NoAuthentication dies an.
Geheimer Amazon-Ressourcenname (ARN) — Wenn für Ihre Websites eine Basic-, NTLM- oder Kerberos-Authentifizierung erforderlich ist, geben Sie ein Geheimnis an, in dem Ihre Authentifizierungsdaten mit Ihrem Benutzernamen und Passwort gespeichert werden. Sie geben den Amazon-Ressourcennamen (ARN) eines AWS Secrets Manager Geheimnisses an. Das Geheimnis wird in einer JSON-Struktur mit den folgenden Schlüsseln gespeichert:
```
{
    "seedUrlsHash": "Hash representation of all seed URLs",
    "userName": "user name",
    "password": "password"
}
```
Wenn für Ihre Websites eine SAML-Authentifizierung erforderlich ist, wird das Geheimnis in einer JSON-Struktur mit den folgenden Schlüsseln gespeichert:
```
{
    "seedUrlsHash": "Hash representation of all seed URLs",                                
    "userName": "user name",
    "password": "password",
    "userNameFieldXpath": "XPath for user name field",
    "userNameButtonXpath": "XPath for user name button",
    "passwordFieldXpath": "XPath for password field",
    "passwordButtonXpath": "XPath for password button",
    "loginPageUrl": "Full URL for website login page"
}
```
Wenn für Ihre Websites eine Formularauthentifizierung erforderlich ist, wird das Geheimnis in einer JSON-Struktur mit den folgenden Schlüsseln gespeichert:
```
{
    "seedUrlsHash": "Hash representation of all seed URLs",
    "userName": "user name",
    "password": "password",
    "userNameFieldXpath": "XPath for user name field",
    "passwordFieldXpath": "XPath for password field",
    "passwordButtonXpath": "XPath for password button",
    "loginPageUrl": "Full URL for website login page"
}
```
Sie können die XPaths (XML Path Language) von Elementen mithilfe der Entwicklertools Ihres Webbrowsers finden. XPaths folgen normalerweise diesem Format://tagname[@Attribute='Value'].

Sie können Webproxy-Anmeldeinformationen auch mithilfe von und AWS Secrets Manager secret angeben.
IAM Rolle — Geben Sie anRoleArn, wann Sie anrufenCreateDataSource, um einer IAM Rolle Berechtigungen für den Zugriff auf Ihr Secrets Manager Geheimnis zu gewähren und die erforderliche Öffentlichkeit APIs für den Webcrawler-Connector und aufzurufen. Amazon Kendra Weitere Informationen finden Sie unter IAM Rollen für Webcrawler-Datenquellen.

Sie können auch die folgenden optionalen Funktionen hinzufügen:

Virtual Private Cloud (VPC) — Geben Sie an, VpcConfiguration wann Sie anrufen. CreateDataSource Weitere Informationen finden Sie unter Konfiguration für Amazon Kendra die Verwendung eines Amazon VPC.
Domainbereich — Wählen Sie aus, ob nur Website-Domains mit Subdomänen oder auch andere Domains, auf die die Webseiten verweisen, gecrawlt werden sollen. Standardmäßig werden Amazon Kendra nur die Domains der Websites gecrawlt, die Sie crawlen möchten.
Die „Tiefe“ oder Anzahl der Ebenen von der Seed-Ebene bis zum Crawl. Beispielsweise hat die Seed-URL-Seite Tiefe 1 und alle Hyperlinks auf dieser Seite, die ebenfalls gecrawlt werden, haben Tiefe 2.
Die maximale Anzahl von Personen URLs auf einer einzelnen Webseite, die gecrawlt werden sollen.
Die maximale Größe einer Webseite oder Anlage, die gecrawlt werden soll, in MB.
Die maximale Anzahl von URLs Crawlern pro Website-Host pro Minute.
Der Web-Proxy-Host und die Portnummer für die Verbindung zu internen Websites und das Crawlen. Der Hostname von https://a.example.com/page1.htmlist beispielsweise "a.example.com" und die Portnummer ist 443, der Standardport für HTTPS. Wenn Web-Proxy-Anmeldeinformationen erforderlich sind, um eine Verbindung zu einem Website-Host herzustellen, können Sie einen erstellen AWS Secrets Manager , der die Anmeldeinformationen speichert.
Inklusions- und Ausschlussfilter — Geben Sie an, ob das Crawlen bestimmter Hyperlinks URLs und die Indexierung von Hyperlinks auf diesen URL-Webseiten ein- oder ausgeschlossen werden sollen.

Anmerkung
Die meisten Datenquellen verwenden Muster für reguläre Ausdrücke, bei denen es sich um Ein- oder Ausschlussmuster handelt, die als Filter bezeichnet werden. Wenn Sie einen Einschlussfilter angeben, werden nur Inhalte indexiert, die dem Einschlussfilter entsprechen. Jedes Dokument, das nicht dem Einschlussfilter entspricht, wird nicht indexiert. Wenn Sie einen Ein- und Ausschlussfilter angeben, werden Dokumente, die dem Ausschlussfilter entsprechen, nicht indexiert, auch wenn sie dem Einschlussfilter entsprechen.
Feldzuordnungen — Wählen Sie diese Option, um die Felder von Webseiten und Webseitendateien Ihren Indexfeldern zuzuordnen. Amazon Kendra Weitere Informationen finden Sie unter Zuweisen von Datenquellenfeldern.

Eine Liste weiterer wichtiger JSON-Schlüssel, die konfiguriert werden müssen, finden Sie unter Amazon Kendra Web Crawler-Vorlagenschema.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Amazon Kendra Web Crawler-Konnektor v1.0

Konfiguration der robots.txt Datei für Amazon Kendra Web Crawler