Amazon Kendra Web Crawler-Konnektor v2.0 - Amazon Kendra

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon Kendra Web Crawler-Konnektor v2.0

Sie können Amazon Kendra Web Crawler verwenden, um Webseiten zu crawlen und zu indizieren.

Sie können nur öffentlich zugängliche Websites oder interne Unternehmenswebsites crawlen, die das sichere Kommunikationsprotokoll Hypertext Transfer Protocol Secure (HTTPS) verwenden. Wenn Sie beim Crawling einer Website einen Fehler erhalten, kann es sein, dass die Website für das Crawling gesperrt ist. Um interne Websites zu crawlen, können Sie einen Webproxy einrichten. Der Web-Proxy muss öffentlich zugänglich sein. Sie können die Authentifizierung auch verwenden, um auf Websites zuzugreifen und diese zu crawlen.

Amazon Kendra Web Crawler v2.0 verwendet das Selenium-Webcrawler-Paket und einen Chromium-Treiber. Amazon Kendra aktualisiert automatisch die Version von Selenium und den Chromium-Treiber mithilfe von Continuous Integration (CI).

Bei der Auswahl der zu indizierenden Websites müssen Sie die Amazon Acceptable Use Policy (Richtlinie zur zulässigen Nutzung) und alle anderen Amazon-Bedingungen einhalten. Denken Sie daran, dass Sie Amazon Kendra Web Crawler nur verwenden dürfen, um Ihre eigenen Webseiten oder Webseiten zu indizieren, für deren Indexierung Sie autorisiert sind. Informationen dazu, wie Sie verhindern können, dass Amazon Kendra Web Crawler Ihre Website (s) indexiert, finden Sie unter. Konfiguration der robots.txt Datei für Amazon Kendra Web Crawler . Der Missbrauch von Amazon Kendra Web Crawler zum aggressiven Crawlen von Websites oder Webseiten, die Ihnen nicht gehören, wird nicht als akzeptable Nutzung angesehen.

Informationen zur Problembehandlung Ihres Amazon Kendra Webcrawler-Datenquellen-Connectors finden Sie unter. Problembehandlung bei Datenquellen

Anmerkung

Web Crawler Connector v2.0 unterstützt das Crawlen von Website-Listen aus verschlüsselten Buckets nicht. AWS KMS Amazon S3 Er unterstützt nur serverseitige Verschlüsselung mit verwalteten Schlüsseln. Amazon S3

Wichtig

Die Erstellung von Web Crawler v2.0-Connectoren wird von nicht unterstützt. AWS CloudFormation Verwenden Sie den Web Crawler v1.0-Connector, wenn Sie Unterstützung benötigen. AWS CloudFormation

Unterstützte Features

  • Feldzuordnungen

  • Einschluss-/Ausschlussfilter

  • Vollständige und inkrementelle Inhaltssynchronisierung

  • Web-Proxy

  • Basic-, NTLM/Kerberos-, SAML- und Formularauthentifizierung für Ihre Websites

  • Virtual Private Cloud (VPC)

Voraussetzungen

Bevor Sie Ihre Websites Amazon Kendra indexieren können, sollten Sie die Details Ihrer Websites und Konten überprüfen. AWS

Stellen Sie für Ihre Websites sicher, dass Sie über Folgendes verfügen:

  • Die Seed- oder Sitemap-URLs der Websites, die Sie indexieren möchten, wurden kopiert. Sie können die URLs in einer Textdatei speichern und diese in einen Amazon S3 Bucket hochladen. Jede URL in der Textdatei muss in einer separaten Zeile formatiert werden. Wenn Sie Ihre Sitemaps in einem Amazon S3 Bucket speichern möchten, stellen Sie sicher, dass Sie das Sitemap-XML kopiert und in einer XML-Datei gespeichert haben. Sie können auch mehrere Sitemap-XML-Dateien in einer ZIP-Datei zusammenfassen.

    Anmerkung

    (On-Premise/Server) Amazon Kendra überprüft, ob die in AWS Secrets Manager der Datei enthaltenen Endpunktinformationen mit den Endpunktinformationen übereinstimmen, die in den Konfigurationsdetails Ihrer Datenquelle angegeben sind. Dies trägt zum Schutz vor dem Problem des verwirrten Stellvertreters bei, bei dem es sich um ein Sicherheitsproblem handelt, bei dem ein Benutzer nicht berechtigt ist, eine Aktion auszuführen, sondern ihn Amazon Kendra als Proxy verwendet, um auf das konfigurierte Geheimnis zuzugreifen und die Aktion auszuführen. Wenn Sie Ihre Endpunktinformationen später ändern, müssen Sie ein neues Geheimnis erstellen, um diese Informationen zu synchronisieren.

  • Für Websites, die eine Basic-, NTLM- oder Kerberos-Authentifizierung erfordern:

    • Notieren Sie sich Ihre Anmeldeinformationen für die Website-Authentifizierung, die einen Benutzernamen und ein Passwort enthalten.

      Anmerkung

      Amazon Kendra Web Crawler v2.0 unterstützt das NTLM-Authentifizierungsprotokoll, das Passwort-Hashing beinhaltet, und das Kerberos-Authentifizierungsprotokoll, das Passwortverschlüsselung beinhaltet.

  • Für Websites, die eine SAML- oder Anmeldeformularauthentifizierung erfordern:

    • Notieren Sie sich Ihre Anmeldeinformationen für die Website-Authentifizierung, die einen Benutzernamen und ein Passwort enthalten.

    • Die XPaths (XML Path Language) des Benutzernamenfeldes (und der Benutzernamenschaltfläche bei Verwendung von SAML), des Passwortfeldes und der Schaltfläche wurden kopiert und die URL der Anmeldeseite kopiert. Sie können die XPaths von Elementen mithilfe der Entwicklertools Ihres Webbrowsers finden. XPaths folgen normalerweise diesem Format:. //tagname[@Attribute='Value']

      Anmerkung

      Amazon Kendra Web Crawler v2.0 verwendet einen Headless-Chrome-Browser und die Informationen aus dem Formular, um den Zugriff mit einer durch OAuth 2.0 geschützten URL zu authentifizieren und zu autorisieren.

  • Optional: Der Hostname und die Portnummer des Web-Proxyservers wurden kopiert, wenn Sie einen Webproxy verwenden möchten, um eine Verbindung zu internen Websites herzustellen, die Sie crawlen möchten. Der Web-Proxy muss öffentlich zugänglich sein. Amazon Kendra unterstützt die Verbindung zu Web-Proxyservern, die über eine Standardauthentifizierung verfügen, oder Sie können eine Verbindung ohne Authentifizierung herstellen.

  • Optional: Die Subnetz-ID der Virtual Private Cloud (VPC) wurde kopiert, wenn Sie eine VPC verwenden möchten, um eine Verbindung zu internen Websites herzustellen, die Sie crawlen möchten. Weitere Informationen finden Sie unter Konfiguration eines. Amazon VPC

  • Es wurde überprüft, ob jedes Webseitendokument, das Sie indizieren möchten, einzigartig ist und dass es sich um ein und dasselbe Dokument aus anderen Datenquellen handelt, die Sie für denselben Index verwenden möchten. Jede Datenquelle, die Sie für einen Index verwenden möchten, darf nicht dasselbe Dokument in allen Datenquellen enthalten. Dokument-IDs gelten für einen Index global und müssen pro Index eindeutig sein.

Stellen Sie in Ihrem AWS Konto sicher, dass Sie über Folgendes verfügen:

  • Hat einen Amazon Kendra Index erstellt und bei Verwendung der API die Index-ID notiert.

  • Sie haben eine IAM Rolle für Ihre Datenquelle erstellt und, falls Sie die API verwenden, den Amazon-Ressourcennamen der IAM Rolle notiert.

    Anmerkung

    Wenn Sie Ihren Authentifizierungstyp und Ihre Anmeldeinformationen ändern, müssen Sie Ihre IAM Rolle aktualisieren, um auf die richtige AWS Secrets Manager geheime ID zugreifen zu können.

  • Für Websites, die eine Authentifizierung erfordern, oder wenn Sie einen Webproxy mit Authentifizierung verwenden, haben Sie Ihre Authentifizierungsdaten AWS Secrets Manager geheim gespeichert und, falls Sie die API verwenden, den ARN des Geheimnisses notiert.

    Anmerkung

    Wir empfehlen Ihnen, Ihre Anmeldeinformationen und Ihr Geheimnis regelmäßig zu aktualisieren oder zu wechseln. Stellen Sie zu Ihrer eigenen Sicherheit nur die Zugriffsebene bereit, die erforderlich ist. Wir raten davon ab, Anmeldeinformationen und geheime Daten für alle Datenquellen und Connector-Versionen 1.0 und 2.0 (sofern zutreffend) wiederzuverwenden.

Wenn Sie noch keine IAM Rolle oder keinen Schlüssel haben, können Sie die Konsole verwenden, um eine neue IAM Rolle und ein neues Secrets Manager Geheimnis zu erstellen, wenn Sie Ihre web crawler Datenquelle mit verbinden. Amazon Kendra Wenn Sie die API verwenden, müssen Sie den ARN einer vorhandenen IAM Rolle und eines Secrets Manager Geheimnisses sowie eine Index-ID angeben.

Anweisungen zur Verbindung

Amazon Kendra Um eine Verbindung mit Ihrer web crawler Datenquelle herzustellen, müssen Sie die erforderlichen Details zu Ihrer web crawler Datenquelle angeben, damit Sie auf Ihre Daten zugreifen Amazon Kendra können. Falls Sie das noch nicht konfiguriert haben, Amazon Kendra finden Sie web crawler weitere Informationen unterVoraussetzungen.

Console

Um eine Verbindung Amazon Kendra herzustellen web crawler

  1. Melden Sie sich bei der an AWS Management Console und öffnen Sie die Amazon Kendra Konsole.

  2. Wählen Sie im linken Navigationsbereich Indizes und dann den Index, den Sie verwenden möchten, aus der Indexliste aus.

    Anmerkung

    Sie können Ihre Einstellungen für die Benutzerzugriffskontrolle unter Indexeinstellungen konfigurieren oder bearbeiten.

  3. Wählen Sie auf der Seite Erste Schritte die Option Datenquelle hinzufügen aus.

  4. Wählen Sie auf der Seite Datenquelle hinzufügen die Option Webcrawler-Connector und dann Connector hinzufügen aus. Wenn Sie Version 2 verwenden (falls zutreffend), wählen Sie den Webcrawler-Connector mit dem Tag „V2.0".

  5. Geben Sie auf der Seite „Datenquellendetails angeben“ die folgenden Informationen ein:

    1. Geben Sie im Feld Name und Beschreibung für Datenquellenname einen Namen für Ihre Datenquelle ein. Sie können Bindestriche, aber keine Leerzeichen verwenden.

    2. (Optional) Beschreibung — Geben Sie eine optionale Beschreibung für Ihre Datenquelle ein.

    3. In Standardsprache — Wählen Sie eine Sprache aus, um Ihre Dokumente nach dem Index zu filtern. Sofern Sie nichts anderes angeben, ist die Standardsprache Englisch. Die in den Metadaten des Dokuments angegebene Sprache hat Vorrang vor der ausgewählten Sprache.

    4. Unter Tags für Neues Tag hinzufügen — Fügen Sie optionale Tags hinzu, um Ihre Ressourcen zu durchsuchen und zu filtern oder Ihre Kosten nachzuverfolgen. AWS

    5. Wählen Sie Weiter aus.

  6. Geben Sie auf der Seite Zugriff und Sicherheit definieren die folgenden Informationen ein:

    1. Quelle — Wählen Sie entweder Quell-URLs, Quell-Sitemaps, Quell-URL-Datei, Quell-Sitemaps-Datei aus. Wenn Sie eine Textdatei verwenden möchten, die eine Liste mit bis zu 100 Seed-URLs enthält, geben Sie den Pfad zu dem Amazon S3 Bucket an, in dem Ihre Datei gespeichert ist. Wenn Sie sich für die Verwendung einer XML-Sitemap-Datei entscheiden, geben Sie den Pfad zu dem Amazon S3 Bucket an, in dem Ihre Datei gespeichert ist. Sie können auch mehrere Sitemap-XML-Dateien in einer ZIP-Datei zusammenfassen. Andernfalls können Sie manuell bis zu 10 Seed- oder Startpunkt-URLs und bis zu drei Sitemap-URLs eingeben.

      Anmerkung

      Wenn du eine Sitemap crawlen möchtest, überprüfe, ob die Basis- oder Stamm-URL mit den URLs übereinstimmt, die auf deiner Sitemap-Seite aufgeführt sind. Wenn Ihre Sitemap-URL beispielsweise lautet https://example.com/sitemap-page.html, sollten die auf dieser Sitemap-Seite aufgeführten URLs auch die Basis-URL "https://example.com/" verwenden.

      Wenn für Ihre Websites eine Authentifizierung für den Zugriff auf die Websites erforderlich ist, können Sie zwischen Basic-, NTLM/Kerberos-, SAML- oder Formularauthentifizierung wählen. Wählen Sie andernfalls die Option „Keine Authentifizierung“.

      Anmerkung

      Wenn Sie Ihre Datenquelle später bearbeiten möchten, um Ihre Seed-URLs mit Authentifizierung in Sitemaps zu ändern, müssen Sie eine neue Datenquelle erstellen. Amazon Kendra konfiguriert die Datenquelle mithilfe der Endpunktinformationen der Seed-URLs im Secrets Manager Secret für die Authentifizierung und kann daher die Datenquelle nicht neu konfigurieren, wenn zu Sitemaps gewechselt wird.

      1. AWS Secrets Manager geheim — Wenn Ihre Websites dieselbe Authentifizierung für den Zugriff auf die Websites benötigen, wählen Sie ein vorhandenes Geheimnis oder erstellen Sie ein neues Secrets Manager Geheimnis, um Ihre Website-Anmeldeinformationen zu speichern. Wenn Sie ein neues Geheimnis erstellen möchten, wird ein AWS Secrets Manager geheimes Fenster geöffnet.

        Wenn Sie sich für Basic - oder NTML/Kerberos-Authentifizierung entschieden haben, geben Sie einen Namen für das Geheimnis sowie den Benutzernamen und das Passwort ein. Das NTLM-Authentifizierungsprotokoll umfasst Kennwort-Hashing, und das Kerberos-Authentifizierungsprotokoll beinhaltet Kennwortverschlüsselung.

        Wenn Sie sich für SAML oder Formularauthentifizierung entschieden haben, geben Sie einen Namen für das Geheimnis sowie den Benutzernamen und das Passwort ein. Verwenden Sie XPath für das Benutzernamenfeld (und XPath für die Benutzernamenschaltfläche, wenn Sie SAML verwenden). Verwenden Sie XPaths für das Passwortfeld und die Schaltfläche sowie die URL der Anmeldeseite. Sie können die XPaths (XML Path Language) von Elementen mithilfe der Entwicklertools Ihres Webbrowsers finden. XPaths folgen normalerweise diesem Format:. //tagname[@Attribute='Value']

    2. (Optional) Web-Proxy — Geben Sie den Hostnamen und die Portnummer des Proxyservers ein, den Sie für die Verbindung zu internen Websites verwenden möchten. Der Hostname von https://a.example.com/page1.htmlist beispielsweise "a.example.com" und die Portnummer ist 443, der Standardport für HTTPS. Wenn Web-Proxy-Anmeldeinformationen erforderlich sind, um eine Verbindung zu einem Website-Host herzustellen, können Sie einen erstellen AWS Secrets Manager , der die Anmeldeinformationen speichert.

    3. Virtual Private Cloud (VPC) — Sie können wählen, ob Sie eine VPC verwenden möchten. In diesem Fall müssen Sie Subnetze und VPC-Sicherheitsgruppen hinzufügen.

    4. IAM Rolle — Wählen Sie eine bestehende IAM Rolle oder erstellen Sie eine neue IAM Rolle, um auf Ihre Repository-Anmeldeinformationen und Indexinhalte zuzugreifen.

      Anmerkung

      IAM Rollen, die für Indizes verwendet werden, können nicht für Datenquellen verwendet werden. Wenn Sie sich nicht sicher sind, ob eine vorhandene Rolle für einen Index oder eine häufig gestellte Frage verwendet wird, wählen Sie Neue Rolle erstellen, um Fehler zu vermeiden.

    5. Wählen Sie Weiter aus.

  7. Geben Sie auf der Seite „Synchronisierungseinstellungen konfigurieren“ die folgenden Informationen ein:

    1. Synchronisierungsbereich — Legen Sie Grenzwerte für das Crawlen von Webseiten fest, einschließlich ihrer Domains, Dateigrößen und Links, und filtern Sie URLs mithilfe von Regex-Mustern.

      1. (Optional) Domainbereich crawlen — Wählen Sie aus, ob nur Website-Domains, Domains mit Subdomänen oder auch andere Domains gecrawlt werden sollen, auf die die Webseiten verweisen. Standardmäßig werden Amazon Kendra nur die Domains der Websites gecrawlt, die Sie crawlen möchten.

      2. (Optional) Zusätzliche Konfiguration — Legen Sie die folgenden Einstellungen fest:

        • Crawl-Tiefe — Die 'Tiefe' oder die Anzahl der Stufen von der Ausgangsebene bis zur Durchforstung. Beispielsweise hat die Seed-URL-Seite Tiefe 1 und alle Hyperlinks auf dieser Seite, die ebenfalls gecrawlt werden, haben Tiefe 2.

        • Maximale Dateigröße — Die maximale Größe einer Webseite oder eines Anhangs, die gecrawlt werden soll, in MB.

        • Maximale Anzahl an Links pro Seite — Die maximale Anzahl von URLs auf einer einzelnen Webseite, die gecrawlt werden können.

        • Maximale Drosselung der Crawling-Geschwindigkeit — Die maximale Anzahl von URLs, die pro Website-Host pro Minute gecrawlt werden.

        • Dateien — Wählen Sie diese Option, um Dateien zu crawlen, auf die die Webseiten verweisen.

        • URLs crawlen und indexieren — Fügen Sie Muster für reguläre Ausdrücke hinzu, um das Crawlen bestimmter URLs und die Indexierung aller Hyperlinks auf diesen URL-Webseiten ein- oder auszuschließen.

    2. Synchronisierungsmodus — Wählen Sie aus, wie Sie Ihren Index aktualisieren möchten, wenn sich der Inhalt Ihrer Datenquelle ändert. Wenn Sie Ihre Datenquelle Amazon Kendra zum ersten Mal synchronisieren, werden alle Inhalte standardmäßig gecrawlt und indexiert. Sie müssen eine vollständige Synchronisierung Ihrer Daten durchführen, falls Ihre erste Synchronisierung fehlgeschlagen ist, auch wenn Sie die Option Vollsynchronisierung nicht als Synchronisierungsmodusoption wählen.

      • Vollständige Synchronisierung: Indizieren Sie den gesamten Inhalt neu und ersetzen die vorhandenen Inhalte jedes Mal, wenn Ihre Datenquelle mit Ihrem Index synchronisiert wird.

      • Neue, geänderte, gelöschte Synchronisierung: Indizieren Sie bei jeder Synchronisierung Ihrer Datenquelle mit Ihrem Index nur neue, geänderte und gelöschte Inhalte. Amazon Kendra kann den Mechanismus Ihrer Datenquelle verwenden, um Inhaltsänderungen nachzuverfolgen und Inhalte zu indexieren, die sich seit der letzten Synchronisierung geändert haben.

    3. Zeitplan für die Synchronisierungsausführung — Wählen Sie unter Häufigkeit aus, wie oft Amazon Kendra die Synchronisierung mit Ihrer Datenquelle erfolgen soll.

    4. Wählen Sie Weiter aus.

  8. Geben Sie auf der Seite Feldzuordnungen festlegen die folgenden Informationen ein:

    1. Wählen Sie aus den Amazon Kendra generierten Standardfeldern von Webseiten und Dateien aus, die Sie Ihrem Index zuordnen möchten.

    2. Wählen Sie Weiter aus.

  9. Überprüfen Sie auf der Seite Überprüfen und erstellen, ob die von Ihnen eingegebenen Informationen korrekt sind, und wählen Sie dann Datenquelle hinzufügen aus. Sie können Ihre Informationen auch auf dieser Seite bearbeiten. Ihre Datenquelle wird auf der Seite Datenquellen angezeigt, nachdem die Datenquelle erfolgreich hinzugefügt wurde.

API

Um eine Verbindung Amazon Kendra herzustellen web crawler

Sie müssen mithilfe der TemplateConfigurationAPI einen JSON-Wert des Datenquellenschemas angeben. Sie müssen die folgenden Informationen angeben:

  • Datenquelle — Geben Sie den Datenquellentyp wie WEBCRAWLERV2 bei der Verwendung des TemplateConfigurationJSON-Schemas an. Geben Sie außerdem die Datenquelle so anTEMPLATE, wie Sie die CreateDataSourceAPI aufrufen.

  • URLs — Geben Sie die Seed- oder Startpunkt-URLs der Websites oder die Sitemap-URLs der Websites an, die Sie crawlen möchten. Sie können den Pfad zu einem Amazon S3 Bucket angeben, in dem Ihre Liste von Seed-URLs gespeichert ist. Jede URL in der Textdatei für Seed-URLs muss in einer separaten Zeile formatiert werden. Sie können auch den Pfad zu einem Amazon S3 Bucket angeben, in dem Ihre Sitemap-XML-Dateien gespeichert sind. Sie können mehrere Sitemap-Dateien zu einer ZIP-Datei zusammenfassen und die ZIP-Datei in Ihrem Amazon S3 Bucket speichern.

    Anmerkung

    Wenn du eine Sitemap crawlen möchtest, überprüfe, ob die Basis- oder Stamm-URL mit den URLs auf deiner Sitemap-Seite übereinstimmt. Wenn Ihre Sitemap-URL beispielsweise lautet https://example.com/sitemap-page.html, sollten die auf dieser Sitemap-Seite aufgeführten URLs auch die Basis-URL "https://example.com/" verwenden.

  • Synchronisierungsmodus — Geben Sie an, wie Ihr Index aktualisiert Amazon Kendra werden soll, wenn sich der Inhalt Ihrer Datenquelle ändert. Wenn Sie Ihre Datenquelle Amazon Kendra zum ersten Mal synchronisieren, werden alle Inhalte standardmäßig gecrawlt und indexiert. Sie müssen eine vollständige Synchronisierung Ihrer Daten durchführen, falls Ihre erste Synchronisierung fehlgeschlagen ist, auch wenn Sie die Option Vollsynchronisierung nicht als Synchronisierungsmodusoption wählen. Sie können wählen zwischen:

    • FORCED_FULL_CRAWLum den gesamten Inhalt neu zu indizieren und vorhandene Inhalte jedes Mal zu ersetzen, wenn Ihre Datenquelle mit Ihrem Index synchronisiert wird.

    • FULL_CRAWLum bei jeder Synchronisierung Ihrer Datenquelle mit Ihrem Index nur neue, geänderte und gelöschte Inhalte zu indizieren. Amazon Kendra kann den Mechanismus Ihrer Datenquelle verwenden, um Inhaltsänderungen nachzuverfolgen und Inhalte zu indexieren, die sich seit der letzten Synchronisierung geändert haben.

  • Authentifizierung — Wenn Ihre Websites dieselbe Authentifizierung erfordern, geben Sie entwederBasicAuth, NTLM_KerberosSAML, oder Form Authentifizierung an. Wenn für Ihre Websites keine Authentifizierung erforderlich ist, geben Sie NoAuthentication dies an.

  • Geheimer Amazon-Ressourcenname (ARN) — Wenn Ihre Websites eine Basic-, NTLM- oder Kerberos-Authentifizierung erfordern, geben Sie ein Geheimnis an, in dem Ihre Authentifizierungsdaten mit Ihrem Benutzernamen und Passwort gespeichert werden. Sie geben den Amazon-Ressourcennamen (ARN) eines AWS Secrets Manager Geheimnisses an. Das Geheimnis wird in einer JSON-Struktur mit den folgenden Schlüsseln gespeichert:

    { "seedUrlsHash": "Hash representation of all seed URLs", "userName": "user name", "password": "password" }

    Wenn für Ihre Websites eine SAML-Authentifizierung erforderlich ist, wird das Geheimnis in einer JSON-Struktur mit den folgenden Schlüsseln gespeichert:

    { "seedUrlsHash": "Hash representation of all seed URLs", "userName": "user name", "password": "password", "userNameFieldXpath": "XPath for user name field", "userNameButtonXpath": "XPath for user name button", "passwordFieldXpath": "XPath for password field", "passwordButtonXpath": "XPath for password button", "loginPageUrl": "Full URL for website login page" }

    Wenn für Ihre Websites eine Formularauthentifizierung erforderlich ist, wird das Geheimnis in einer JSON-Struktur mit den folgenden Schlüsseln gespeichert:

    { "seedUrlsHash": "Hash representation of all seed URLs", "userName": "user name", "password": "password", "userNameFieldXpath": "XPath for user name field", "passwordFieldXpath": "XPath for password field", "passwordButtonXpath": "XPath for password button", "loginPageUrl": "Full URL for website login page" }

    Sie können die XPaths (XML Path Language) von Elementen mithilfe der Entwicklertools Ihres Webbrowsers finden. XPaths folgen normalerweise diesem Format:. //tagname[@Attribute='Value']

    Sie können Web-Proxy-Anmeldeinformationen auch mithilfe von und AWS Secrets Manager secret angeben.

  • IAM Rolle — Geben Sie anRoleArn, wann Sie anrufenCreateDataSource, um einer IAM Rolle Berechtigungen für den Zugriff auf Ihr Secrets Manager Geheimnis und den Aufruf der erforderlichen öffentlichen APIs für den Webcrawler-Connector und zuzuweisen. Amazon Kendra Weitere Informationen finden Sie unter IAM Rollen für Webcrawler-Datenquellen.

Sie können auch die folgenden optionalen Funktionen hinzufügen:

  • Virtual Private Cloud (VPC) — Geben Sie an, VpcConfiguration wann Sie anrufen. CreateDataSource Weitere Informationen finden Sie unter Konfigurieren Amazon Kendra um eine zu verwenden Amazon VPC.

  • Domainbereich — Wählen Sie aus, ob nur Website-Domains mit Subdomänen oder auch andere Domains, auf die die Webseiten verweisen, gecrawlt werden sollen. Standardmäßig werden Amazon Kendra nur die Domains der Websites gecrawlt, die Sie crawlen möchten.

  • Die „Tiefe“ oder Anzahl der Ebenen von der Seed-Ebene bis zum Crawl. Beispielsweise hat die Seed-URL-Seite Tiefe 1 und alle Hyperlinks auf dieser Seite, die ebenfalls gecrawlt werden, haben Tiefe 2.

  • Die maximale Anzahl von URLs auf einer einzelnen Webseite, die gecrawlt werden sollen.

  • Die maximale Größe einer Webseite oder eines Anhangs, die gecrawlt werden soll, in MB.

  • Die maximale Anzahl an URLs, die pro Website-Host pro Minute gecrawlt werden.

  • Der Webproxyhost und die Portnummer für die Verbindung zu internen Websites und das Crawlen dieser Websites. Der Hostname von https://a.example.com/page1.htmlist beispielsweise "a.example.com" und die Portnummer ist 443, der Standardport für HTTPS. Wenn Web-Proxy-Anmeldeinformationen erforderlich sind, um eine Verbindung zu einem Website-Host herzustellen, können Sie einen erstellen AWS Secrets Manager , der die Anmeldeinformationen speichert.

  • Inklusions- und Ausschlussfilter — Geben Sie an, ob das Crawlen bestimmter URLs und die Indexierung von Hyperlinks auf diesen URL-Webseiten ein- oder ausgeschlossen werden sollen.

    Anmerkung

    Die meisten Datenquellen verwenden Muster für reguläre Ausdrücke. Dabei handelt es sich um Ein- oder Ausschlussmuster, die als Filter bezeichnet werden. Wenn Sie einen Einschlussfilter angeben, werden nur Inhalte indexiert, die dem Einschlussfilter entsprechen. Jedes Dokument, das nicht dem Einschlussfilter entspricht, wird nicht indexiert. Wenn Sie einen Ein- und Ausschlussfilter angeben, werden Dokumente, die dem Ausschlussfilter entsprechen, nicht indexiert, auch wenn sie dem Einschlussfilter entsprechen.

  • Feldzuordnungen — Wählen Sie diese Option, um die Felder von Webseiten und Webseitendateien Ihren Indexfeldern zuzuordnen. Amazon Kendra Weitere Informationen finden Sie unter Zuweisen von Datenquellenfeldern.

Eine Liste weiterer wichtiger JSON-Schlüssel, die konfiguriert werden müssen, finden Sie unter Amazon Kendra Web Crawler-Vorlagenschema.