Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Amazon Kendra Web Crawler-Konnektor v1.0
Sie können Amazon Kendra Web Crawler verwenden, um Webseiten zu crawlen und zu indizieren.
Sie können nur öffentlich zugängliche Websites und Websites crawlen, die das sichere Kommunikationsprotokoll Hypertext Transfer Protocol Secure (HTTPS) verwenden. Wenn Sie beim Crawling einer Website einen Fehler erhalten, kann es sein, dass die Website für das Crawling gesperrt ist. Um interne Websites zu crawlen, können Sie einen Webproxy einrichten. Der Web-Proxy muss öffentlich zugänglich sein.
Bei der Auswahl der zu indizierenden Websites müssen Sie die Amazon Acceptable Use Policy (Richtlinie zur zulässigen Nutzung) und alle anderen Amazon-Bedingungen einhalten. Denken Sie daran, dass Sie Amazon Kendra Web Crawler nur verwenden dürfen, um Ihre eigenen Webseiten oder Webseiten zu indizieren, für deren Indexierung Sie autorisiert sind. Informationen dazu, wie Sie verhindern können, dass Amazon Kendra Web Crawler Ihre Website (s) indexiert, finden Sie unter. Konfiguration der robots.txt Datei für Amazon Kendra Web Crawler
Der Missbrauch von Amazon Kendra Web Crawler zum aggressiven Crawlen von Websites oder Webseiten, die Ihnen nicht gehören, wird nicht als akzeptable Nutzung angesehen.
Informationen zur Problembehandlung Ihres Amazon Kendra Webcrawler-Datenquellen-Connectors finden Sie unter. Problembehandlung bei Datenquellen
Unterstützte Features
Voraussetzungen
Bevor Sie Ihre Websites Amazon Kendra indexieren können, überprüfen Sie die Details Ihrer Websites und Konten. AWS
Stellen Sie für Ihre Websites sicher, dass Sie über Folgendes verfügen:
-
Die Seed- oder Sitemap-URLs der Websites, die Sie indexieren möchten, wurden kopiert.
-
Für Websites, die eine Standardauthentifizierung erfordern: Notiert den Benutzernamen und das Passwort und kopiert den Hostnamen der Website und die Portnummer.
-
Optional: Der Hostname der Website und die Portnummer wurden kopiert, wenn Sie einen Webproxy verwenden möchten, um eine Verbindung zu internen Websites herzustellen, die Sie crawlen möchten. Der Web-Proxy muss öffentlich zugänglich sein. Amazon Kendra unterstützt die Verbindung zu Web-Proxyservern, die über eine Standardauthentifizierung verfügen, oder Sie können eine Verbindung ohne Authentifizierung herstellen.
-
Vergewissert, dass jedes Webseitendokument, das Sie indexieren möchten, einzigartig ist und auch für andere Datenquellen gilt, die Sie für denselben Index verwenden möchten. Jede Datenquelle, die Sie für einen Index verwenden möchten, darf nicht dasselbe Dokument in allen Datenquellen enthalten. Dokument-IDs gelten für einen Index global und müssen pro Index eindeutig sein.
Stellen Sie in Ihrem AWS Konto sicher, dass Sie über Folgendes verfügen:
-
Hat einen Amazon Kendra Index erstellt und bei Verwendung der API die Index-ID notiert.
-
Sie haben eine IAM Rolle für Ihre Datenquelle erstellt und, falls Sie die API verwenden, den ARN der IAM Rolle notiert.
Wenn Sie Ihren Authentifizierungstyp und Ihre Anmeldeinformationen ändern, müssen Sie Ihre IAM Rolle aktualisieren, um auf die richtige AWS Secrets Manager geheime ID zugreifen zu können.
-
Für Websites, die eine Authentifizierung erfordern, oder wenn Sie einen Webproxy mit Authentifizierung verwenden, haben Sie Ihre Authentifizierungsdaten AWS Secrets Manager geheim gespeichert und, falls Sie die API verwenden, den ARN des Geheimnisses notiert.
Wir empfehlen Ihnen, Ihre Anmeldeinformationen und Ihr Geheimnis regelmäßig zu aktualisieren oder zu wechseln. Stellen Sie zu Ihrer eigenen Sicherheit nur die Zugriffsebene bereit, die erforderlich ist. Wir raten davon ab, Anmeldeinformationen und geheime Daten für alle Datenquellen und Connector-Versionen 1.0 und 2.0 (sofern zutreffend) wiederzuverwenden.
Wenn Sie noch keine IAM Rolle oder keinen Schlüssel haben, können Sie die Konsole verwenden, um eine neue IAM Rolle und ein neues Secrets Manager Geheimnis zu erstellen, wenn Sie Ihre web crawler Datenquelle mit verbinden. Amazon Kendra Wenn Sie die API verwenden, müssen Sie den ARN einer vorhandenen IAM Rolle und eines Secrets Manager Geheimnisses sowie eine Index-ID angeben.
Anweisungen zur Verbindung
Amazon Kendra Um eine Verbindung mit Ihrer web crawler Datenquelle herzustellen, müssen Sie die erforderlichen Details zu Ihrer web crawler Datenquelle angeben, damit Sie auf Ihre Daten zugreifen Amazon Kendra können. Falls Sie das noch nicht konfiguriert haben, Amazon Kendra finden Sie web crawler weitere Informationen unterVoraussetzungen.
- Console
-
Um eine Verbindung Amazon Kendra herzustellen web crawler
-
Melden Sie sich bei der an AWS Management Console und öffnen Sie die Amazon Kendra Konsole.
-
Wählen Sie im linken Navigationsbereich Indizes und dann den Index, den Sie verwenden möchten, aus der Indexliste aus.
Sie können Ihre Einstellungen für die Benutzerzugriffskontrolle unter Indexeinstellungen konfigurieren oder bearbeiten.
-
Wählen Sie auf der Seite Erste Schritte die Option Datenquelle hinzufügen aus.
-
Wählen Sie auf der Seite Datenquelle hinzufügen die Option Webcrawler-Connector und dann Connector hinzufügen aus. Wenn Sie Version 2 verwenden (falls zutreffend), wählen Sie den Webcrawler-Connector mit dem Tag „V2.0".
-
Geben Sie auf der Seite „Datenquellendetails angeben“ die folgenden Informationen ein:
-
Geben Sie im Feld Name und Beschreibung für Datenquellenname einen Namen für Ihre Datenquelle ein. Sie können Bindestriche, aber keine Leerzeichen verwenden.
-
(Optional) Beschreibung — Geben Sie eine optionale Beschreibung für Ihre Datenquelle ein.
-
In Standardsprache — Wählen Sie eine Sprache aus, um Ihre Dokumente nach dem Index zu filtern. Sofern Sie nichts anderes angeben, ist die Standardsprache Englisch. Die in den Metadaten des Dokuments angegebene Sprache hat Vorrang vor der ausgewählten Sprache.
-
Unter Tags für Neues Tag hinzufügen — Fügen Sie optionale Tags hinzu, um Ihre Ressourcen zu durchsuchen und zu filtern oder Ihre Kosten nachzuverfolgen. AWS
-
Wählen Sie Weiter aus.
-
Geben Sie auf der Seite Zugriff und Sicherheit definieren die folgenden Informationen ein:
-
Wählen Sie für Quelle je nach Anwendungsfall zwischen Quell-URLs und Quell-Sitemaps und geben Sie die Werte für jede URL ein.
Sie können bis zu 10 Quell-URLs und drei Sitemaps hinzufügen.
Wenn du eine Sitemap crawlen möchtest, überprüfe, ob die Basis- oder Stamm-URL mit den URLs auf deiner Sitemap-Seite übereinstimmt. Wenn Ihre Sitemap-URL beispielsweise lautet https://example.com/sitemap-page.html, sollten die auf dieser Sitemap-Seite aufgeführten URLs auch die Basis-URL "https://example.com/" verwenden.
-
(Optional) Geben Sie für Web-Proxy die folgenden Informationen ein:
-
Hostname — Der Hostname, für den ein Webproxy erforderlich ist.
-
Portnummer — Der vom Host-URL-Transportprotokoll verwendete Port. Die Portnummer sollte ein numerischer Wert zwischen 0 und 65535 sein.
-
Für Web-Proxy-Anmeldeinformationen — Wenn Ihre Web-Proxyverbindung eine Authentifizierung erfordert, wählen Sie ein vorhandenes Geheimnis oder erstellen Sie ein neues Geheimnis, um Ihre Authentifizierungsdaten zu speichern. Wenn Sie ein neues Geheimnis erstellen möchten, wird ein AWS Secrets Manager
geheimes Fenster geöffnet.
-
Geben Sie die folgenden Informationen in das Fenster Create an AWS Secrets Manager
Secrets Manager Secret ein:
-
Geheimer Name — Ein Name für Ihr Geheimnis. Das Präfix AmazonKendra-WebCrawler- '' wird automatisch zu Ihrem geheimen Namen hinzugefügt.
-
Für Benutzername und Passwort — Geben Sie diese grundlegenden Authentifizierungsdaten für Ihre Websites ein.
-
Wählen Sie Speichern.
-
(Optional) Hosts mit Authentifizierung — Wählen Sie diese Option, um weitere Hosts mit Authentifizierung hinzuzufügen.
-
IAM Rolle — Wählen Sie eine bestehende IAM Rolle oder erstellen Sie eine neue IAM Rolle, um auf Ihre Repository-Anmeldeinformationen und Indexinhalte zuzugreifen.
IAM Rollen, die für Indizes verwendet werden, können nicht für Datenquellen verwendet werden. Wenn Sie sich nicht sicher sind, ob eine vorhandene Rolle für einen Index oder eine häufig gestellte Frage verwendet wird, wählen Sie Neue Rolle erstellen, um Fehler zu vermeiden.
-
Wählen Sie Weiter aus.
-
Geben Sie auf der Seite „Synchronisierungseinstellungen konfigurieren“ die folgenden Informationen ein:
-
Crawlbereich — Wählen Sie die Art der Webseiten aus, die Sie crawlen möchten.
-
Crawl-Tiefe — Wählen Sie aus der Seed-URL die Anzahl der Ebenen aus, die gecrawlt werden sollen. Amazon Kendra
-
In den erweiterten Crawling-Einstellungen und der Option Zusätzliche Konfiguration werden die folgenden Informationen eingegeben:
-
Maximale Dateigröße — Die maximale Webseite- oder Anhangsgröße für das Crawlen. Mindestens 0,000001 MB (1 Byte). Maximal 50 MB.
-
Maximale Anzahl an Links pro Seite — Die maximale Anzahl von Links, die pro Seite gecrawlt wurden. Links werden in der Reihenfolge ihres Auftretens gecrawlt. Mindestens 1 Link/Seite. Maximal 1000 Links/Seite.
-
Maximale Drosselung — Die maximale Anzahl von URLs, die pro Hostname pro Minute gecrawlt werden. Mindestens 1 URLs/Hostname/Minute. Maximal 300 URLs/Hostname/Minute.
-
Regex-Muster — Fügen Sie Muster für reguläre Ausdrücke hinzu, um bestimmte URLs ein- oder auszuschließen. Sie können bis zu 100 Muster hinzufügen.
-
Wählen Sie im Zeitplan für die Synchronisierungsausführung für Frequenz aus, wie oft mit Ihrer Datenquelle synchronisiert Amazon Kendra werden soll.
-
Wählen Sie Weiter aus.
-
Überprüfen Sie auf der Seite Überprüfen und erstellen, ob die von Ihnen eingegebenen Informationen korrekt sind, und wählen Sie dann Datenquelle hinzufügen aus. Sie können Ihre Informationen auch auf dieser Seite bearbeiten. Ihre Datenquelle wird auf der Seite Datenquellen angezeigt, nachdem die Datenquelle erfolgreich hinzugefügt wurde.
- API
-
Um eine Verbindung Amazon Kendra herzustellen web crawler
Mithilfe der WebCrawlerConfigurationAPI müssen Sie Folgendes angeben:
-
URLs — Geben Sie die Seed- oder Startpunkt-URLs der Websites oder die Sitemap-URLs der Websites an, mit SeedUrlConfigurationdenen Sie crawlen möchten, und. SiteMapsConfiguration
Wenn Sie eine Sitemap crawlen möchten, überprüfen Sie, ob die Basis- oder Stamm-URL mit den auf Ihrer Sitemap-Seite aufgeführten URLs übereinstimmt. Wenn Ihre Sitemap-URL beispielsweise lautet https://example.com/sitemap-page.html, sollten die auf dieser Sitemap-Seite aufgeführten URLs auch die Basis-URL "https://example.com/" verwenden.
-
Geheimer Amazon-Ressourcenname (ARN) — Wenn für eine Website eine Standardauthentifizierung erforderlich ist, geben Sie den Hostnamen, die Portnummer und ein Geheimnis an, in dem Ihre grundlegenden Authentifizierungsdaten mit Ihrem Benutzernamen und Passwort gespeichert werden. Sie geben den geheimen ARN mithilfe der AuthenticationConfigurationAPI an. Das Geheimnis wird in einer JSON-Struktur mit den folgenden Schlüsseln gespeichert:
{
"username": "user name"
,
"password": "password"
}
Sie können Webproxy-Anmeldeinformationen auch mithilfe eines AWS Secrets Manager Geheimnisses angeben. Sie verwenden die ProxyConfigurationAPI, um den Hostnamen und die Portnummer der Website sowie optional das Geheimnis anzugeben, in dem Ihre Web-Proxy-Anmeldeinformationen gespeichert werden.
-
IAM Rolle — Geben Sie anRoleArn
, wann Sie anrufenCreateDataSource
, um einer IAM Rolle Berechtigungen für den Zugriff auf Ihr Secrets Manager Geheimnis und für den Aufruf der erforderlichen öffentlichen APIs für den Webcrawler-Connector und zuzuweisen. Amazon Kendra Weitere Informationen finden Sie unter IAM Rollen für Webcrawler-Datenquellen.
Sie können auch die folgenden optionalen Funktionen hinzufügen:
-
Crawlmodus — Wählen Sie aus, ob nur Hostnamen von Websites oder Hostnamen mit Subdomänen oder auch andere Domains gecrawlt werden sollen, auf die die Webseiten verweisen.
-
Die „Tiefe“ oder die Anzahl der Ebenen von der Seed-Ebene bis zum Crawl. Beispielsweise hat die Seed-URL-Seite Tiefe 1 und alle Hyperlinks auf dieser Seite, die ebenfalls gecrawlt werden, haben Tiefe 2.
-
Die maximale Anzahl von URLs auf einer einzelnen Webseite, die gecrawlt werden sollen.
-
Die maximale Größe einer Webseite, die gecrawlt werden soll, in MB.
-
Die maximale Anzahl an URLs, die pro Website-Host pro Minute gecrawlt werden.
-
Der Webproxyhost und die Portnummer für die Verbindung zu internen Websites und das Crawlen dieser Websites. Der Hostname von https://a.example.com/page1.htmlist beispielsweise "a.example.com" und die Portnummer ist 443, der Standardport für HTTPS. Wenn Web-Proxy-Anmeldeinformationen erforderlich sind, um eine Verbindung zu einem Website-Host herzustellen, können Sie einen erstellen AWS Secrets Manager , der die Anmeldeinformationen speichert.
-
Die Authentifizierungsinformationen für den Zugriff auf und das Crawlen von Websites, für die eine Benutzerauthentifizierung erforderlich ist.
-
Mit dem Tool Custom Document Enrichment können Sie HTML-Metatags als Felder extrahieren. Weitere Informationen finden Sie unter Anpassen der Metadaten von Dokumenten während des Erfassungsprozesses. Ein Beispiel für das Extrahieren von HTML-Metatags finden Sie unter CDE-Beispiele.
-
Inklusions- und Ausschlussfilter — Geben Sie an, ob bestimmte URLs ein- oder ausgeschlossen werden sollen.
Die meisten Datenquellen verwenden Muster für reguläre Ausdrücke, bei denen es sich um Ein- oder Ausschlussmuster handelt, die als Filter bezeichnet werden. Wenn Sie einen Einschlussfilter angeben, werden nur Inhalte indexiert, die dem Einschlussfilter entsprechen. Jedes Dokument, das nicht dem Einschlussfilter entspricht, wird nicht indexiert. Wenn Sie einen Ein- und Ausschlussfilter angeben, werden Dokumente, die dem Ausschlussfilter entsprechen, nicht indexiert, auch wenn sie dem Einschlussfilter entsprechen.
Weitere Informationen
Weitere Informationen zur Integration Amazon Kendra mit Ihrer web crawler Datenquelle finden Sie unter: