Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Webcrawler-Integration
Mit der Web Crawler-Integration in Amazon Quick Suite können Sie Wissensdatenbanken aus Webseiteninhalten erstellen, indem Sie Webseiten crawlen und indexieren. Diese Integration unterstützt Datenaufnahmefunktionen mit unterschiedlichen Authentifizierungsoptionen, die auf Ihrer Benutzerstufe basieren.
Was Sie tun können
Web Crawler-Benutzer können Fragen zu Inhalten stellen, die auf Websites und Webseiten gespeichert sind. Benutzer können sich beispielsweise nach Dokumentationsseiten und Wissensdatenbanken erkundigen oder auf mehreren Webseiten nach bestimmten Informationen suchen. Die Integration ermöglicht es Benutzern, unabhängig von Ort oder Typ schnell auf Informationen aus Webinhalten zuzugreifen und diese zu verstehen. Gleichzeitig werden kontextbezogene Details wie Veröffentlichungsdaten, Änderungsverlauf und Seitenbesitz bereitgestellt. All dies trägt zu einer effizienteren Informationssuche und fundierteren Entscheidungsfindung bei.
Anmerkung
Die Web Crawler-Integration unterstützt nur die Datenaufnahme. Sie bietet keine Aktionsfunktionen für die Verwaltung von Websites oder Webdiensten.
Bevor Sie beginnen
Bevor Sie die Web Crawler-Integration einrichten, stellen Sie sicher, dass Sie über Folgendes verfügen:
-
Website URLs , die gecrawlt und indexiert werden soll.
-
Amazon Quick Suite Enterprise-Abonnement
-
Die Website, die Sie crawlen möchten, muss öffentlich sein und darf sich nicht hinter einer Firewall befinden oder spezielle Browser-Plugins erfordern, um eine Verbindung herzustellen.
Bereiten Sie den Zugriff auf die Website und die Authentifizierung vor
Bevor Sie die Integration in Amazon Quick Suite einrichten, bereiten Sie Ihre Zugangsdaten für die Website vor. Die Web Crawler-Integration unterstützt je nach Ihrer Benutzerrolle verschiedene Authentifizierungsmethoden:
- Keine Authentifizierung
-
Für alle Benutzer verfügbar. Wird zum Crawlen öffentlicher Websites verwendet, für die keine Authentifizierung erforderlich ist.
- Standardauthentifizierung
-
Standard-HTTP-Basisauthentifizierung für gesicherte Websites. Die HTTP-Basisauthentifizierung ist eine einfache Möglichkeit, Webressourcen zu schützen, indem ein Benutzername und ein Passwort erforderlich sind. Wenn Sie eine geschützte Site mit Standardauthentifizierung besuchen, zeigt Ihr Browser ein Popup-Dialogfeld an, in dem Sie nach Ihren Anmeldeinformationen gefragt werden.
Erforderliche Anmeldeinformationen:
-
URL der Anmeldeseite — Die URL der Anmeldeseite
Benutzername — Standardbenutzername für die Authentifizierung
Passwort — Grundlegendes Authentifizierungspasswort
-
- Formularauthentifizierung
-
Für Websites, die formularbasierte HTML-Anmeldeseiten verwenden.
Das Formular ist so eingerichtet, dass Sie es angeben können. XPath XPath (XML Path Language) ist eine Abfragesprache, die verwendet wird, um durch Elemente und Attribute in einem HTML- oder XML-Dokument zu navigieren. Um ein Element XPath für eine Webseite zu identifizieren, kann ein Benutzer die Entwicklertools seines Browsers verwenden, auf die er normalerweise zugreift, indem er mit der rechten Maustaste auf das gewünschte Element klickt und „Prüfen“ auswählt oder F12 drückt. Sobald das Element in den Entwicklertools markiert ist, kann der Benutzer mit der rechten Maustaste auf den entsprechenden HTML-Code klicken, „Kopieren“ und dann im Untermenü „Kopieren XPath“ auswählen. Dadurch wird ein eindeutiger Pfad generiert, der die genaue Position des Elements in der Dokumentstruktur identifiziert. Das Ergebnis XPath könnte etwa so aussehen: //input [@id ='username'] oder //button [@type ='submit'], wobei die doppelten Schrägstriche (//) angeben, dass der Pfad an einer beliebigen Stelle im Dokument beginnen kann, und die eckigen Klammern Attribute enthalten, mit deren Hilfe das jeweilige Element identifiziert werden kann.
Erforderliche Informationen:
URL der Anmeldeseite — URL des Anmeldeformulars (z. B.
https://example.com/login)Nutzername — Benutzername für die Anmeldung
Passwort - Login-Passwort
Feld Benutzername XPath — XPath zum Eingabefeld für den Benutzernamen (z. B.
//input[@id='username'])-
Schaltfläche für den Benutzernamen XPath (optional) — XPath zum Feld für die Schaltfläche mit dem Benutzernamen (z. B.
//input[@id='username_button']) Passwortfeld XPath — XPath zum Passwort-Eingabefeld (z.B.,
//input[@id='password'])Passwort-Taste XPath — XPath zur Passwort-Taste (z.B.,
//button[@type='password'])
- SAML-Authentifizierung
-
Für Websites, die die SAML-basierte Single-Sign-On-Authentifizierung verwenden.
Die SAML-Authentifizierung (Security Assertion Markup Language) ist ein föderierter Identitätsstandard, der Single Sign-On (SSO) ermöglicht, indem Benutzer sich über einen zentralen Identitätsanbieter authentifizieren können, anstatt Anmeldeinformationen direkt in jede Anwendung einzugeben. Im Gegensatz zur herkömmlichen Formularauthentifizierung, bei der Benutzer ihren Benutzernamen und ihr Passwort in Felder auf der Anmeldeseite der Anwendung eingeben, leitet SAML Benutzer zur Authentifizierung an den Identitätsanbieter ihrer Organisation (wie Microsoft Azure AD oder Okta) weiter und übergibt dann ein sicheres Token zurück an die Anwendung, um Zugriff zu gewähren. Dieser Ansatz bietet eine nahtlose Benutzererfahrung über mehrere Anwendungen hinweg, eine zentrale Benutzerverwaltung für IT-Administratoren und verbesserte Sicherheit durch Funktionen wie die Multi-Faktor-Authentifizierung, während die Formularauthentifizierung eine separate Verwaltung der Anmeldeinformationen für jede einzelne Anwendung erfordert
Erforderliche Informationen:
URL der Anmeldeseite — URL der SAML-Anmeldeseite
Benutzername — SAML-Benutzername
Passwort — SAML-Passwort
-
Feld für den Benutzernamen XPath — XPath zum Eingabefeld für den Benutzernamen (z. B.
//input[@id='username'] -
Schaltfläche für den Benutzernamen XPath (optional) — XPath zum Feld für die Schaltfläche mit dem Benutzernamen (z. B.
//input[@id='username_button']) -
Passwortfeld XPath — XPath zum Passwort-Eingabefeld (z.B.,
//input[@id='password']) -
Passwort-Taste XPath — XPath zur Passwort-Taste (z.B.,
//button[@type='password'])
XPath Beispiele für Konfigurationen
Verwenden Sie diese XPath Beispiele, um die Formular- und SAML-Authentifizierung zu konfigurieren:
Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]
Richten Sie die Web Crawler-Integration ein
Nachdem Sie Ihre Zugriffsanforderungen für Websites vorbereitet haben, erstellen Sie die Web Crawler-Integration in Amazon Quick Suite.
-
Wählen Sie in der Amazon Quick Suite-Konsole Integrationen aus.
-
Wählen Sie Web Crawler aus den Integrationsoptionen aus und klicken Sie auf die Schaltfläche Hinzufügen (plus „+“).
-
Wählen Sie „Auf Daten von Web Crawler zugreifen“ aus. Die Web Crawler-Integration unterstützt nur den Datenzugriff. Die Ausführung von Aktionen ist für Webcrawling nicht verfügbar.
-
Konfigurieren Sie die Integrationsdetails und die Authentifizierungsmethode und erstellen Sie dann nach Bedarf Wissensdatenbanken.
-
Wählen Sie den Authentifizierungstyp für Ihre Webcrawler-Integration aus.
-
Geben Sie die erforderlichen Details basierend auf der von Ihnen ausgewählten Authentifizierungsmethode ein.
-
Wählen Sie Erstellen und fahren Sie fort.
-
Geben Sie den Namen und die Beschreibung für Ihre Wissensdatenbank ein.
-
Fügen Sie den Inhalt hinzu, den URLs Sie crawlen möchten.
-
Wählen Sie Erstellen aus.
-
Nachdem Sie auf Erstellen geklickt haben, wird die Datensynchronisierung automatisch gestartet.
Crawling konfigurieren
Sie können konfigurieren, welche Websites und Seiten gecrawlt werden sollen und wie der Inhalt gefiltert werden soll.
Konfiguration URLs und Inhaltsquellen
Konfigurieren Sie, welche Websites und Seiten gecrawlt werden sollen:
Direkt URLs
Geben Sie die Person URLs an, die gecrawlt werden soll:
https://example.com/docs https://example.com/blog https://example.com/support
Limit: Maximal 10 URLs pro Datensatz
Inhaltsfilter und Crawl-Einstellungen
Einstellungen für den Crawling-Bereich
Um diese Einstellungen anzeigen zu können, müssen Sie zunächst eine Wissensdatenbank einrichten und dann die Option für erweiterte Einstellungen prüfen.
- Tiefe des Kriechens
-
Bereich: 0-10 (Standard: 1)
0 = Nur Crawl angegeben URLs
1 = schließt verlinkte Seiten ein, die eine Ebene tief sind
Höhere Werte folgen Links, die tiefer in die Site hineinreichen
- Maximale Anzahl an Links pro Seite
-
Standard: 1000
Höchstwert: 1 000.
Steuert, wie vielen Links von jeder Seite aus gefolgt werden soll
- Wait (Warten) Zeit
-
Standard: 1
-
Gibt an, wie lange der Webcrawler auf jede Seite wartet, nachdem die Seite den Status „Seite bereit“ erreicht hat. Dies ist nützlich für Seiten mit dynamischen JavaScript-Ladeeigenschaften, bei denen die Seite Inhaltsblöcke enthält, die geladen werden, nachdem die Hauptvorlage geladen wurde. Erhöhen Sie die Wartezeit, wenn Sie visuell ansprechende Inhalte haben oder mit hohen Ladezeiten rechnen.
Wissensdatenbanken verwalten
Nachdem Sie Ihre Webcrawler-Integration eingerichtet haben, können Sie Wissensdatenbanken aus den Inhalten Ihrer gecrawlten Website erstellen und verwalten.
Bestehende Wissensdatenbanken bearbeiten
Sie können Ihre vorhandenen Web Crawler-Wissensdatenbanken ändern:
-
Wählen Sie in der Amazon Quick Suite-Konsole Knowledge Bases aus.
-
Wählen Sie Ihre Web Crawler-Wissensdatenbank aus der Liste aus.
-
Wählen Sie unter Aktionen das Dreipunktsymbol und anschließend Wissensdatenbank bearbeiten aus.
-
Aktualisieren Sie Ihre Konfigurationseinstellungen nach Bedarf und wählen Sie Speichern.
Erstellen Sie zusätzliche Wissensdatenbanken
Sie können mit derselben Web Crawler-Integration mehrere Wissensdatenbanken erstellen:
-
Wählen Sie in der Amazon Quick Suite-Konsole Integrationen und dann die Registerkarte Daten aus.
-
Wählen Sie Ihre bestehende Web Crawler-Integration aus der Liste aus.
-
Wählen Sie unter Aktionen das Dreipunktsymbol und anschließend Wissensdatenbank erstellen aus.
-
Konfigurieren Sie Ihre Wissensdatenbank-Einstellungen und wählen Sie Erstellen.
Ausführliche Informationen zu den Konfigurationsoptionen für die Wissensdatenbank finden Sie unterAllgemeine Konfigurationseinstellungen.
Datei-Crawling und Datei-Crawling
Steuern Sie, ob das System Dateien und Anhänge verarbeitet, die über Webseiten verlinkt sind:
-
Crawling von Dateianhängen aktivieren — Wählen Sie diese Option, um Dateien und Anlagen, die sich auf Webseiten befinden, wie PDFs Dokumente und Mediendateien, zu crawlen und zu indizieren.
Crawling-Verhalten und Synchronisierungskonfiguration
Ihre Webcrawler-Integration folgt diesen Crawling-Praktiken:
Modell der inkrementellen Synchronisierung: Bei der ersten Synchronisierung wird ein vollständiger Crawl durchgeführt, bei nachfolgenden Synchronisierungen werden nur Änderungen erfasst
Automatischer Wiederholungsversuch: Integrierte Wiederholungslogik für fehlgeschlagene Anfragen
Behandlung von Duplikaten: Automatische Erkennung und Behandlung von URLs
Crawler-Identifizierung: Identifiziert sich selbst mit der User-Agent-Zeichenfolge "aws-quick-on-behalf-of-<UUID>" in den Headern der Anfrage
Konformität mit Robots.txt
Web Crawler respektiert das Protokoll robots.txt und berücksichtigt Benutzeragenten und Richtlinien. allow/disallow Auf diese Weise können Sie steuern, wie der Crawler auf Ihre Website zugreift.
So funktioniert die Überprüfung von robots.txt
Prüfung auf Host-Ebene: Web Crawler liest Dateien vom Typ robots.txt auf Host-Ebene (z. B. example.com/robots.txt)
Unterstützung mehrerer Hosts: Bei Domains mit mehreren Hosts beachtet Web Crawler die Robots-Regeln für jeden Host separat
Fallback-Verhalten: Wenn der Web Crawler die Datei robots.txt aufgrund von Blockierung, Analysefehlern oder Timeouts nicht abrufen kann, verhält er sich so, als ob robots.txt nicht existiert, und crawlt die Site
Unterstützte robots.txt -Felder
Web Crawler erkennt diese robots.txt -Felder (bei Feldnamen wird nicht zwischen Groß- und Kleinschreibung unterschieden, bei Werten wird zwischen Groß- und Kleinschreibung unterschieden):
user-agentIdentifiziert, für welchen Crawler die Regeln gelten
allowEin URL-Pfad, der gecrawlt werden kann
disallowEin URL-Pfad, der möglicherweise nicht gecrawlt werden kann
sitemapDie vollständige URL einer Sitemap
crawl-delayAngegebene Wartezeit (in Sekunden) zwischen Anfragen an Ihre Website
Unterstützung für Metatags
Web Crawler unterstützt Robots-Metatags auf Seitenebene, mit denen Sie steuern können, wie Ihre Daten verwendet werden. Sie können Einstellungen auf Seitenebene angeben, indem Sie ein Metatag auf HTML-Seiten oder in einen HTTP-Header einfügen.
Unterstützte Metatags
noindexIndexieren Sie die Seite nicht. Wenn Sie diese Regel nicht angeben, ist die Seite möglicherweise indexiert und kann in Erlebnissen erscheinen
nofollowFolgen Sie nicht den Links auf dieser Seite. Wenn Sie diese Regel nicht angeben, kann Web Crawler die Links auf der Seite verwenden, um diese verlinkten Seiten zu finden
Sie können mehrere Werte mit einem Komma kombinieren (z. B. „noindex, nofollow“).
Anmerkung
Um Metatags zu erkennen, muss der Web Crawler auf Ihre Seite zugreifen. Blockieren Sie Ihre Seite also nicht mit robots.txt, da sie sonst nicht erneut gecrawlt werden kann.
Fehlerbehebung
Verwenden Sie diesen Abschnitt, um häufig auftretende Probleme mit der Web Crawler-Integration zu lösen.
Authentication failures (Authentifizierungsfehler)
Symptome:
Fehlermeldungen „Authentifizierung nicht möglich“
401/403 HTTP-Antworten
Umleitungsschleifen auf der Anmeldeseite
Fehler beim Sitzungs-Timeout
Schritte zur Lösung:
Stellen Sie sicher, dass die Site von der AWS Region aus erreichbar ist, in der die Amazon Quick Suite-Instance eingerichtet ist
Überprüfen Sie die Richtigkeit der Anmeldeinformationen und stellen Sie sicher, dass sie nicht abgelaufen sind
Überprüfen Sie die Verfügbarkeit und Zugänglichkeit der Authentifizierungsendpunkte
Validieren Sie XPath Konfigurationen, indem Sie sie in Browser-Entwicklertools testen
Überprüfen Sie die Browser-Netzwerkprotokolle, um den Authentifizierungsablauf zu verstehen
Stellen Sie sicher, dass die URL der Anmeldeseite korrekt und zugänglich ist
Testen Sie die Authentifizierung manuell mit denselben Anmeldeinformationen
Zugriffs- und Verbindungsprobleme
Symptome:
Verbindungstimeouts und Netzwerkfehler
Fehler, die über das Netzwerk nicht erreichbar sind
Fehler bei der DNS-Auflösung
Schritte zur Lösung:
-
Überprüfen Sie die Netzwerkkonnektivität zu Ziel-Websites
-
Überprüfen Sie die Barrierefreiheit der Website:
Überprüfen Sie die DNS-Auflösung für Zieldomänen
Überprüfen Sie die SSL/TLS Konfiguration und die Zertifikate
Testen Sie, wenn möglich, den Zugriff von verschiedenen Netzwerken aus
Probleme beim Crawlen und beim Inhalt
Symptome:
Fehlender oder unvollständiger Inhalt
Unvollständige Crawls oder vorzeitiger Abbruch
Fehler bei der Ratenbegrenzung (429 Antworten)
Inhalt wurde nicht richtig indexiert
Schritte zur Lösung:
-
Überprüfen Sie die Einschränkungen von robots.txt:
Überprüfen Sie die Datei robots.txt auf Crawling-Einschränkungen
Stellen Sie sicher, dass der Crawler auf Zielpfade zugreifen darf
Stellen Sie sicher, dass Inhalte nicht durch die Einhaltung von robots.txt blockiert werden
-
Überprüfen Sie die Ratenbegrenzung und Drosselung:
Überwachen Sie die Antwort-Header auf Informationen zur Ratenbegrenzung
Implementieren Sie angemessene Crawling-Verzögerungen
-
Überprüfen Sie URL-Muster und Filter:
Testen Sie Regex-Muster auf Richtigkeit
Überprüfen Sie die Formatierung und Struktur der URL
Validieren Sie die include/exclude Musterlogik
-
Inhaltsbeschränkungen überprüfen:
Suchen Sie auf Seiten nach Noindex-Metatags
Überprüfen Sie die Unterstützung von Inhaltstypen
Stellen Sie sicher, dass die Inhaltsgröße innerhalb der Grenzen liegt
-
Aktualisieren Sie die Wartezeit auf einen geeigneten Wert, damit der Inhalt auf die Seite geladen wird, bevor der Crawler versucht zu crawlen
Bekannte Beschränkungen
Für die Web Crawler-Integration gelten die folgenden Einschränkungen:
URL-Beschränkungen: Maximal 10 URLs, Sitemap wird nicht unterstützt
Crawl-Tiefe: Maximale Crawl-Tiefe von 10 Stufen
Sicherheitsanforderungen: HTTPS ist für Web-Proxy-Konfigurationen erforderlich