Webcrawler-Integration - Amazon Quick Suite

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Webcrawler-Integration

Mit der Web Crawler-Integration in Amazon Quick Suite können Sie Wissensdatenbanken aus Webseiteninhalten erstellen, indem Sie Webseiten crawlen und indexieren. Diese Integration unterstützt Datenaufnahmefunktionen mit unterschiedlichen Authentifizierungsoptionen, die auf Ihrer Benutzerstufe basieren.

Was Sie tun können

Web Crawler-Benutzer können Fragen zu Inhalten stellen, die auf Websites und Webseiten gespeichert sind. Benutzer können sich beispielsweise nach Dokumentationsseiten und Wissensdatenbanken erkundigen oder auf mehreren Webseiten nach bestimmten Informationen suchen. Die Integration ermöglicht es Benutzern, unabhängig von Ort oder Typ schnell auf Informationen aus Webinhalten zuzugreifen und diese zu verstehen. Gleichzeitig werden kontextbezogene Details wie Veröffentlichungsdaten, Änderungsverlauf und Seitenbesitz bereitgestellt. All dies trägt zu einer effizienteren Informationssuche und fundierteren Entscheidungsfindung bei.

Anmerkung

Die Web Crawler-Integration unterstützt nur die Datenaufnahme. Sie bietet keine Aktionsfunktionen für die Verwaltung von Websites oder Webdiensten.

Bevor Sie beginnen

Bevor Sie die Web Crawler-Integration einrichten, stellen Sie sicher, dass Sie über Folgendes verfügen:

  • Website URLs , die gecrawlt und indexiert werden soll.

  • Amazon Quick Suite Enterprise-Abonnement

  • Die Website, die Sie crawlen möchten, muss öffentlich sein und darf sich nicht hinter einer Firewall befinden oder spezielle Browser-Plugins erfordern, um eine Verbindung herzustellen.

Bereiten Sie den Zugriff auf die Website und die Authentifizierung vor

Bevor Sie die Integration in Amazon Quick Suite einrichten, bereiten Sie Ihre Zugangsdaten für die Website vor. Die Web Crawler-Integration unterstützt je nach Ihrer Benutzerrolle verschiedene Authentifizierungsmethoden:

Keine Authentifizierung

Für alle Benutzer verfügbar. Wird zum Crawlen öffentlicher Websites verwendet, für die keine Authentifizierung erforderlich ist.

Standardauthentifizierung

Standard-HTTP-Basisauthentifizierung für gesicherte Websites. Die HTTP-Basisauthentifizierung ist eine einfache Möglichkeit, Webressourcen zu schützen, indem ein Benutzername und ein Passwort erforderlich sind. Wenn Sie eine geschützte Site mit Standardauthentifizierung besuchen, zeigt Ihr Browser ein Popup-Dialogfeld an, in dem Sie nach Ihren Anmeldeinformationen gefragt werden.

Erforderliche Anmeldeinformationen:

  • URL der Anmeldeseite — Die URL der Anmeldeseite

  • Benutzername — Standardbenutzername für die Authentifizierung

  • Passwort — Grundlegendes Authentifizierungspasswort

Formularauthentifizierung

Für Websites, die formularbasierte HTML-Anmeldeseiten verwenden.

Das Formular ist so eingerichtet, dass Sie es angeben können. XPath XPath (XML Path Language) ist eine Abfragesprache, die verwendet wird, um durch Elemente und Attribute in einem HTML- oder XML-Dokument zu navigieren. Um ein Element XPath für eine Webseite zu identifizieren, kann ein Benutzer die Entwicklertools seines Browsers verwenden, auf die er normalerweise zugreift, indem er mit der rechten Maustaste auf das gewünschte Element klickt und „Prüfen“ auswählt oder F12 drückt. Sobald das Element in den Entwicklertools markiert ist, kann der Benutzer mit der rechten Maustaste auf den entsprechenden HTML-Code klicken, „Kopieren“ und dann im Untermenü „Kopieren XPath“ auswählen. Dadurch wird ein eindeutiger Pfad generiert, der die genaue Position des Elements in der Dokumentstruktur identifiziert. Das Ergebnis XPath könnte etwa so aussehen: //input [@id ='username'] oder //button [@type ='submit'], wobei die doppelten Schrägstriche (//) angeben, dass der Pfad an einer beliebigen Stelle im Dokument beginnen kann, und die eckigen Klammern Attribute enthalten, mit deren Hilfe das jeweilige Element identifiziert werden kann.

Erforderliche Informationen:

  • URL der Anmeldeseite — URL des Anmeldeformulars (z. B.https://example.com/login)

  • Nutzername — Benutzername für die Anmeldung

  • Passwort - Login-Passwort

  • Feld Benutzername XPath — XPath zum Eingabefeld für den Benutzernamen (z. B.//input[@id='username'])

  • Schaltfläche für den Benutzernamen XPath (optional) — XPath zum Feld für die Schaltfläche mit dem Benutzernamen (z. B.//input[@id='username_button'])

  • Passwortfeld XPath — XPath zum Passwort-Eingabefeld (z.B.,//input[@id='password'])

  • Passwort-Taste XPath — XPath zur Passwort-Taste (z.B.,//button[@type='password'])

SAML-Authentifizierung

Für Websites, die die SAML-basierte Single-Sign-On-Authentifizierung verwenden.

Die SAML-Authentifizierung (Security Assertion Markup Language) ist ein föderierter Identitätsstandard, der Single Sign-On (SSO) ermöglicht, indem Benutzer sich über einen zentralen Identitätsanbieter authentifizieren können, anstatt Anmeldeinformationen direkt in jede Anwendung einzugeben. Im Gegensatz zur herkömmlichen Formularauthentifizierung, bei der Benutzer ihren Benutzernamen und ihr Passwort in Felder auf der Anmeldeseite der Anwendung eingeben, leitet SAML Benutzer zur Authentifizierung an den Identitätsanbieter ihrer Organisation (wie Microsoft Azure AD oder Okta) weiter und übergibt dann ein sicheres Token zurück an die Anwendung, um Zugriff zu gewähren. Dieser Ansatz bietet eine nahtlose Benutzererfahrung über mehrere Anwendungen hinweg, eine zentrale Benutzerverwaltung für IT-Administratoren und verbesserte Sicherheit durch Funktionen wie die Multi-Faktor-Authentifizierung, während die Formularauthentifizierung eine separate Verwaltung der Anmeldeinformationen für jede einzelne Anwendung erfordert

Erforderliche Informationen:

  • URL der Anmeldeseite — URL der SAML-Anmeldeseite

  • Benutzername — SAML-Benutzername

  • Passwort — SAML-Passwort

  • Feld für den Benutzernamen XPath — XPath zum Eingabefeld für den Benutzernamen (z. B. //input[@id='username']

  • Schaltfläche für den Benutzernamen XPath (optional) — XPath zum Feld für die Schaltfläche mit dem Benutzernamen (z. B.//input[@id='username_button'])

  • Passwortfeld XPath — XPath zum Passwort-Eingabefeld (z.B.,//input[@id='password'])

  • Passwort-Taste XPath — XPath zur Passwort-Taste (z.B.,//button[@type='password'])

XPath Beispiele für Konfigurationen

Verwenden Sie diese XPath Beispiele, um die Formular- und SAML-Authentifizierung zu konfigurieren:

Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]

Richten Sie die Web Crawler-Integration ein

Nachdem Sie Ihre Zugriffsanforderungen für Websites vorbereitet haben, erstellen Sie die Web Crawler-Integration in Amazon Quick Suite.

  1. Wählen Sie in der Amazon Quick Suite-Konsole Integrationen aus.

  2. Wählen Sie Web Crawler aus den Integrationsoptionen aus und klicken Sie auf die Schaltfläche Hinzufügen (plus „+“).

  3. Wählen Sie „Auf Daten von Web Crawler zugreifen“ aus. Die Web Crawler-Integration unterstützt nur den Datenzugriff. Die Ausführung von Aktionen ist für Webcrawling nicht verfügbar.

  4. Konfigurieren Sie die Integrationsdetails und die Authentifizierungsmethode und erstellen Sie dann nach Bedarf Wissensdatenbanken.

    1. Wählen Sie den Authentifizierungstyp für Ihre Webcrawler-Integration aus.

    2. Geben Sie die erforderlichen Details basierend auf der von Ihnen ausgewählten Authentifizierungsmethode ein.

    3. Wählen Sie Erstellen und fahren Sie fort.

    4. Geben Sie den Namen und die Beschreibung für Ihre Wissensdatenbank ein.

    5. Fügen Sie den Inhalt hinzu, den URLs Sie crawlen möchten.

    6. Wählen Sie Erstellen aus.

Nachdem Sie auf Erstellen geklickt haben, wird die Datensynchronisierung automatisch gestartet.

Crawling konfigurieren

Sie können konfigurieren, welche Websites und Seiten gecrawlt werden sollen und wie der Inhalt gefiltert werden soll.

Konfiguration URLs und Inhaltsquellen

Konfigurieren Sie, welche Websites und Seiten gecrawlt werden sollen:

Direkt URLs

Geben Sie die Person URLs an, die gecrawlt werden soll:

https://example.com/docs https://example.com/blog https://example.com/support

Limit: Maximal 10 URLs pro Datensatz

Inhaltsfilter und Crawl-Einstellungen

Einstellungen für den Crawling-Bereich

Um diese Einstellungen anzeigen zu können, müssen Sie zunächst eine Wissensdatenbank einrichten und dann die Option für erweiterte Einstellungen prüfen.

Tiefe des Kriechens
  • Bereich: 0-10 (Standard: 1)

  • 0 = Nur Crawl angegeben URLs

  • 1 = schließt verlinkte Seiten ein, die eine Ebene tief sind

  • Höhere Werte folgen Links, die tiefer in die Site hineinreichen

Maximale Anzahl an Links pro Seite
  • Standard: 1000

  • Höchstwert: 1 000.

  • Steuert, wie vielen Links von jeder Seite aus gefolgt werden soll

Wait (Warten) Zeit
  • Standard: 1

  • Gibt an, wie lange der Webcrawler auf jede Seite wartet, nachdem die Seite den Status „Seite bereit“ erreicht hat. Dies ist nützlich für Seiten mit dynamischen JavaScript-Ladeeigenschaften, bei denen die Seite Inhaltsblöcke enthält, die geladen werden, nachdem die Hauptvorlage geladen wurde. Erhöhen Sie die Wartezeit, wenn Sie visuell ansprechende Inhalte haben oder mit hohen Ladezeiten rechnen.

Wissensdatenbanken verwalten

Nachdem Sie Ihre Webcrawler-Integration eingerichtet haben, können Sie Wissensdatenbanken aus den Inhalten Ihrer gecrawlten Website erstellen und verwalten.

Bestehende Wissensdatenbanken bearbeiten

Sie können Ihre vorhandenen Web Crawler-Wissensdatenbanken ändern:

  1. Wählen Sie in der Amazon Quick Suite-Konsole Knowledge Bases aus.

  2. Wählen Sie Ihre Web Crawler-Wissensdatenbank aus der Liste aus.

  3. Wählen Sie unter Aktionen das Dreipunktsymbol und anschließend Wissensdatenbank bearbeiten aus.

  4. Aktualisieren Sie Ihre Konfigurationseinstellungen nach Bedarf und wählen Sie Speichern.

Erstellen Sie zusätzliche Wissensdatenbanken

Sie können mit derselben Web Crawler-Integration mehrere Wissensdatenbanken erstellen:

  1. Wählen Sie in der Amazon Quick Suite-Konsole Integrationen und dann die Registerkarte Daten aus.

  2. Wählen Sie Ihre bestehende Web Crawler-Integration aus der Liste aus.

  3. Wählen Sie unter Aktionen das Dreipunktsymbol und anschließend Wissensdatenbank erstellen aus.

  4. Konfigurieren Sie Ihre Wissensdatenbank-Einstellungen und wählen Sie Erstellen.

Ausführliche Informationen zu den Konfigurationsoptionen für die Wissensdatenbank finden Sie unterAllgemeine Konfigurationseinstellungen.

Datei-Crawling und Datei-Crawling

Steuern Sie, ob das System Dateien und Anhänge verarbeitet, die über Webseiten verlinkt sind:

  • Crawling von Dateianhängen aktivieren — Wählen Sie diese Option, um Dateien und Anlagen, die sich auf Webseiten befinden, wie PDFs Dokumente und Mediendateien, zu crawlen und zu indizieren.

Crawling-Verhalten und Synchronisierungskonfiguration

Ihre Webcrawler-Integration folgt diesen Crawling-Praktiken:

  • Modell der inkrementellen Synchronisierung: Bei der ersten Synchronisierung wird ein vollständiger Crawl durchgeführt, bei nachfolgenden Synchronisierungen werden nur Änderungen erfasst

  • Automatischer Wiederholungsversuch: Integrierte Wiederholungslogik für fehlgeschlagene Anfragen

  • Behandlung von Duplikaten: Automatische Erkennung und Behandlung von URLs

  • Crawler-Identifizierung: Identifiziert sich selbst mit der User-Agent-Zeichenfolge "aws-quick-on-behalf-of-<UUID>" in den Headern der Anfrage

Konformität mit Robots.txt

Web Crawler respektiert das Protokoll robots.txt und berücksichtigt Benutzeragenten und Richtlinien. allow/disallow Auf diese Weise können Sie steuern, wie der Crawler auf Ihre Website zugreift.

So funktioniert die Überprüfung von robots.txt
  • Prüfung auf Host-Ebene: Web Crawler liest Dateien vom Typ robots.txt auf Host-Ebene (z. B. example.com/robots.txt)

  • Unterstützung mehrerer Hosts: Bei Domains mit mehreren Hosts beachtet Web Crawler die Robots-Regeln für jeden Host separat

  • Fallback-Verhalten: Wenn der Web Crawler die Datei robots.txt aufgrund von Blockierung, Analysefehlern oder Timeouts nicht abrufen kann, verhält er sich so, als ob robots.txt nicht existiert, und crawlt die Site

Unterstützte robots.txt -Felder

Web Crawler erkennt diese robots.txt -Felder (bei Feldnamen wird nicht zwischen Groß- und Kleinschreibung unterschieden, bei Werten wird zwischen Groß- und Kleinschreibung unterschieden):

user-agent

Identifiziert, für welchen Crawler die Regeln gelten

allow

Ein URL-Pfad, der gecrawlt werden kann

disallow

Ein URL-Pfad, der möglicherweise nicht gecrawlt werden kann

sitemap

Die vollständige URL einer Sitemap

crawl-delay

Angegebene Wartezeit (in Sekunden) zwischen Anfragen an Ihre Website

Unterstützung für Metatags

Web Crawler unterstützt Robots-Metatags auf Seitenebene, mit denen Sie steuern können, wie Ihre Daten verwendet werden. Sie können Einstellungen auf Seitenebene angeben, indem Sie ein Metatag auf HTML-Seiten oder in einen HTTP-Header einfügen.

Unterstützte Metatags
noindex

Indexieren Sie die Seite nicht. Wenn Sie diese Regel nicht angeben, ist die Seite möglicherweise indexiert und kann in Erlebnissen erscheinen

nofollow

Folgen Sie nicht den Links auf dieser Seite. Wenn Sie diese Regel nicht angeben, kann Web Crawler die Links auf der Seite verwenden, um diese verlinkten Seiten zu finden

Sie können mehrere Werte mit einem Komma kombinieren (z. B. „noindex, nofollow“).

Anmerkung

Um Metatags zu erkennen, muss der Web Crawler auf Ihre Seite zugreifen. Blockieren Sie Ihre Seite also nicht mit robots.txt, da sie sonst nicht erneut gecrawlt werden kann.

Fehlerbehebung

Verwenden Sie diesen Abschnitt, um häufig auftretende Probleme mit der Web Crawler-Integration zu lösen.

Authentication failures (Authentifizierungsfehler)

Symptome:

  • Fehlermeldungen „Authentifizierung nicht möglich“

  • 401/403 HTTP-Antworten

  • Umleitungsschleifen auf der Anmeldeseite

  • Fehler beim Sitzungs-Timeout

Schritte zur Lösung:

  1. Stellen Sie sicher, dass die Site von der AWS Region aus erreichbar ist, in der die Amazon Quick Suite-Instance eingerichtet ist

  2. Überprüfen Sie die Richtigkeit der Anmeldeinformationen und stellen Sie sicher, dass sie nicht abgelaufen sind

  3. Überprüfen Sie die Verfügbarkeit und Zugänglichkeit der Authentifizierungsendpunkte

  4. Validieren Sie XPath Konfigurationen, indem Sie sie in Browser-Entwicklertools testen

  5. Überprüfen Sie die Browser-Netzwerkprotokolle, um den Authentifizierungsablauf zu verstehen

  6. Stellen Sie sicher, dass die URL der Anmeldeseite korrekt und zugänglich ist

  7. Testen Sie die Authentifizierung manuell mit denselben Anmeldeinformationen

Zugriffs- und Verbindungsprobleme

Symptome:

  • Verbindungstimeouts und Netzwerkfehler

  • Fehler, die über das Netzwerk nicht erreichbar sind

  • Fehler bei der DNS-Auflösung

Schritte zur Lösung:

  1. Überprüfen Sie die Netzwerkkonnektivität zu Ziel-Websites

  2. Überprüfen Sie die Barrierefreiheit der Website:

    • Überprüfen Sie die DNS-Auflösung für Zieldomänen

    • Überprüfen Sie die SSL/TLS Konfiguration und die Zertifikate

    • Testen Sie, wenn möglich, den Zugriff von verschiedenen Netzwerken aus

Probleme beim Crawlen und beim Inhalt

Symptome:

  • Fehlender oder unvollständiger Inhalt

  • Unvollständige Crawls oder vorzeitiger Abbruch

  • Fehler bei der Ratenbegrenzung (429 Antworten)

  • Inhalt wurde nicht richtig indexiert

Schritte zur Lösung:

  1. Überprüfen Sie die Einschränkungen von robots.txt:

    • Überprüfen Sie die Datei robots.txt auf Crawling-Einschränkungen

    • Stellen Sie sicher, dass der Crawler auf Zielpfade zugreifen darf

    • Stellen Sie sicher, dass Inhalte nicht durch die Einhaltung von robots.txt blockiert werden

  2. Überprüfen Sie die Ratenbegrenzung und Drosselung:

    • Überwachen Sie die Antwort-Header auf Informationen zur Ratenbegrenzung

    • Implementieren Sie angemessene Crawling-Verzögerungen

  3. Überprüfen Sie URL-Muster und Filter:

    • Testen Sie Regex-Muster auf Richtigkeit

    • Überprüfen Sie die Formatierung und Struktur der URL

    • Validieren Sie die include/exclude Musterlogik

  4. Inhaltsbeschränkungen überprüfen:

    • Suchen Sie auf Seiten nach Noindex-Metatags

    • Überprüfen Sie die Unterstützung von Inhaltstypen

    • Stellen Sie sicher, dass die Inhaltsgröße innerhalb der Grenzen liegt

  5. Aktualisieren Sie die Wartezeit auf einen geeigneten Wert, damit der Inhalt auf die Seite geladen wird, bevor der Crawler versucht zu crawlen

Bekannte Beschränkungen

Für die Web Crawler-Integration gelten die folgenden Einschränkungen:

  • URL-Beschränkungen: Maximal 10 URLs, Sitemap wird nicht unterstützt

  • Crawl-Tiefe: Maximale Crawl-Tiefe von 10 Stufen

  • Sicherheitsanforderungen: HTTPS ist für Web-Proxy-Konfigurationen erforderlich