Intégration à Web Crawler - Amazon Quick Suite

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Intégration à Web Crawler

Grâce à l'intégration de Web Crawler dans Amazon Quick Suite, vous pouvez créer des bases de connaissances à partir du contenu d'un site Web en explorant et en indexant des pages Web. Cette intégration prend en charge les fonctionnalités d'ingestion de données avec différentes options d'authentification en fonction de votre niveau d'utilisateur.

Actions possibles

Les utilisateurs de Web Crawler peuvent poser des questions sur le contenu stocké sur les sites Web et les pages Web. Par exemple, les utilisateurs peuvent se renseigner sur les sites de documentation, les bases de connaissances ou rechercher des informations spécifiques sur plusieurs pages Web. L'intégration permet aux utilisateurs d'accéder rapidement aux informations du contenu Web et de les comprendre, quels que soient leur emplacement ou leur type, tout en fournissant des informations contextuelles telles que les dates de publication, l'historique des modifications et le propriétaire des pages, ce qui contribue à une découverte plus efficace des informations et à une prise de décision plus éclairée.

Note

L'intégration de Web Crawler prend uniquement en charge l'ingestion de données. Il ne fournit pas de fonctionnalités d'action pour gérer des sites Web ou des services Web.

Avant de commencer

Avant de configurer l'intégration de Web Crawler, assurez-vous de disposer des éléments suivants :

  • Site Web URLs à explorer et à indexer.

  • Abonnement Amazon Quick Suite Enterprise

  • Le site Web que vous souhaitez explorer doit être public et ne doit pas se trouver derrière un pare-feu ou nécessiter des plug-ins de navigateur spéciaux pour se connecter.

Préparer l'accès au site Web et l'authentification

Avant de configurer l'intégration dans Amazon Quick Suite, préparez les informations d'accès à votre site Web. L'intégration de Web Crawler prend en charge différentes méthodes d'authentification en fonction de votre rôle d'utilisateur :

Aucune authentification

Disponible pour tous les utilisateurs. À utiliser pour explorer les sites Web publics qui ne nécessitent pas d'authentification.

Authentification de base

Authentification HTTP de base standard pour les sites Web sécurisés. L'authentification HTTP de base est un moyen simple de protéger les ressources Web en exigeant un nom d'utilisateur et un mot de passe. Lorsque vous visitez un site protégé à l'aide de l'authentification de base, votre navigateur affiche une boîte de dialogue contextuelle vous demandant vos informations d'identification.

Informations d'identification requises :

  • URL de la page de connexion : URL de la page de connexion

  • Nom d'utilisateur - Nom d'utilisateur d'authentification de base

  • Mot de passe - Mot de passe d'authentification de base

Authentification par formulaire

Pour les sites Web qui utilisent des pages de connexion basées sur des formulaires HTML.

Le formulaire est configuré pour que vous puissiez le spécifier. XPath XPath (XML Path Language) est un langage de requête utilisé pour parcourir les éléments et les attributs d'un document HTML ou XML. XPath Pour identifier un élément de page Web, un utilisateur peut utiliser les outils de développement de son navigateur, généralement accessibles en cliquant avec le bouton droit sur l'élément souhaité et en sélectionnant « Inspecter » ou en appuyant sur F12. Une fois que l'élément est surligné dans les outils de développement, l'utilisateur peut cliquer avec le bouton droit sur le code HTML correspondant, sélectionner « Copier », puis choisir « Copier XPath » dans le sous-menu. Cela génère un chemin unique qui identifie l'emplacement exact de l'élément dans la structure du document. Le résultat XPath peut ressembler à //input [@id ='username'] ou //button [@type ='submit'], où les barres obliques doubles (//) indiquent que le chemin peut commencer n'importe où dans le document, et les crochets contiennent des attributs qui aident à identifier l'élément spécifique.

Informations requises :

  • URL de la page de connexion - URL du formulaire de connexion (par exemple,https://example.com/login)

  • Nom d'utilisateur - Nom d'utilisateur de connexion

  • Mot de passe - Mot de passe de connexion

  • Champ de nom d'utilisateur XPath - XPath vers le champ de saisie du nom d'utilisateur (par exemple,//input[@id='username'])

  • Bouton du nom d'utilisateur XPath (facultatif) - XPath vers le champ du bouton du nom d'utilisateur (par exemple,//input[@id='username_button'])

  • Champ de mot de passe XPath - XPath vers le champ de saisie du mot de passe (par exemple,//input[@id='password'])

  • Bouton de mot de passe XPath - XPath vers le bouton de mot de passe (par exemple,//button[@type='password'])

Authentification SAML

Pour les sites Web qui utilisent l'authentification unique basée sur SAML.

L'authentification SAML (Security Assertion Markup Language) est une norme d'identité fédérée qui permet l'authentification unique (SSO) en permettant aux utilisateurs de s'authentifier via un fournisseur d'identité centralisé plutôt que de saisir leurs informations d'identification directement dans chaque application. Contrairement à l'authentification par formulaire traditionnelle où les utilisateurs saisissent leur nom d'utilisateur et leur mot de passe dans les champs de la page de connexion de l'application, le SAML redirige les utilisateurs vers le fournisseur d'identité de leur organisation (tel que Microsoft Azure AD ou Okta) pour s'authentifier, puis renvoie un jeton sécurisé à l'application pour accorder l'accès. Cette approche fournit une expérience utilisateur fluide sur plusieurs applications, une gestion centralisée des utilisateurs pour les administrateurs informatiques et une sécurité renforcée grâce à des fonctionnalités telles que l'authentification multifactorielle, tandis que l'authentification par formulaire nécessite une gestion des informations d'identification distincte pour chaque application individuelle

Informations requises :

  • URL de la page de connexion : URL de la page de connexion SAML

  • Nom d'utilisateur - nom d'utilisateur SAML

  • Mot de passe - mot de passe SAML

  • Champ de nom d'utilisateur XPath - XPath vers le champ de saisie du nom d'utilisateur (par exemple,//input[@id='username'])

  • Bouton du nom d'utilisateur XPath (facultatif) - XPath vers le champ du bouton du nom d'utilisateur (par exemple,//input[@id='username_button'])

  • Champ de mot de passe XPath - XPath vers le champ de saisie du mot de passe (par exemple,//input[@id='password'])

  • Bouton de mot de passe XPath - XPath vers le bouton de mot de passe (par exemple,//button[@type='password'])

XPath exemples de configuration

Utilisez ces XPath exemples pour configurer le formulaire et l'authentification SAML :

Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]

Configurer l'intégration de Web Crawler

Après avoir préparé les exigences d'accès à votre site Web, créez l'intégration Web Crawler dans Amazon Quick Suite.

  1. Dans la console Amazon Quick Suite, choisissez Integrations.

  2. Choisissez Web Crawler dans les options d'intégration, puis cliquez sur le bouton Ajouter (plus le bouton « + »).

  3. Choisissez Accéder aux données depuis Web Crawler. L'intégration de Web Crawler prend uniquement en charge l'accès aux données ; l'exécution d'actions n'est pas disponible pour l'exploration Web.

  4. Configurez les détails de l'intégration et la méthode d'authentification, puis créez des bases de connaissances selon vos besoins.

    1. Sélectionnez le type d'authentification pour l'intégration de votre robot d'exploration Web.

    2. Renseignez les informations requises en fonction de la méthode d'authentification que vous avez sélectionnée.

    3. Sélectionnez Créer et continuer.

    4. Renseignez le nom et la description de votre base de connaissances.

    5. Ajoutez le contenu URLs que vous souhaitez explorer.

    6. Sélectionnez Créer.

Après avoir cliqué sur Créer, la synchronisation des données démarre automatiquement.

Configuration de l'exploration

Vous pouvez configurer les sites Web et les pages à explorer et comment filtrer le contenu.

Configuration URLs et sources de contenu

Configurez les sites Web et les pages à explorer :

Directement URLs

Spécifiez URLs la personne à explorer :

https://example.com/docs https://example.com/blog https://example.com/support

Limite : 10 maximum URLs par jeu de données

Filtres de contenu et paramètres d'exploration

Paramètres du Crawl Scope

Pour afficher ces paramètres, vous devez d'abord configurer une base de connaissances, puis examiner l'option des paramètres avancés.

Profondeur du crawl
  • Plage : 0 à 10 (par défaut : 1)

  • 0 = crawl uniquement spécifié URLs

  • 1 = inclure les pages liées d'un niveau de profondeur

  • Les valeurs les plus élevées suivent les liens plus profonds dans le site

Nombre maximum de liens par page
  • Par défaut: 1000

  • Maximum : 1 000.

  • Contrôle le nombre de liens à suivre sur chaque page

Durée d’Attente
  • Valeur par défaut : 1

  • Durée pendant laquelle le robot d'exploration Web attendra pour chaque page une fois que celle-ci aura atteint l'état « page prête ». Cela est utile pour les pages qui ont des caractéristiques de chargement JavaScript dynamiques où la page comporte des blocs de contenu qui se chargent après le chargement du modèle principal. Augmentez le temps d'attente si vous avez un contenu visuellement riche ou si vous prévoyez des temps de chargement élevés.

Gérer les bases de connaissances

Après avoir configuré l'intégration de votre Web Crawler, vous pouvez créer et gérer des bases de connaissances à partir du contenu de votre site Web exploré.

Modifier les bases de connaissances existantes

Vous pouvez modifier vos bases de connaissances Web Crawler existantes :

  1. Dans la console Amazon Quick Suite, sélectionnez Knowledge bases.

  2. Sélectionnez votre base de connaissances Web Crawler dans la liste.

  3. Cliquez sur l'icône à trois points sous Actions, puis sélectionnez Modifier la base de connaissances.

  4. Mettez à jour vos paramètres de configuration selon vos besoins et choisissez Enregistrer.

Création de bases de connaissances supplémentaires

Vous pouvez créer plusieurs bases de connaissances à partir de la même intégration de Web Crawler :

  1. Dans la console Amazon Quick Suite, choisissez Integrations, puis sélectionnez l'onglet Data.

  2. Choisissez votre intégration Web Crawler existante dans la liste.

  3. Cliquez sur l'icône à trois points sous Actions, puis choisissez Créer une base de connaissances.

  4. Configurez les paramètres de votre base de connaissances et choisissez Create.

Pour des informations détaillées sur les options de configuration de la base de connaissances, consultezParamètres de configuration courants.

Pièces jointes et exploration de fichiers

Contrôlez si le système traite les fichiers et les pièces jointes liés à des pages Web :

  • Activer l'analyse des pièces jointes : sélectionnez cette option pour analyser et indexer les fichiers et les pièces jointes présents sur les pages Web PDFs, tels que les documents et les fichiers multimédia.

Comportement d'exploration et configuration de synchronisation

Votre intégration à Web Crawler suit les pratiques d'exploration suivantes :

  • Modèle de synchronisation incrémentielle : la première synchronisation effectue une analyse complète, les synchronisations suivantes ne capturent que les modifications

  • Rétentative automatique : logique de nouvelle tentative intégrée pour les demandes ayant échoué

  • Gestion des doublons : détection et gestion automatiques des URLs

  • Identification du robot : s'identifie avec la chaîne d'agent utilisateur « aws-quick-on-behalf -of- <UUID>» dans les en-têtes de demande

Conformité à Robots.txt

Web Crawler respecte le protocole robots.txt et respecte l'agent utilisateur et les allow/disallow directives. Cela vous permet de contrôler la manière dont le robot accède à votre site.

Comment fonctionne la vérification du fichier robots.txt
  • Vérification au niveau de l'hôte : Web Crawler lit les fichiers robots.txt au niveau de l'hôte (par exemple, exemple.com/robots.txt)

  • Prise en charge de plusieurs hôtes : pour les domaines comportant plusieurs hôtes, Web Crawler respecte les règles relatives aux robots pour chaque hôte séparément

  • Comportement de remplacement : si Web Crawler ne parvient pas à récupérer le fichier robots.txt en raison d'un blocage, d'erreurs d'analyse ou d'un délai d'attente, il se comportera comme si robots.txt n'existait pas et explorera le site

Champs robots.txt pris en charge

Web Crawler reconnaît les champs robots.txt suivants (les noms des champs ne distinguent pas les majuscules des minuscules, les valeurs distinguent les majuscules et minuscules) :

user-agent

Identifie à quel robot les règles s'appliquent

allow

Un chemin d'URL qui peut être exploré

disallow

Un chemin d'URL qui ne peut pas être exploré

sitemap

L'URL complète d'un plan du site

crawl-delay

Durée spécifiée (en secondes) d'attente entre les demandes adressées à votre site Web

Support des balises Meta

Web Crawler prend en charge les balises méta de robots au niveau des pages que vous pouvez utiliser pour contrôler la manière dont vos données sont utilisées. Vous pouvez définir les paramètres au niveau de la page en incluant une balise méta sur les pages HTML ou dans un en-tête HTTP.

Balises méta prises en charge
noindex

N'indexez pas la page. Si vous ne spécifiez pas cette règle, la page peut être indexée et éligible pour apparaître dans les expériences

nofollow

Ne suivez pas les liens de cette page. Si vous ne spécifiez pas cette règle, Web Crawler peut utiliser les liens de la page pour découvrir ces pages liées

Vous pouvez combiner plusieurs valeurs à l'aide d'une virgule (par exemple, « noindex, nofollow »).

Note

Pour détecter les balises méta, Web Crawler doit accéder à votre page. Ne bloquez donc pas votre page avec le fichier robots.txt, car cela empêcherait qu'elle soit à nouveau analysée.

Résolution de problème

Utilisez cette section pour résoudre les problèmes courants liés à l'intégration de Web Crawler.

Authentication failures (Échecs d’authentification)

Symptômes :

  • Messages d'erreur « Impossible d'authentifier »

  • Réponses HTTP 401/403

  • Boucles de redirection de la page de connexion

  • Erreurs de temporisation de session

Étapes de résolution :

  1. Vérifiez que le site est accessible depuis la AWS région où l'instance Amazon Quick Suite est configurée

  2. Vérifiez l'exactitude des informations d'identification et assurez-vous qu'elles n'ont pas expiré

  3. Vérifiez la disponibilité et l'accessibilité des terminaux d'authentification

  4. Validez les XPath configurations en les testant dans les outils de développement du navigateur

  5. Consultez les journaux réseau du navigateur pour comprendre le flux d'authentification

  6. Assurez-vous que l'URL de la page de connexion est correcte et accessible

  7. Testez l'authentification manuellement en utilisant les mêmes informations d'identification

Problèmes d'accès et de connectivité

Symptômes :

  • Délais de connexion et erreurs réseau

  • Erreurs d'inaccessibilité du réseau

  • Défaillances de résolution DNS

Étapes de résolution :

  1. Vérifiez la connectivité réseau aux sites Web cibles

  2. Validez l'accessibilité du site :

    • Vérifiez la résolution DNS pour les domaines cibles

    • Vérifier la SSL/TLS configuration et les certificats

    • Testez l'accès depuis différents réseaux si possible

Problèmes de crawl et de contenu

Symptômes :

  • Contenu manquant ou incomplet

  • Analyses incomplètes ou résiliation anticipée

  • Erreurs de limitation du débit (429 réponses)

  • Le contenu n'est pas correctement indexé

Étapes de résolution :

  1. Passez en revue les restrictions du fichier robots.txt :

    • Vérifiez les restrictions d'exploration dans le fichier robots.txt

    • Vérifiez que le robot d'exploration est autorisé à accéder aux chemins cibles

    • Assurez-vous que la conformité du fichier robots.txt ne bloque pas le contenu

  2. Vérifiez la limitation du débit et l'étranglement :

    • Surveillez les en-têtes de réponse pour obtenir des informations sur les limites de débit

    • Implémenter des délais de crawl appropriés

  3. Vérifiez les modèles d'URL et les filtres :

    • Testez la précision des modèles de regex

    • Vérifiez le formatage et la structure de l'URL

    • Valider la logique du include/exclude modèle

  4. Vérifiez les restrictions relatives au contenu :

    • Vérifiez la présence de balises méta noindex sur les pages

    • Vérifier la prise en charge des types de contenu

    • Assurez-vous que la taille du contenu est dans les limites

  5. Mettez à jour le temps d'attente à une valeur appropriée afin que le contenu soit chargé sur la page avant que l'explorateur n'essaie de l'explorer.

Limitations connues

L'intégration de Web Crawler présente les limites suivantes :

  • Limites d'URL : maximum de 10 URLs, plan du site non pris en charge

  • Profondeur de rampage : profondeur de rampage maximale de 10 niveaux

  • Exigences de sécurité : HTTPS requis pour les configurations de proxy Web