Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Intégration à Web Crawler
Grâce à l'intégration de Web Crawler dans Amazon Quick Suite, vous pouvez créer des bases de connaissances à partir du contenu d'un site Web en explorant et en indexant des pages Web. Cette intégration prend en charge les fonctionnalités d'ingestion de données avec différentes options d'authentification en fonction de votre niveau d'utilisateur.
Actions possibles
Les utilisateurs de Web Crawler peuvent poser des questions sur le contenu stocké sur les sites Web et les pages Web. Par exemple, les utilisateurs peuvent se renseigner sur les sites de documentation, les bases de connaissances ou rechercher des informations spécifiques sur plusieurs pages Web. L'intégration permet aux utilisateurs d'accéder rapidement aux informations du contenu Web et de les comprendre, quels que soient leur emplacement ou leur type, tout en fournissant des informations contextuelles telles que les dates de publication, l'historique des modifications et le propriétaire des pages, ce qui contribue à une découverte plus efficace des informations et à une prise de décision plus éclairée.
Note
L'intégration de Web Crawler prend uniquement en charge l'ingestion de données. Il ne fournit pas de fonctionnalités d'action pour gérer des sites Web ou des services Web.
Avant de commencer
Avant de configurer l'intégration de Web Crawler, assurez-vous de disposer des éléments suivants :
-
Site Web URLs à explorer et à indexer.
-
Abonnement Amazon Quick Suite Enterprise
-
Le site Web que vous souhaitez explorer doit être public et ne doit pas se trouver derrière un pare-feu ou nécessiter des plug-ins de navigateur spéciaux pour se connecter.
Préparer l'accès au site Web et l'authentification
Avant de configurer l'intégration dans Amazon Quick Suite, préparez les informations d'accès à votre site Web. L'intégration de Web Crawler prend en charge différentes méthodes d'authentification en fonction de votre rôle d'utilisateur :
- Aucune authentification
-
Disponible pour tous les utilisateurs. À utiliser pour explorer les sites Web publics qui ne nécessitent pas d'authentification.
- Authentification de base
-
Authentification HTTP de base standard pour les sites Web sécurisés. L'authentification HTTP de base est un moyen simple de protéger les ressources Web en exigeant un nom d'utilisateur et un mot de passe. Lorsque vous visitez un site protégé à l'aide de l'authentification de base, votre navigateur affiche une boîte de dialogue contextuelle vous demandant vos informations d'identification.
Informations d'identification requises :
-
URL de la page de connexion : URL de la page de connexion
Nom d'utilisateur - Nom d'utilisateur d'authentification de base
Mot de passe - Mot de passe d'authentification de base
-
- Authentification par formulaire
-
Pour les sites Web qui utilisent des pages de connexion basées sur des formulaires HTML.
Le formulaire est configuré pour que vous puissiez le spécifier. XPath XPath (XML Path Language) est un langage de requête utilisé pour parcourir les éléments et les attributs d'un document HTML ou XML. XPath Pour identifier un élément de page Web, un utilisateur peut utiliser les outils de développement de son navigateur, généralement accessibles en cliquant avec le bouton droit sur l'élément souhaité et en sélectionnant « Inspecter » ou en appuyant sur F12. Une fois que l'élément est surligné dans les outils de développement, l'utilisateur peut cliquer avec le bouton droit sur le code HTML correspondant, sélectionner « Copier », puis choisir « Copier XPath » dans le sous-menu. Cela génère un chemin unique qui identifie l'emplacement exact de l'élément dans la structure du document. Le résultat XPath peut ressembler à //input [@id ='username'] ou //button [@type ='submit'], où les barres obliques doubles (//) indiquent que le chemin peut commencer n'importe où dans le document, et les crochets contiennent des attributs qui aident à identifier l'élément spécifique.
Informations requises :
URL de la page de connexion - URL du formulaire de connexion (par exemple,
https://example.com/login)Nom d'utilisateur - Nom d'utilisateur de connexion
Mot de passe - Mot de passe de connexion
Champ de nom d'utilisateur XPath - XPath vers le champ de saisie du nom d'utilisateur (par exemple,
//input[@id='username'])-
Bouton du nom d'utilisateur XPath (facultatif) - XPath vers le champ du bouton du nom d'utilisateur (par exemple,
//input[@id='username_button']) Champ de mot de passe XPath - XPath vers le champ de saisie du mot de passe (par exemple,
//input[@id='password'])Bouton de mot de passe XPath - XPath vers le bouton de mot de passe (par exemple,
//button[@type='password'])
- Authentification SAML
-
Pour les sites Web qui utilisent l'authentification unique basée sur SAML.
L'authentification SAML (Security Assertion Markup Language) est une norme d'identité fédérée qui permet l'authentification unique (SSO) en permettant aux utilisateurs de s'authentifier via un fournisseur d'identité centralisé plutôt que de saisir leurs informations d'identification directement dans chaque application. Contrairement à l'authentification par formulaire traditionnelle où les utilisateurs saisissent leur nom d'utilisateur et leur mot de passe dans les champs de la page de connexion de l'application, le SAML redirige les utilisateurs vers le fournisseur d'identité de leur organisation (tel que Microsoft Azure AD ou Okta) pour s'authentifier, puis renvoie un jeton sécurisé à l'application pour accorder l'accès. Cette approche fournit une expérience utilisateur fluide sur plusieurs applications, une gestion centralisée des utilisateurs pour les administrateurs informatiques et une sécurité renforcée grâce à des fonctionnalités telles que l'authentification multifactorielle, tandis que l'authentification par formulaire nécessite une gestion des informations d'identification distincte pour chaque application individuelle
Informations requises :
URL de la page de connexion : URL de la page de connexion SAML
Nom d'utilisateur - nom d'utilisateur SAML
Mot de passe - mot de passe SAML
-
Champ de nom d'utilisateur XPath - XPath vers le champ de saisie du nom d'utilisateur (par exemple,
//input[@id='username']) -
Bouton du nom d'utilisateur XPath (facultatif) - XPath vers le champ du bouton du nom d'utilisateur (par exemple,
//input[@id='username_button']) -
Champ de mot de passe XPath - XPath vers le champ de saisie du mot de passe (par exemple,
//input[@id='password']) -
Bouton de mot de passe XPath - XPath vers le bouton de mot de passe (par exemple,
//button[@type='password'])
XPath exemples de configuration
Utilisez ces XPath exemples pour configurer le formulaire et l'authentification SAML :
Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]
Configurer l'intégration de Web Crawler
Après avoir préparé les exigences d'accès à votre site Web, créez l'intégration Web Crawler dans Amazon Quick Suite.
-
Dans la console Amazon Quick Suite, choisissez Integrations.
-
Choisissez Web Crawler dans les options d'intégration, puis cliquez sur le bouton Ajouter (plus le bouton « + »).
-
Choisissez Accéder aux données depuis Web Crawler. L'intégration de Web Crawler prend uniquement en charge l'accès aux données ; l'exécution d'actions n'est pas disponible pour l'exploration Web.
-
Configurez les détails de l'intégration et la méthode d'authentification, puis créez des bases de connaissances selon vos besoins.
-
Sélectionnez le type d'authentification pour l'intégration de votre robot d'exploration Web.
-
Renseignez les informations requises en fonction de la méthode d'authentification que vous avez sélectionnée.
-
Sélectionnez Créer et continuer.
-
Renseignez le nom et la description de votre base de connaissances.
-
Ajoutez le contenu URLs que vous souhaitez explorer.
-
Sélectionnez Créer.
-
Après avoir cliqué sur Créer, la synchronisation des données démarre automatiquement.
Configuration de l'exploration
Vous pouvez configurer les sites Web et les pages à explorer et comment filtrer le contenu.
Configuration URLs et sources de contenu
Configurez les sites Web et les pages à explorer :
Directement URLs
Spécifiez URLs la personne à explorer :
https://example.com/docs https://example.com/blog https://example.com/support
Limite : 10 maximum URLs par jeu de données
Filtres de contenu et paramètres d'exploration
Paramètres du Crawl Scope
Pour afficher ces paramètres, vous devez d'abord configurer une base de connaissances, puis examiner l'option des paramètres avancés.
- Profondeur du crawl
-
Plage : 0 à 10 (par défaut : 1)
0 = crawl uniquement spécifié URLs
1 = inclure les pages liées d'un niveau de profondeur
Les valeurs les plus élevées suivent les liens plus profonds dans le site
- Nombre maximum de liens par page
-
Par défaut: 1000
Maximum : 1 000.
Contrôle le nombre de liens à suivre sur chaque page
- Durée d’Attente
-
Valeur par défaut : 1
-
Durée pendant laquelle le robot d'exploration Web attendra pour chaque page une fois que celle-ci aura atteint l'état « page prête ». Cela est utile pour les pages qui ont des caractéristiques de chargement JavaScript dynamiques où la page comporte des blocs de contenu qui se chargent après le chargement du modèle principal. Augmentez le temps d'attente si vous avez un contenu visuellement riche ou si vous prévoyez des temps de chargement élevés.
Gérer les bases de connaissances
Après avoir configuré l'intégration de votre Web Crawler, vous pouvez créer et gérer des bases de connaissances à partir du contenu de votre site Web exploré.
Modifier les bases de connaissances existantes
Vous pouvez modifier vos bases de connaissances Web Crawler existantes :
-
Dans la console Amazon Quick Suite, sélectionnez Knowledge bases.
-
Sélectionnez votre base de connaissances Web Crawler dans la liste.
-
Cliquez sur l'icône à trois points sous Actions, puis sélectionnez Modifier la base de connaissances.
-
Mettez à jour vos paramètres de configuration selon vos besoins et choisissez Enregistrer.
Création de bases de connaissances supplémentaires
Vous pouvez créer plusieurs bases de connaissances à partir de la même intégration de Web Crawler :
-
Dans la console Amazon Quick Suite, choisissez Integrations, puis sélectionnez l'onglet Data.
-
Choisissez votre intégration Web Crawler existante dans la liste.
-
Cliquez sur l'icône à trois points sous Actions, puis choisissez Créer une base de connaissances.
-
Configurez les paramètres de votre base de connaissances et choisissez Create.
Pour des informations détaillées sur les options de configuration de la base de connaissances, consultezParamètres de configuration courants.
Pièces jointes et exploration de fichiers
Contrôlez si le système traite les fichiers et les pièces jointes liés à des pages Web :
-
Activer l'analyse des pièces jointes : sélectionnez cette option pour analyser et indexer les fichiers et les pièces jointes présents sur les pages Web PDFs, tels que les documents et les fichiers multimédia.
Comportement d'exploration et configuration de synchronisation
Votre intégration à Web Crawler suit les pratiques d'exploration suivantes :
Modèle de synchronisation incrémentielle : la première synchronisation effectue une analyse complète, les synchronisations suivantes ne capturent que les modifications
Rétentative automatique : logique de nouvelle tentative intégrée pour les demandes ayant échoué
Gestion des doublons : détection et gestion automatiques des URLs
Identification du robot : s'identifie avec la chaîne d'agent utilisateur « aws-quick-on-behalf -of- <UUID>» dans les en-têtes de demande
Conformité à Robots.txt
Web Crawler respecte le protocole robots.txt et respecte l'agent utilisateur et les allow/disallow directives. Cela vous permet de contrôler la manière dont le robot accède à votre site.
Comment fonctionne la vérification du fichier robots.txt
Vérification au niveau de l'hôte : Web Crawler lit les fichiers robots.txt au niveau de l'hôte (par exemple, exemple.com/robots.txt)
Prise en charge de plusieurs hôtes : pour les domaines comportant plusieurs hôtes, Web Crawler respecte les règles relatives aux robots pour chaque hôte séparément
Comportement de remplacement : si Web Crawler ne parvient pas à récupérer le fichier robots.txt en raison d'un blocage, d'erreurs d'analyse ou d'un délai d'attente, il se comportera comme si robots.txt n'existait pas et explorera le site
Champs robots.txt pris en charge
Web Crawler reconnaît les champs robots.txt suivants (les noms des champs ne distinguent pas les majuscules des minuscules, les valeurs distinguent les majuscules et minuscules) :
user-agentIdentifie à quel robot les règles s'appliquent
allowUn chemin d'URL qui peut être exploré
disallowUn chemin d'URL qui ne peut pas être exploré
sitemapL'URL complète d'un plan du site
crawl-delayDurée spécifiée (en secondes) d'attente entre les demandes adressées à votre site Web
Support des balises Meta
Web Crawler prend en charge les balises méta de robots au niveau des pages que vous pouvez utiliser pour contrôler la manière dont vos données sont utilisées. Vous pouvez définir les paramètres au niveau de la page en incluant une balise méta sur les pages HTML ou dans un en-tête HTTP.
Balises méta prises en charge
noindexN'indexez pas la page. Si vous ne spécifiez pas cette règle, la page peut être indexée et éligible pour apparaître dans les expériences
nofollowNe suivez pas les liens de cette page. Si vous ne spécifiez pas cette règle, Web Crawler peut utiliser les liens de la page pour découvrir ces pages liées
Vous pouvez combiner plusieurs valeurs à l'aide d'une virgule (par exemple, « noindex, nofollow »).
Note
Pour détecter les balises méta, Web Crawler doit accéder à votre page. Ne bloquez donc pas votre page avec le fichier robots.txt, car cela empêcherait qu'elle soit à nouveau analysée.
Résolution de problème
Utilisez cette section pour résoudre les problèmes courants liés à l'intégration de Web Crawler.
Authentication failures (Échecs d’authentification)
Symptômes :
Messages d'erreur « Impossible d'authentifier »
Réponses HTTP 401/403
Boucles de redirection de la page de connexion
Erreurs de temporisation de session
Étapes de résolution :
Vérifiez que le site est accessible depuis la AWS région où l'instance Amazon Quick Suite est configurée
Vérifiez l'exactitude des informations d'identification et assurez-vous qu'elles n'ont pas expiré
Vérifiez la disponibilité et l'accessibilité des terminaux d'authentification
Validez les XPath configurations en les testant dans les outils de développement du navigateur
Consultez les journaux réseau du navigateur pour comprendre le flux d'authentification
Assurez-vous que l'URL de la page de connexion est correcte et accessible
Testez l'authentification manuellement en utilisant les mêmes informations d'identification
Problèmes d'accès et de connectivité
Symptômes :
Délais de connexion et erreurs réseau
Erreurs d'inaccessibilité du réseau
Défaillances de résolution DNS
Étapes de résolution :
-
Vérifiez la connectivité réseau aux sites Web cibles
-
Validez l'accessibilité du site :
Vérifiez la résolution DNS pour les domaines cibles
Vérifier la SSL/TLS configuration et les certificats
Testez l'accès depuis différents réseaux si possible
Problèmes de crawl et de contenu
Symptômes :
Contenu manquant ou incomplet
Analyses incomplètes ou résiliation anticipée
Erreurs de limitation du débit (429 réponses)
Le contenu n'est pas correctement indexé
Étapes de résolution :
-
Passez en revue les restrictions du fichier robots.txt :
Vérifiez les restrictions d'exploration dans le fichier robots.txt
Vérifiez que le robot d'exploration est autorisé à accéder aux chemins cibles
Assurez-vous que la conformité du fichier robots.txt ne bloque pas le contenu
-
Vérifiez la limitation du débit et l'étranglement :
Surveillez les en-têtes de réponse pour obtenir des informations sur les limites de débit
Implémenter des délais de crawl appropriés
-
Vérifiez les modèles d'URL et les filtres :
Testez la précision des modèles de regex
Vérifiez le formatage et la structure de l'URL
Valider la logique du include/exclude modèle
-
Vérifiez les restrictions relatives au contenu :
Vérifiez la présence de balises méta noindex sur les pages
Vérifier la prise en charge des types de contenu
Assurez-vous que la taille du contenu est dans les limites
-
Mettez à jour le temps d'attente à une valeur appropriée afin que le contenu soit chargé sur la page avant que l'explorateur n'essaie de l'explorer.
Limitations connues
L'intégration de Web Crawler présente les limites suivantes :
Limites d'URL : maximum de 10 URLs, plan du site non pris en charge
Profondeur de rampage : profondeur de rampage maximale de 10 niveaux
Exigences de sécurité : HTTPS requis pour les configurations de proxy Web