Amazon Kendra Connecteur Web Crawler v1.0 - Amazon Kendra

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Amazon Kendra Connecteur Web Crawler v1.0

Vous pouvez utiliser Amazon Kendra Web Crawler pour explorer et indexer des pages Web.

Vous ne pouvez explorer que les sites Web destinés au public et les sites Web qui utilisent le protocole de communication sécurisé Hypertext Transfer Protocol Secure (HTTPS). Si vous recevez un message d'erreur lors de l'indexation d'un site web, cela signifie peut-être que l'indexation du site web est bloquée. Pour explorer des sites Web internes, vous pouvez configurer un proxy Web. Le proxy Web doit être accessible au public.

Lorsque vous sélectionnez des sites web à indexer, vous devez respecter les Politiques d'Amazon en matière d'utilisation acceptable et toutes les autres conditions d'Amazon. N'oubliez pas que vous ne devez utiliser Amazon Kendra Web Crawler que pour indexer vos propres pages Web ou les pages Web que vous êtes autorisé à indexer. Pour savoir comment empêcher Amazon Kendra Web Crawler d'indexer vos sites Web, consultez. Configuration du robots.txt fichier pour Amazon Kendra Web Crawler

Note

L'utilisation abusive de Amazon Kendra Web Crawler pour explorer agressivement des sites Web ou des pages Web qui ne vous appartiennent pas n'est pas considérée comme une utilisation acceptable.

Pour résoudre les problèmes liés au connecteur de source de données de votre robot d'exploration Amazon Kendra Web, consultezDépannage des sources de données.

Fonctionnalités prises en charge

  • Proxy Web

  • Filtres d'inclusion/exclusion

Prérequis

Avant de pouvoir Amazon Kendra indexer vos sites Web, vérifiez les détails de vos sites Web et de vos AWS comptes.

Pour vos sites Web, assurez-vous d'avoir :

  • Vous avez copié les URL de départ ou de plan de site des sites Web que vous souhaitez indexer.

  • Pour les sites Web qui nécessitent une authentification de base : notez le nom d'utilisateur et le mot de passe, puis copiez le nom d'hôte du site Web et le numéro de port.

  • Facultatif : vous avez copié le nom d'hôte du site Web et le numéro de port si vous souhaitez utiliser un proxy Web pour vous connecter aux sites Web internes que vous souhaitez explorer. Le proxy Web doit être accessible au public. Amazon Kendra prend en charge la connexion à des serveurs proxy Web basés sur une authentification de base ou vous pouvez vous connecter sans authentification.

  • Coché : chaque document de page Web que vous souhaitez indexer est unique et que vous comptez utiliser pour le même index parmi les autres sources de données. Chaque source de données que vous souhaitez utiliser pour un index ne doit pas contenir le même document dans toutes les sources de données. Les identifiants de document sont globaux à un index et doivent être uniques par index.

Dans votre AWS compte, assurez-vous d'avoir :

  • Création d'un Amazon Kendra index et, si vous utilisez l'API, notez l'ID de l'index.

  • Vous avez créé un IAM rôle pour votre source de données et, si vous utilisez l'API, notez l'ARN du IAM rôle.

    Note

    Si vous modifiez votre type d'authentification et vos informations d'identification, vous devez mettre à jour votre IAM rôle pour accéder au bon identifiant AWS Secrets Manager secret.

  • Pour les sites Web qui nécessitent une authentification, ou s'ils utilisent un proxy Web avec authentification, stockez vos informations d'authentification dans un AWS Secrets Manager secret et, si vous utilisez l'API, notez l'ARN du secret.

    Note

    Nous vous recommandons d'actualiser ou de modifier régulièrement vos informations d'identification et votre code secret. Fournissez uniquement le niveau d'accès nécessaire pour votre propre sécurité. Nous vous déconseillons de réutiliser les informations d'identification et les secrets entre les sources de données et les versions 1.0 et 2.0 du connecteur (le cas échéant).

Si vous n'avez pas de IAM rôle ou de secret existant, vous pouvez utiliser la console pour créer un nouveau IAM rôle et un nouveau Secrets Manager secret lorsque vous connectez votre source de web crawler données à Amazon Kendra. Si vous utilisez l'API, vous devez fournir l'ARN d'un IAM rôle et d'un Secrets Manager secret existants, ainsi qu'un identifiant d'index.

Instructions de connexion

Pour vous connecter Amazon Kendra à votre source de web crawler données, vous devez fournir les informations nécessaires sur votre source de web crawler données afin de Amazon Kendra pouvoir accéder à vos données. Si vous n'avez pas encore configuré web crawler pour Amazon Kendra voirPrérequis.

Console

Pour vous connecter Amazon Kendra à web crawler

  1. Connectez-vous à la Amazon Kendra console AWS Management Console et ouvrez-la.

  2. Dans le volet de navigation de gauche, choisissez Index, puis choisissez l'index que vous souhaitez utiliser dans la liste des index.

    Note

    Vous pouvez choisir de configurer ou de modifier vos paramètres de contrôle d'accès utilisateur dans les paramètres de l'index.

  3. Sur la page de démarrage, choisissez Ajouter une source de données.

  4. Sur la page Ajouter une source de données, choisissez le connecteur Web Crawler, puis sélectionnez Ajouter un connecteur. Si vous utilisez la version 2 (le cas échéant), choisissez le connecteur Web Crawler avec la balise « V2.0 ».

  5. Sur la page Spécifier les détails de la source de données, entrez les informations suivantes :

    1. Dans Nom et description, pour Nom de la source de données : entrez le nom de votre source de données. Vous pouvez inclure des tirets, mais pas des espaces.

    2. (Facultatif) Description : entrez une description facultative pour votre source de données.

    3. Dans la langue par défaut : choisissez une langue pour filtrer vos documents pour l'index. Sauf indication contraire, la langue par défaut est l'anglais. La langue spécifiée dans les métadonnées du document remplace la langue sélectionnée.

    4. Dans Balises, pour Ajouter une nouvelle balise : incluez des balises facultatives pour rechercher et filtrer vos ressources ou suivre vos AWS coûts.

    5. Choisissez Suivant.

  6. Sur la page Définir l'accès et la sécurité, entrez les informations suivantes :

    1. Pour Source, choisissez entre les URL source et les plans de site source en fonction de votre cas d'utilisation et entrez les valeurs pour chacune d'elles.

      Vous pouvez ajouter jusqu'à 10 URL sources et trois plans de site.

      Note

      Si vous souhaitez explorer un plan du site, vérifiez que l'URL de base ou racine est identique à celle répertoriée sur votre page de plan du site. Par exemple, si l'URL de votre plan de site est https://example.com/sitemap-page.html, les URL répertoriées sur cette page de plan de site doivent également utiliser l'URL de base « https://example.com/ ».

    2. (Facultatif) Pour le proxy Web, entrez les informations suivantes :

      1. Nom d'hôte : nom d'hôte pour lequel un proxy Web est requis.

      2. Numéro de port : port utilisé par le protocole de transport d'URL de l'hôte. Le numéro de port doit être une valeur numérique comprise entre 0 et 65535.

      3. Pour les informations d'identification du proxy Web : si votre connexion au proxy Web nécessite une authentification, choisissez un secret existant ou créez-en un nouveau pour stocker vos informations d'authentification. Si vous choisissez de créer un nouveau secret, une fenêtre AWS Secrets Manager secrète s'ouvre.

      4. Entrez les informations suivantes dans la fenêtre Créer un AWS Secrets Manager Secrets Manager secret :

        1. Nom secret : le nom de votre secret. Le préfixe « AmazonKendra-WebCrawler- » est automatiquement ajouté à votre nom secret.

        2. Pour le nom d'utilisateur et le mot de passe : entrez ces informations d'authentification de base pour vos sites Web.

        3. Choisissez Enregistrer.

    3. (Facultatif) Hôtes avec authentification : sélectionnez cette option pour ajouter des hôtes supplémentaires avec authentification.

    4. IAM rôle —Choisissez un IAM rôle existant ou créez-en un nouveau IAM pour accéder aux informations d'identification de votre référentiel et indexer le contenu.

      Note

      IAM les rôles utilisés pour les index ne peuvent pas être utilisés pour les sources de données. Si vous ne savez pas si un rôle existant est utilisé pour un index ou une FAQ, choisissez Créer un nouveau rôle pour éviter les erreurs.

    5. Choisissez Suivant.

  7. Sur la page Configurer les paramètres de synchronisation, entrez les informations suivantes :

    1. Plage d'exploration : choisissez le type de pages Web que vous souhaitez explorer.

    2. Profondeur du crawl —Sélectionnez le nombre de niveaux à partir de l'URL de départ qui Amazon Kendra doivent être explorés.

    3. Paramètres d'exploration avancés et Configuration supplémentaire saisissez les informations suivantes :

      1. Taille de fichier maximale : taille maximale de page Web ou de pièce jointe à analyser. Minimum 0,000001 Mo (1 octet). 50 Mo maximum.

      2. Nombre maximum de liens par page : nombre maximal de liens analysés par page. Les liens sont explorés par ordre d'apparition. Minimum 1 lien/page. Maximum de 1 000 liens/page.

      3. Limitation maximale : nombre maximum d'URL analysées par nom d'hôte par minute. Minimum 1 URL/nom d'hôte/minute. Maximum de 300 URL/nom d'hôte/minute.

      4. Modèles Regex : ajoutez des modèles d'expressions régulières pour inclure ou exclure certaines URL. Vous pouvez ajouter jusqu'à 100 motifs.

    4. Dans Synchroniser le calendrier d'exécution, pour Fréquence : choisissez la fréquence de synchronisation avec votre source de données. Amazon Kendra

    5. Choisissez Suivant.

  8. Sur la page Réviser et créer, vérifiez que les informations saisies sont correctes, puis sélectionnez Ajouter une source de données. Vous pouvez également choisir de modifier vos informations depuis cette page. Votre source de données apparaîtra sur la page Sources de données une fois que la source de données aura été ajoutée avec succès.

API

Pour vous connecter Amazon Kendra à web crawler

Vous devez spécifier les éléments suivants à l'aide de l'WebCrawlerConfigurationAPI :

  • URL —Spécifiez les URL de départ ou de point de départ des sites Web ou les URL du plan du site Web que vous souhaitez explorer à l'aide de et. SeedUrlConfigurationSiteMapsConfiguration

    Note

    Si vous souhaitez explorer un plan du site, vérifiez que l'URL de base ou racine est identique à celle répertoriée sur votre page de plan du site. Par exemple, si l'URL de votre plan de site est https://example.com/sitemap-page.html, les URL répertoriées sur cette page de plan de site doivent également utiliser l'URL de base « https://example.com/ ».

  • Nom de ressource Amazon secret (ARN) : si un site Web nécessite une authentification de base, vous fournissez le nom d'hôte, le numéro de port et un secret qui stocke vos informations d'authentification de base, à savoir votre nom d'utilisateur et votre mot de passe. Vous fournissez l'ARN secret à l'aide de l'AuthenticationConfigurationAPI. Le secret est stocké dans une structure JSON avec les clés suivantes :

    { "username": "user name", "password": "password" }

    Vous pouvez également fournir les informations d'identification du proxy Web à l'aide d'un AWS Secrets Manager secret. Vous utilisez l'ProxyConfigurationAPI pour fournir le nom d'hôte et le numéro de port du site Web, et éventuellement le secret qui stocke vos informations d'identification de proxy Web.

  • IAM role —Spécifiez à quel RoleArn moment vous appelez CreateDataSource pour fournir à un IAM rôle les autorisations d'accéder à votre Secrets Manager secret et pour appeler les API publiques requises pour le connecteur Web Crawler et. Amazon Kendra Pour plus d'informations, consultez la section IAM Rôles des sources de données des robots d'exploration Web.

Vous pouvez également ajouter les fonctionnalités optionnelles suivantes :

  • Mode d'exploration : choisissez d'explorer uniquement les noms d'hôtes des sites Web ou les noms d'hôtes avec des sous-domaines, ou d'explorer également les autres domaines vers lesquels les pages Web renvoient.

  • La « profondeur » ou le nombre de niveaux entre le niveau de la graine et le rampage. Par exemple, la page URL initiale est de profondeur 1 et tous les hyperliens de cette page qui sont également explorés ont une profondeur de 2.

  • Le nombre maximum d'URL à explorer sur une même page Web.

  • Taille maximale en Mo d'une page Web à explorer.

  • Le nombre maximal d'URL indexées par hôte de site web et par minute.

  • L'hôte du proxy Web et le numéro de port pour se connecter aux sites Web internes et les parcourir. Par exemple, le nom d'hôte https://a.example.com/page1.htmlest « a.example.com » et le numéro de port est 443, le port standard pour HTTPS. Si des informations d'identification de proxy Web sont requises pour se connecter à un hébergeur de site Web, vous pouvez en créer un AWS Secrets Manager qui stocke les informations d'identification.

  • Informations d'authentification permettant d'accéder aux sites Web qui nécessitent une authentification utilisateur et de les analyser.

  • Vous pouvez extraire des balises méta HTML sous forme de champs à l'aide de l'outil d'enrichissement de documents personnalisé. Pour plus d'informations, veuillez consulter la rubrique Personnalisation des métadonnées de documents pendant le processus d'intégration. Pour un exemple d'extraction de balises méta HTML, consultez les exemples CDE.

  • Filtres d'inclusion et d'exclusion : spécifiez s'il faut inclure ou exclure certaines URL.

    Note

    La plupart des sources de données utilisent des modèles d'expressions régulières, qui sont des modèles d'inclusion ou d'exclusion appelés filtres. Si vous spécifiez un filtre d'inclusion, seul le contenu correspondant au filtre d'inclusion est indexé. Tout document qui ne correspond pas au filtre d'inclusion n'est pas indexé. Si vous spécifiez un filtre d'inclusion et d'exclusion, les documents correspondant au filtre d'exclusion ne sont pas indexés, même s'ils correspondent au filtre d'inclusion.

En savoir plus

Pour en savoir plus sur l'intégration Amazon Kendra à votre source de web crawler données, consultez :