Explorez les pages Web de votre base de connaissances Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Explorez les pages Web de votre base de connaissances Amazon Bedrock

Note

L'exploration des URL Web en tant que source de données est en version préliminaire et peut faire l'objet de modifications.

Le Web Crawler fourni par Amazon Bedrock se connecte aux URL que vous avez sélectionnées pour les utiliser dans votre base de connaissances Amazon Bedrock et les explore. Vous pouvez explorer les pages du site Web conformément à l'étendue ou aux limites que vous avez définies pour les URL que vous avez sélectionnées. Vous pouvez explorer les pages d'un site Web à l'aide de la console AWS de gestion d'Amazon Bedrock ou de l'CreateDataSourceAPI (voir SDK pris en charge par Amazon Bedrock et). AWS CLI

Lorsque vous sélectionnez des sites Web à explorer, vous devez respecter la politique d'utilisation acceptable d'Amazon et toutes les autres conditions d'Amazon. N'oubliez pas que vous ne devez utiliser le Web Crawler que pour indexer vos propres pages Web ou les pages Web que vous êtes autorisé à explorer.

Fonctionnalités prises en charge

Le Web Crawler se connecte aux pages HTML et les explore à partir de l'URL de départ, en parcourant tous les liens enfants situés dans le même domaine principal et le même chemin d'accès principaux. Si l'une des pages HTML fait référence à des documents pris en charge, le Web Crawler récupérera ces documents, qu'ils se trouvent ou non dans le même domaine principal principal principal. Vous pouvez modifier le comportement d'exploration en modifiant la configuration d'exploration - voir. Configuration de connexion

Les éléments suivants sont pris en charge pour vous permettre de :

  • Sélectionnez plusieurs URL à explorer

  • Respectez les directives standard de robots.txt telles que « Allow » et « Disallow »

  • Limitez la portée des URL à explorer et excluez éventuellement les URL qui correspondent à un modèle de filtre

  • Limitez le taux d'exploration des URL

  • Afficher le statut des URL visitées lors de l'exploration sur Amazon CloudWatch

Prérequis

Pour utiliser le Web Crawler, assurez-vous de :.

  • Vérifiez que vous êtes autorisé à explorer les URL de votre demande

Note

Lorsque vous sélectionnez des sites Web à explorer, vous devez respecter la politique d'utilisation acceptable d'Amazon et toutes les autres conditions d'Amazon. N'oubliez pas que vous ne devez utiliser le Web Crawler que pour indexer vos propres pages Web ou les pages Web que vous êtes autorisé à explorer.

Configuration de connexion

Pour plus d'informations sur l'étendue de synchronisation pour l'analyse des URL, les filtres d'inclusion/exclusion, l'accès aux URL, la synchronisation incrémentielle et leur fonctionnement, sélectionnez ce qui suit :

Vous pouvez limiter l'étendue des URL à explorer en fonction de la relation spécifique de chaque URL de page avec les URL de départ. Pour accélérer les analyses, vous pouvez limiter les URL à celles qui ont le même hôte que l'URL de départ et dont le chemin inclut le chemin de l'URL de départ. Pour des analyses plus complètes, vous pouvez limiter les URL à celles qui se trouvent sous le même hôte ou dans n'importe quel sous-domaine de l'URL de départ.

Vous pouvez limiter davantage la portée des URL à explorer en fournissant éventuellement des filtres d'inclusion et d'exclusion. Il s'agit de modèles d'expressions régulières qui sont comparés à une URL sélectionnée. Si une URL sélectionnée correspond à un filtre d'exclusion, elle ne sera pas analysée. Si des filtres d'inclusion sont fournis, le robot d'exploration ne tentera de récupérer une URL que si elle correspond à au moins un filtre d'inclusion.

Vous pouvez utiliser le Web Crawler pour explorer les pages des sites Web que vous êtes autorisé à explorer.

Note

Lorsque vous sélectionnez des sites Web à explorer, vous devez respecter la politique d'utilisation acceptable d'Amazon et toutes les autres conditions d'Amazon. N'oubliez pas que vous ne devez utiliser le Web Crawler que pour indexer vos propres pages Web ou les pages Web que vous êtes autorisé à explorer.

Chaque fois que le Web Crawler s'exécute, il récupère le contenu de toutes les URL accessibles depuis les URL sources et qui correspondent à la portée et aux filtres. Pour les synchronisations incrémentielles après la première synchronisation de l'ensemble du contenu, Amazon Bedrock mettra à jour votre base de connaissances avec du contenu nouveau et modifié, et supprimera l'ancien contenu qui n'est plus présent. Parfois, le robot d'exploration peut ne pas être en mesure de savoir si le contenu a été supprimé du site Web ; dans ce cas, il préférera conserver l'ancien contenu de votre base de connaissances.

Pour synchroniser votre source de données avec votre base de connaissances, utilisez l'StartIngestionJobAPI ou sélectionnez votre base de connaissances dans la console et sélectionnez Synchroniser dans la section de présentation de la source de données.

Important

Toutes les données que vous synchronisez à partir de votre source de données sont accessibles à bedrock:Retrieve toute personne autorisée à les récupérer. Cela peut également inclure toutes les données dont les autorisations de source de données sont contrôlées. Pour plus d'informations, consultez la section Autorisations de la base de connaissances.

Console

Les étapes suivantes permettent de configurer Web Crawler pour votre base de connaissances Amazon Bedrock. Vous configurez Web Crawler dans le cadre des étapes de création de la base de connaissances dans la console.

  1. Connectez-vous à l' AWS Management Console aide d'un rôle IAM avec les autorisations Amazon Bedrock et ouvrez la console Amazon Bedrock à l'adresse https://console.aws.amazon.com/bedrock/.

  2. Dans le volet de navigation de gauche, sélectionnez Bases de connaissances.

  3. Dans la section Bases de connaissances, sélectionnez Créer une base de connaissances.

  4. Fournissez les détails de la base de connaissances.

    1. Indiquez le nom de la base de connaissances et une description facultative.

    2. Indiquez le AWS Identity and Access Management rôle correspondant aux autorisations d'accès nécessaires à la création d'une base de connaissances.

      Note

      Le IAM rôle doté de toutes les autorisations requises peut être créé pour vous dans le cadre des étapes de la console pour créer une base de connaissances. Une fois que vous avez terminé les étapes de création d'une base de connaissances, le IAM rôle doté de toutes les autorisations requises est appliqué à votre base de connaissances spécifique.

    3. Créez les balises que vous souhaitez attribuer à votre base de connaissances.

    Passez à la section suivante pour configurer votre source de données.

  5. Choisissez Web Crawler comme source de données et fournissez les détails de configuration.

    (Facultatif) Modifiez le nom de la source de données par défaut et entrez une description.

  6. Indiquez les URL sources des URL que vous souhaitez explorer. Vous pouvez ajouter jusqu'à 9 URL supplémentaires en sélectionnant Ajouter des URL source. En fournissant une URL source, vous confirmez que vous êtes autorisé à explorer son domaine.

  7. Vérifiez les paramètres avancés. Vous pouvez éventuellement modifier les paramètres sélectionnés par défaut.

    Pour KMS key les paramètres, vous pouvez choisir une clé personnalisée ou utiliser la clé de chiffrement des données fournie par défaut.

    Lors de la conversion de vos données en données incorporées, Amazon Bedrock chiffre vos données transitoires à l'aide d'une clé qui les AWS possède et les gère par défaut. Vous pouvez utiliser votre propre clé KMS. Pour plus d’informations, consultez Chiffrement du stockage des données transitoires lors de l’ingestion de données.

    Pour les paramètres de politique de suppression des données, vous pouvez choisir l'une des options suivantes :

    • Supprimer : Supprime toutes les données appartenant à la source de données du magasin vectoriel lors de la suppression d'une base de connaissances ou d'une ressource de source de données. Notez que le magasin vectoriel sous-jacent lui-même n'est pas supprimé, seules les données sont supprimées. Ce drapeau est ignoré si un AWS compte est supprimé.

    • Conserver : conserve toutes les données de votre magasin vectoriel lors de la suppression d'une base de connaissances ou d'une ressource de source de données.

  8. Sélectionnez l'étendue de synchronisation. Sélectionnez Par défaut, Hôte uniquement ou Sous-domaines. Entrez des valeurs pour le filtre d'inclusion et d'exclusion afin de limiter davantage la portée de l'analyse. Chaque fois que le Web Crawler s'exécute, il récupère le contenu de toutes les URL accessibles depuis les URL sources et qui correspondent à la portée et aux filtres. Pour les synchronisations progressives effectuées après la première fois, Amazon Bedrock mettra à jour votre base de connaissances avec du contenu nouveau et modifié, et supprimera l'ancien contenu qui n'est plus présent. Pour des analyses plus complètes, vous pouvez limiter les URL à celles qui ont le même domaine principal que les URL de départ. En configurant la source de données pour explorer un site Web, vous confirmez que vous êtes autorisé à le faire.

  9. Entrez Limitation maximale de la vitesse de rampage. Ingérez des URL entre 1 et 300 URL par hôte et par minute. Une vitesse de rampage plus élevée augmente les coûts mais prend moins de temps.

  10. Pour le modèle d'URL (facultatif), vous pouvez ajouter des modèles d'inclusion ou d'exclusion en saisissant le modèle d'expression régulière dans le champ. Vous pouvez ajouter jusqu'à 25 modèles de filtre d'inclusion et 25 modèles d'exclusion en sélectionnant Ajouter un nouveau modèle.

  11. Choisissez les configurations de segmentation et d'analyse par défaut ou personnalisées.

    1. Si vous choisissez des paramètres personnalisés, sélectionnez l'une des options de découpage suivantes :

      • Fragmentation à taille fixe : le contenu est divisé en morceaux de texte de la taille approximative du jeton que vous avez définie. Vous pouvez définir le nombre maximum de jetons qui ne doit pas dépasser pour un bloc et le pourcentage de chevauchement entre des segments consécutifs.

      • Fragmentation par défaut : le contenu est divisé en blocs de texte contenant jusqu'à 300 jetons. Si un seul document ou élément de contenu contient moins de 300 jetons, le document n'est pas scindé davantage.

      • Découpage hiérarchique : contenu organisé en structures imbriquées de segments parent-enfant. Vous définissez la taille maximale du jeton parent et la taille maximale du jeton du fragment enfant. Vous définissez également le nombre absolu de jetons superposés entre chaque bloc parent et le parent associé à chaque enfant.

      • Découpage sémantique : contenu organisé en blocs de texte ou groupes de phrases sémantiquement similaires. Vous définissez le nombre maximum de phrases entourant la phrase cible/en cours à regrouper (taille de la mémoire tampon). Vous définissez également le seuil du percentile d'arrêt pour diviser le texte en segments significatifs.

      • Pas de découpage : chaque document est traité comme un bloc de texte unique. Vous souhaiterez peut-être prétraiter vos documents en les divisant en fichiers distincts.

      Note

      Vous ne pouvez pas modifier la stratégie de segmentation après avoir créé la source de données.

    2. Vous pouvez choisir d'utiliser Amazon Bedrock le modèle de base pour analyser des documents afin d'analyser plus que du texte standard. Vous pouvez analyser des données tabulaires dans des documents avec leur structure intacte, par exemple. Consultez Amazon Bedrock les tarifs pour obtenir des informations sur le coût des modèles de base.

    3. Vous pouvez choisir d'utiliser une AWS Lambda fonction pour personnaliser votre stratégie de segmentation et la manière dont les attributs/champs de métadonnées de votre document sont traités et ingérés. Indiquez l'emplacement du Amazon S3 compartiment pour l'entrée et la sortie de la fonction Lambda.

    Passez à la section suivante pour configurer votre magasin de vecteurs.

  12. Choisissez un modèle pour convertir vos données en intégrations vectorielles.

    Créez une boutique vectorielle pour permettre à Amazon Bedrock de stocker, de mettre à jour et de gérer les intégrations. Vous pouvez créer rapidement un nouveau magasin de vecteurs ou sélectionner l'un des magasins de vecteurs pris en charge que vous avez créé. Si vous créez une nouvelle boutique vectorielle, une collection et un index de recherche vectorielle Amazon OpenSearch Serverless contenant les champs obligatoires sont configurés pour vous. Si vous effectuez une sélection dans un magasin de vecteurs pris en charge, vous devez mapper les noms des champs vectoriels et les noms des champs de métadonnées.

    Passez à la section suivante pour passer en revue les configurations de votre base de connaissances.

  13. Consultez les détails de votre base de connaissances. Vous pouvez modifier n'importe quelle section avant de créer votre base de connaissances.

    Note

    Le temps nécessaire à la création de la base de connaissances dépend de la quantité de données que vous ingérez et de vos configurations spécifiques. Lorsque la création de la base de connaissances est terminée, le statut de la base de connaissances passe à Prêt.

    Une fois que votre base de connaissances est prête ou que sa création est terminée, synchronisez votre source de données pour la première fois et chaque fois que vous souhaitez maintenir votre contenu à jour. Sélectionnez votre base de connaissances dans la console, puis sélectionnez Synchroniser dans la section de présentation des sources de données.

CLI

Voici un exemple de configuration de Web Crawler pour votre base de connaissances Amazon Bedrock.

{ "webConfiguration": { "sourceConfiguration": { "urlConfiguration": { "seedUrls": [{ "url": "https://www.examplesite.com" }] } }, "crawlerConfiguration": { "crawlerLimits": { "rateLimit": 50 }, "scope": "HOST_ONLY", "inclusionFilters": [ "https://www\.examplesite\.com/.*\.html" ], "exclusionFilters": [ "https://www\.examplesite\.com/contact-us\.html" ] } }, "type": "WEB" }