Ingestion de vecteurs - Amazon OpenSearch Service

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Ingestion de vecteurs

L'ingestion vectorielle vous permet d'ingérer et d'indexer rapidement des OpenSearch domaines et des collections OpenSearch sans serveur. Le service examine votre domaine ou votre collection et crée un pipeline d'ingestion en votre nom dans lequel charger vos données OpenSearch. L'ingestion et l'indexation de votre domaine ou de votre collection sont gérées pour vous par Vector ingestion.

Vous pouvez accélérer et optimiser le processus d'indexation en activant Accélération par GPU pour l'indexation vectorielle et en utilisant des Optimisation automatique fonctionnalités. Avec l'ingestion de vecteurs, vous n'avez pas besoin de gérer l'infrastructure sous-jacente, de patcher le logiciel ou de dimensionner les clusters pour prendre en charge l'indexation et l'ingestion de votre base de données vectorielle. Cela vous permet de créer rapidement votre base de données vectorielle pour répondre à vos besoins.

Comment ça marche

L'ingestion vectorielle examine votre domaine ou votre collection ainsi que leur index. Vous pouvez configurer manuellement vos champs d'index vectoriel ou autoriser OpenSearch l'utilisation de la configuration automatique.

L'ingestion vectorielle utilise OpenSearch l'ingestion (OSI) comme pipeline de données entre Amazon S3 et OpenSearch. Le service traite les vecteurs en parallèle pour optimiser la vitesse d'ingestion tout en respectant les limites d'échelle de l'OSI et OpenSearch.

OpenSearch Tarification de l'ingestion de vecteurs

À un moment donné, vous ne payez OCUs que pour le nombre d'ingestion de vecteurs alloués à un pipeline, que des données circulent ou non dans le pipeline. OpenSearch l'ingestion vectorielle s'adapte immédiatement à vos charges de travail en augmentant ou en diminuant la capacité du pipeline en fonction de l'utilisation.

Pour en savoir plus sur les tarifs, consultez Amazon OpenSearch Service Pricing.

Conditions préalables

Avant d'utiliser l'ingestion vectorielle, assurez-vous de disposer des ressources suivantes :

  • Compartiment Amazon S3 contenant vos documents OpenSearch JSON au format parquet

  • OpenSearch ressource : un domaine ou une collection

  • OpenSearch version 2.19 ou ultérieure (nécessaire pour l'optimisation automatique de l'intégration)

Créer une base de données vectorielle

Utilisez le flux de travail de création de tâches d'ingestion de vecteurs pour configurer le réglage automatique des index vectoriels et accélérer la création d'index à grande échelle.

Note

Le contenu procédural de cette section est susceptible de changer au fur et à mesure que l'interface utilisateur sera finalisée. Le flux de travail sera peut-être mis à jour dans les futures versions afin de refléter l'expérience la plus récente de la console.

Pour créer une tâche d'injection vectorielle
  1. Dans la section Détails de la tâche d'ingestion de vecteurs, dans Nom, entrez le nom de votre tâche d'ingestion.

  2. Dans la section Source de données, configurez les éléments suivants :

    1. Pour l'URI Amazon S3, entrez l'emplacement du compartiment Amazon S3 contenant vos documents OpenSearch Service JSON.

    2. Choisissez Parcourir Amazon S3 pour sélectionner l'un des compartiments disponibles, ou choisissez Afficher pour prévisualiser le contenu du compartiment.

    3. Pour Type de contenu, sélectionnez l'une des options suivantes :

      • Vecteurs - Les documents contiennent déjà des vecteurs et ne nécessitent pas de génération d'intégration vectorielle supplémentaire.

      • Texte, image ou audio : les documents contiennent du contenu tel que du texte, des images ou des octets audio qui doivent être codés sous forme d'intégrations vectorielles.

  3. Dans la section Autorisations de la source de données, configurez les autorisations d'accès :

    1. Pour le rôle IAM, choisissez l'une des options suivantes :

      • Créer un rôle

      • Utiliser un rôle existant

    2. Pour le nom du rôle IAM, entrez un nom pour le rôle.

  4. Dans la section Destination, configurez le point de terminaison du OpenSearch service :

    1. Pour Endpoint, choisissez Choisissez une option pour sélectionner parmi vos domaines ou collections compatibles dans la région actuelle.

    2. Choisissez Next pour continuer avec le point de terminaison sélectionné.

  5. Choisissez Suivant pour passer à l'étape suivante ou cliquez sur Annuler pour quitter sans enregistrer.

L'ingestion de vecteurs fonctionne avec les fonctionnalités Amazon OpenSearch Service suivantes pour optimiser les performances de votre base de données vectorielle :

Accélération par GPU pour l'indexation vectorielle

L'accélération par GPU réduit le temps nécessaire à la création, à la mise à jour et à la suppression des index vectoriels. Lorsqu'il est utilisé avec l'ingestion de vecteurs, vous pouvez accélérer considérablement le processus d'ingestion et d'indexation pour les bases de données vectorielles à grande échelle.

Optimisation automatique

L'optimisation automatique découvre automatiquement les compromis optimaux entre la latence de recherche, la qualité et les besoins en mémoire. L'ingestion de vecteurs peut appliquer des recommandations d'optimisation automatique pendant le processus d'ingestion afin de garantir une configuration optimale de vos index vectoriels.

Pour de meilleurs résultats, pensez à activer à la fois l'accélération par GPU et l'optimisation automatique lorsque vous utilisez l'ingestion de vecteurs pour créer des bases de données vectorielles à grande échelle.