(Vista previa) Importación de vectores de Amazon S3 a OpenSearch Serverless - OpenSearch Servicio Amazon

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

(Vista previa) Importación de vectores de Amazon S3 a OpenSearch Serverless

importante

La integración de Amazon S3 Vectors con el OpenSearch servicio se encuentra en versión preliminar y está sujeta a cambios.

Amazon S3 Vectors ofrece el primer almacén de objetos en la nube con soporte nativo para almacenar y consultar vectores. S3 Vectors proporciona un almacenamiento vectorial rentable, elástico y duradero que se puede consultar en función del significado y la similitud semánticos. Ofrece tiempos de respuesta a las consultas inferiores a un segundo y reduce los costes de carga, almacenamiento y consulta de vectores hasta un 90%.

Amazon S3 Vectors presenta los buckets vectoriales S3, que puede usar para almacenar datos vectoriales, acceder a ellos y consultarlos sin aprovisionar ninguna infraestructura. Dentro de un depósito vectorial, puede organizar sus datos vectoriales en índices vectoriales. El grupo vectorial puede tener varios índices vectoriales y cada índice vectorial puede contener millones de vectores. Para obtener más información, consulte Uso de vectores y buckets vectoriales de Amazon S3 en la Guía del usuario de Amazon S3.

Cada vector consta de:

  • Una clave única

  • Datos vectoriales

  • Metadatos opcionales en formato JSON

Los índices vectoriales admiten las funciones de distancia euclidiana y cosenoidal para las operaciones de búsqueda de similitudes.

nota

La principal ventaja de los cubos vectoriales es su capacidad para almacenar conjuntos de datos masivos a un coste extremadamente bajo, a la vez que proporcionan acceso directo a la API para las operaciones vectoriales.

Para obtener más información sobre los cubos vectoriales de Amazon S3, incluido cómo crear uno, consulte Uso de vectores y cubos vectoriales de Amazon S3 en la Guía del usuario de Amazon S3. Para obtener más información sobre la integración con OpenSearch Service además de lo que se describe en este tema, consulte Uso de S3 Vectors with Service OpenSearch

Puede utilizar S3 Vectors con Amazon OpenSearch Service para reducir el coste del almacenamiento vectorial cuando las consultas son menos frecuentes y, después, trasladar rápidamente esos conjuntos de datos a otros conjuntos de datos a OpenSearch medida que aumente la demanda o para mejorar las capacidades de búsqueda.

OpenSearch El servicio se integra con Amazon S3 Vectors para ofrecer un rendimiento y una funcionalidad mejorados que van más allá de lo que ofrecen los buckets vectoriales de Amazon S3 por sí solos. Considere esta integración cuando necesite:

  • Mayor rendimiento de consultas

  • Latencia de búsqueda inferior a un segundo

  • Capacidades de análisis avanzadas, como las agregaciones

  • Búsqueda híbrida que combina datos de texto y vectoriales

Esta integración es particularmente útil cuando varias aplicaciones consumen los mismos datos vectoriales con diferentes requisitos de rendimiento. Puede hacer que algunas aplicaciones interactúen directamente con los buckets vectoriales de Amazon S3 para casos de uso sensibles a los costes, mientras que otras aprovechan la OpenSearch integración para operaciones de rendimiento crítico.

Arquitectura de integración

La integración utiliza Amazon OpenSearch Ingestion (OSI) como canalización de datos entre los índices vectoriales de Amazon S3 y las colecciones vectoriales de Amazon OpenSearch Serverless. OpenSearch Ingestion exporta automáticamente los datos vectoriales del índice vectorial especificado y los ingiere en colecciones vectoriales OpenSearch sin servidor para realizar operaciones de búsqueda de alto rendimiento.

nota

Tras la exportación, los datos siguen presentes en el índice vectorial S3. Tiene dos copias de los datos.

Cada índice vectorial se asigna a un índice correspondiente de la colección OpenSearch de servicios. La integración:

  • Conserva las dimensiones vectoriales

  • Conserva los metadatos

  • Optimiza la estructura de datos para las OpenSearch capacidades de búsqueda vectorial

Tras la configuración, OpenSearch Ingestion comienza el proceso de exportación de datos consumiendo los vectores del índice vectorial especificado mediante la ListVectors API de Amazon S3. El servicio procesa los vectores en paralelo para optimizar la velocidad de ingesta y, al mismo tiempo, respeta los límites de escalado de OpenSearch Ingestion y Amazon OpenSearch Serverless.

Durante la ingestión, el servicio:

  • Transforma los datos vectoriales para que coincidan con el formato esperado para OpenSearch el Servicio

  • Conserva la información esencial, incluidos los valores vectoriales, los metadatos y las métricas de distancia

  • Maneja los escenarios de fallo mediante mecanismos de reintento inteligentes

  • Coloca los registros problemáticos en un bucket de Amazon S3 que se utiliza como cola de cartas muertas para su posterior análisis

La integración gestiona conjuntos de datos masivos de manera eficiente, y el rendimiento depende de las dimensiones vectoriales, el tamaño del conjunto de datos y los límites de escalado configurados. OSI puede escalar hasta 16 trabajadores por canalización, mientras que OpenSearch Serverless ajusta automáticamente la capacidad en función de las demandas de consumo. De forma predeterminada, OpenSearch aumenta la unidad maxSearch OpenSearch computacional (OCU) del lado OpenSearch sin servidor a 100.

nota

La integración prioriza la rentabilidad mediante:

  • Cierre automático de la tubería una vez finalizada la exportación

  • OpenSearch Escalado de colecciones sin servidor

  • Pay-per-use modelo de recursos

Permisos de IAM necesarios

La integración requiere una configuración cuidadosa de los permisos de IAM para permitir una comunicación segura entre los servicios. OpenSearch Ingestion necesita permisos para leer los índices vectoriales de Amazon S3, escribir en colecciones vectoriales de OpenSearch Service y gestionar las políticas de seguridad asociadas.

Al habilitar la integración mediante el procedimiento que aparece más adelante en este tema, puede elegir una de las siguientes opciones para la administración de permisos:

  • Permita que el sistema cree automáticamente un rol de servicio con los permisos necesarios

  • Proporcione un rol existente que cumpla con los requisitos

El rol creado automáticamente incluye políticas para:

  • Acceso al índice vectorial de Amazon S3 APIs

  • Gestión de las operaciones OpenSearch de recopilación de servicios

  • Gestionar las operaciones de cola de cartas muertas en caso de intentos de ingestión fallidos

Si decide especificar un rol existente, compruebe que el rol tiene los siguientes permisos de IAM:

(Obligatorio): permisos de canalización de datos entre OpenSearch Ingestion y Serverless OpenSearch

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "allowAPIs", "Effect": "Allow", "Action": [ "aoss:APIAccessAll", "aoss:BatchGetCollection" ], "Resource": [ "arn:aws:aoss:*:account-id:collection/collection-id" ] }, { "Sid": "allowSecurityPolicy", "Effect": "Allow", "Action": [ "aoss:CreateSecurityPolicy", "aoss:UpdateSecurityPolicy", "aoss:GetSecurityPolicy" ], "Resource": "*", "Condition":{ "StringLike":{ "aoss:collection": [ "collection-name" ] }, "StringEquals": { "aws:ResourceAccount": [ "account-id" ] } } } ] }

(Obligatorio): permisos de ingesta de datos entre OpenSearch Ingestion y la cola de cartas muertas de Amazon S3

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "s3Access", "Effect": "Allow", "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::bucket/*" ] } ] }

(Obligatorio): permisos de ingesta de datos entre OpenSearch Ingestion y Amazon S3 Vectors

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowS3VectorIndexAccess", "Effect": "Allow", "Action": [ "s3vectors:ListVectors", "s3vectors:GetVectors" ], "Resource": [ "arn:aws:s3vectors:region:account-id:bucket/bucket-name/index/index-name" ] } ] }

(Obligatorio si el AWS KMS cifrado está activado): permisos de descifrado para la comunicación entre OpenSearch Ingestion y Amazon S3 Vectors

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "allowS3VectorDecryptionOfCustomManagedKey", "Effect": "Allow", "Action": [ "kms:Decrypt" ], "Resource": [ "arn:aws:kms:region:account-id:key/key-id" ], "Condition": { "StringEquals": { "kms:ViaService": "s3vectors.region.amazonaws.com", "kms:EncryptionContext:aws:s3vectors:arn": "arn:aws:s3vectors:region:account-id:bucket/bucket-name" } } } ] }

Configuración de la integración de Amazon S3 Vectors con OpenSearch

Utilice el siguiente procedimiento para configurar la integración de Amazon S3 Vectors con OpenSearch Serverless.

nota

Si ha iniciado el proceso de configuración de la integración desde la consola de Amazon S3 seleccionando la OpenSearch opción Exportar a en la página de cubos vectoriales, algunos de los pasos del siguiente procedimiento no son aplicables, como se indica en el procedimiento.

Para configurar la integración de Amazon S3 Vectors con OpenSearch Serverless
  1. Abre la página Importar índice vectorial S3 a motor OpenSearch vectorial en la consola OpenSearch de Amazon Service. La página se muestra automáticamente si ha hecho clic en Exportar a OpenSearch en la consola de Amazon S3. Si está empezando en la OpenSearch consola, seleccione Integración en el menú de navegación de la izquierda y, a continuación, seleccione Importar índice vectorial de S3.

  2. En la sección Source, si comenzó en la consola de Amazon S3, compruebe que el nombre del índice vectorial y su nombre de recurso de Amazon (ARN) ya estén especificados. Si comenzó en la OpenSearch consola, introduzca el índice ARN en el campo ARN del índice vectorial S3.

  3. En la sección Acceso al servicio, elija una opción. Si elige un rol existente, compruebe que tiene todos los permisos necesarios para la integración, tal y como se describe enPermisos de IAM necesarios.

  4. (Opcional) Amplíe Configuración adicional. Para Habilitar la redundancia (réplicas activas), recomendamos dejar esta opción seleccionada para los entornos de producción. Al crear la primera colección, OpenSearch Serverless crea dos instancias OCUs: una para la indexación y otra para la búsqueda. Para garantizar la alta disponibilidad, también lanza un conjunto de nodos en espera en otra zona de disponibilidad. Para fines de desarrollo y pruebas, puede deshabilitar la configuración Habilitar redundancia para una colección, lo que elimina las dos réplicas en espera y solo crea instancias de dos. OCUs De forma predeterminada, las réplicas activas redundantes están habilitadas, lo que significa que se OCUs crean instancias de un total de cuatro para la primera recopilación de una cuenta.

    En Añadir AWS KMS clave gestionada por el cliente para el vector Amazon OpenSearch Serverless, elija esta opción para cifrar los datos de la colección vectorial mediante una clave gestionada por el cliente. De forma predeterminada, utiliza un. OpenSearch Clave administrada de AWS

  5. Si ha iniciado este proceso haciendo clic en la OpenSearch opción Exportar a de la consola de Amazon S3, en la sección Detalles de exportación se muestran los pasos OpenSearch que se seguirán a continuación. Cuando esté listo, elija Exportar.

    Si has iniciado este proceso en la consola de OpenSearch servicio, en la sección Detalles de importación OpenSearch se enumeran los siguientes pasos. Cuando esté listo, elija Importar.

    OpenSearch abre la página de historial para mostrar todos los índices vectoriales exports/imports de Amazon S3 en índices de OpenSearch Serverless.

Tras una ingesta correcta, OSI detiene automáticamente la canalización para evitar costes innecesarios y, al mismo tiempo, mantener los datos exportados en su interior. OpenSearch Puede supervisar el progreso de la integración mediante CloudWatch métricas y acceder a registros detallados para solucionar problemas.

La OpenSearch colección permanece activa y disponible para consultas una vez completada la ingesta inicial. Puede realizar lo siguiente:

  • Búsquedas de similitud

  • Agregaciones

  • Operaciones de análisis