Uso de S3 Vectors y buckets vectoriales - Amazon Simple Storage Service

Uso de S3 Vectors y buckets vectoriales

nota

Amazon S3 Vectors se encuentra en versión preliminar para Amazon Simple Storage Service y está sujeto a cambios.

¿Qué es Amazon S3 Vectors?

Amazon S3 Vectors ofrece almacenamiento vectorial optimizado para el costo y personalizado para las aplicaciones de búsqueda semántica e inteligencia artificial. S3 Vectors, con la elasticidad y la durabilidad de nivel de Amazon S3 para almacenar conjuntos de datos vectoriales con un rendimiento de consultas inferior a un segundo, es ideal para aplicaciones que necesitan crear y ampliar índices vectoriales. Obtiene un conjunto dedicado de operaciones de la API para almacenar y realizar consultas de similitud en datos vectoriales, así como acceder a ellas, sin aprovisionar ninguna infraestructura. S3 Vectors consta de varios componentes clave que funcionan conjuntamente:

  • Buckets vectoriales: un nuevo tipo de bucket personalizado para almacenar y consultar vectores.

  • Índices vectoriales: en un bucket vectorial, puede organizar los datos vectoriales en índices vectoriales. Puede realizar consultas de similitud en los datos vectoriales dentro de índices vectoriales.

  • Vectores: almacena vectores en el índice vectorial. Para aplicaciones de búsqueda por similitud e IA, los vectores se crean como incrustaciones vectoriales, que son representaciones numéricas que conservan las relaciones semánticas entre el contenido (como texto, imágenes o audio) para que los elementos similares se posicionen más cerca entre sí. S3 Vectors puede realizar búsquedas por similitud basadas en el significado semántico en lugar de hacerlo en la coincidencia exacta, a través de la comparación matemática de la proximidad entre los vectores. Al agregar datos vectoriales a un índice vectorial, también puede asociar metadatos para futuras consultas de filtrado basadas en un conjunto de condiciones (por ejemplo, marcas temporales, categorías y preferencias del usuario).

Las escrituras en S3 Vectors tienen una alta coherencia, lo que significa que puede acceder de forma inmediata a los datos agregados más recientemente. A medida que escribe, actualiza y elimina vectores con el tiempo, S3 Vectors optimiza automáticamente los datos vectoriales para lograr la mejor relación precio-rendimiento posible para el almacenamiento vectorial, incluso a medida que los conjuntos de datos se escalan y evolucionan. Puede controlar el acceso a los datos vectoriales con los mecanismos de control de acceso existentes de Amazon S3, incluidas las políticas de bucket y de IAM. Para obtener más información sobre los límites de índices vectoriales por bucket y los límites vectoriales por índice, consulte Restricciones y limitaciones.

Casos de uso: búsquedas por similitud en conjuntos de datos grandes

Las búsquedas por similitud le permiten encontrar elementos que están relacionados conceptualmente entre sí en función de las representaciones vectoriales, en lugar de hacerlo por coincidencias exactas de palabras clave. Estas búsquedas identifican contenido con significados o características similares, aunque las palabras exactas o los elementos visuales difieran.

Entre los casos de uso habituales de la búsqueda por similitud con S3 Vectors se incluyen:

  • Imágenes médicas: se buscan similitudes en millones de imágenes médicas para ayudar en el diagnóstico y la planificación del tratamiento

  • Infracción de derechos de autor: se identifica contenido potencialmente derivado en grandes bibliotecas multimedia

  • Desduplicación de imágenes: detecte y elimine imágenes duplicadas o casi duplicadas de grandes colecciones de imágenes

  • Comprensión de vídeos: busque escenas o contenido específicos en activos de vídeo

  • Búsqueda de documentos empresariales: habilite la búsqueda semántica en documentos corporativos para encontrar información pertinente basada en el significado

  • Personalización: ofrezca recomendaciones personalizadas mediante la búsqueda de elementos similares

Debe utilizar S3 Vectors si desea crear aplicaciones de búsqueda vectorial y de IA agéntica rentables con tiempos de búsqueda inferiores a un segundo. Con los buckets vectoriales, solo paga por lo que utiliza y puede ahorrar en los costos de carga, almacenamiento y consulta de incrustaciones vectoriales. Para obtener más información acerca de los precios, consulte Precios de Amazon S3.

Características de S3 Vectors

Almacenamiento personalizado para vectores

S3 Vectors es el primer almacenamiento de objetos en la nube personalizado para almacenar y consultar vectores. Los buckets vectoriales están diseñados para proporcionar un almacenamiento económico, elástico y duradero para los datos vectoriales.

Las incrustaciones vectoriales están transformando la forma en que los clientes utilizan y recuperan los datos no estructurados, desde la detección de similitudes entre imágenes médicas, la búsqueda de anomalías en miles de horas de material de vídeo, la navegación por grandes bases de código y la identificación de la jurisprudencia más pertinente para un asunto legal determinado. Estas aplicaciones emergentes se combinan con modelos de incrustación para codificar el significado semántico de los datos (por ejemplo, texto, imágenes, vídeo o código) como incrustaciones vectoriales numéricas.

En un bucket vectorial, puede organizar los datos vectoriales en índices vectoriales, sin necesidad de aprovisionar la infraestructura. A medida que escribe, actualiza y elimina vectores con el tiempo, S3 Vectors optimiza automáticamente los datos vectoriales para lograr la mejor relación precio-rendimiento posible para el almacenamiento vectorial, incluso a medida que los conjuntos de datos se escalan y evolucionan. Para obtener más información sobre los límites de índices vectoriales por bucket y los límites vectoriales por índice, consulte Restricciones y limitaciones.

Realización de consultas de similitud

Con S3 Vectors, puede realizar consultas de similitud eficientes para encontrar los vectores más similares a un vector de consulta, con tiempos de respuesta inferiores a un segundo. S3 Vectors es ideal para cargas de trabajo en las que las consultas son menos frecuentes.

Filtrado de metadatos

Puede asociar metadatos (por ejemplo, año, autor, género y ubicación) como pares clave-valor a los vectores. De forma predeterminada, todos los metadatos se pueden filtrar, a menos que especifique explícitamente que no se pueden filtrar. Puede utilizar metadatos filtrables para filtrar los resultados de consulta en función de atributos específicos, lo que mejora la pertinencia de las consultas. Los índices vectoriales admiten metadatos de tipo cadena, número, booleano y lista. Para obtener más información sobre los límites de tamaño de metadatos por vector y los límites de tamaño de metadatos filtrables por vector, consulte Restricciones y limitaciones.

Seguridad y administración de acceso

Puede administrar el acceso a los recursos de buckets vectoriales con IAM y las políticas de control de servicios en AWS Organizations. S3 Vectors utiliza un espacio de nombres de servicio diferente al de Amazon S3: el espacio de nombres s3vectors. Por lo tanto, puede diseñar políticas específicamente para el servicio de S3 Vectors y los recursos. Puede diseñar políticas para conceder acceso a índices vectoriales individuales, a todos los índices vectoriales de un bucket vectorial o a todos los buckets vectoriales de una cuenta. Todos las opciones de Bloqueo de acceso público de Amazon S3 están siempre habilitados para los buckets vectoriales y no se pueden deshabilitar.

Integración con servicios de AWS

S3 Vectors se integra con otros servicios de AWS para mejorar las capacidades de procesamiento vectorial:

  • Amazon OpenSearch Service: optimice los costos de almacenamiento vectorial sin dejar de utilizar las operaciones de la API de OpenSearch. Esto es ideal para cargas de trabajo que necesitan funciones de búsqueda avanzadas, como búsqueda híbrida, agregaciones, filtrado avanzado y búsqueda por facetas. También puede exportar una instantánea de un índice vectorial de S3 a Amazon OpenSearch sin servidor para obtener una búsqueda vectorial con un alto QPS y baja latencia.

  • Bases de conocimientos de Amazon Bedrock: seleccione un índice vectorial en S3 Vectors como el almacén vectorial para ahorrar en costos de almacenamiento para aplicaciones de generación aumentada por recuperación (RAG).

  • Amazon Bedrock en Estudio unificado de SageMaker: desarrolle y pruebe bases de conocimientos mediante S3 Vectors como el almacén vectorial.