向量搜索 - 亚马逊 OpenSearch 服务

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

向量搜索

Amazon S OpenSearch ervice 中的矢量搜索使您能够使用机器学习嵌入而不是传统的关键字匹配来搜索语义上相似的内容。矢量搜索将您的数据(文本、图像、音频等)转换为捕捉内容语义的高维数值向量(嵌入)。执行搜索时, OpenSearch将查询的向量表示与存储的向量进行比较,以找到最相似的项目。

矢量搜索包括以下关键组件。

向量场

OpenSearch 支持knn_vector字段类型来存储具有可配置维度(最多 16,000)的密集向量。

搜索方法
  • k-nn(k 最近邻):找出 k 个最相似的向量

  • 近似 k-nn:使用诸如 HNSW(分层导航小世界)之类的算法可以更快地搜索大型数据集

距离指标

支持各种相似度计算,包括:

  • 欧氏距离

  • 余弦相似性

  • 点状产品

常见使用案例

矢量搜索支持以下常见用例。

  • 语义搜索:查找含义相似的文档,而不仅仅是匹配关键字

  • 推荐系统:推荐类似的产品、内容或用户

  • 图片搜索:查找视觉上相似的图片

  • 异常检测:识别数据模式中的异常值

  • RAG(检索增强生成):利用相关背景增强 LLM 响应

与机器学习集成

OpenSearch 与以下机器学习服务和模型集成:

  • Amazon Bedrock:用于使用基础模型生成嵌入物

  • Amazon SageMaker AI:用于自定义机器学习模型部署

  • Hugging Fac e 模型:预训练的嵌入模型

  • 自定义模型:您自己训练过的嵌入模型

矢量搜索使您能够构建复杂的人工智能驱动的应用程序,这些应用程序可以理解上下文和含义,远远超出了传统的文本匹配功能。