矢量摄入 - 亚马逊 OpenSearch 服务

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

矢量摄入

矢量摄取可帮助您快速摄取 OpenSearch 域名和无服务器集合并为其编制索引。 OpenSearch 该服务会检查您的域名或集合,并代表您创建提取管道以将您的数据加载到其中。 OpenSearch您的域名或馆藏的提取和索引由 Vector 摄取为您管理。

您可以通过启用和自动优化功能来加快用于向量索引的 GPU 加速和优化索引过程。借助 Vector 摄取,您无需管理底层基础架构、修补软件或扩展集群即可支持矢量数据库的索引和摄取。这使您可以快速构建矢量数据库以满足您的需求。

工作原理

矢量摄取会检查您的域名或集合及其索引。您可以手动配置矢量索引字段,也可以 OpenSearch 允许使用自动配置。

矢量摄取使用 OpenSearch 摄取 (OSI) 作为 Amazon S3 和之间的数据管道。 OpenSearch该服务并行处理向量以优化摄取速度,同时尊重 OSI 和的缩放限制。 OpenSearch

OpenSearch 矢量摄取定价

在任何特定时间,无论是否有数据流经管道 OCUs ,您只需为分配给管道的矢量摄取数量付费。 OpenSearch 矢量摄取通过根据使用情况向上或向下扩展管道容量来立即适应您的工作负载。

要了解完整的定价详情,请参阅 Amazon OpenSearch 服务定价

先决条件

在使用矢量摄取之前,请确保您拥有以下资源:

  • Amazon S3 存储桶,其中包含您的 OpenSearch JSON 文档(采用拼花板格式)

  • OpenSearch 资源-要么是域名,要么是集合

  • OpenSearch 版本2.19或更高版本(需要自动优化集成)

创建矢量数据库

使用矢量摄取作业创建工作流程来设置自动矢量索引调整并加速大规模索引构建。

注意

随着用户界面的定稿,本节中的程序内容可能会发生变化。该工作流程可能会在 future 版本中进行更新,以反映最新的主机体验。

创建矢量注入作业
  1. Vector 摄取任务详细信息部分的 “名称” 中,输入摄取任务的名称。

  2. 在 “数据源” 部分,配置以下内容:

    1. 对于亚马逊 S3 URI,请输入包含您的 OpenSearch 服务 JSON 文档的亚马逊 S3 存储桶位置。

    2. 选择浏览 Amazon S3 以从可用存储桶中进行选择,或者选择查看以预览存储桶内容。

    3. 对于 “内容类型”,请选择以下选项之一:

      • 向量-文档已经包含向量,不需要进一步生成矢量嵌入。

      • 文本、图像或音频-文档包含需要编码为矢量嵌入的文本、图像或音频字节等内容。

  3. 数据源权限部分,配置访问权限:

    1. 对于 IAM 角色,选择下列一个选项:

      • 创建新角色

      • 使用现有角色

    2. 在 I AM 角色名称中,输入角色的名称。

  4. 在 “目标” 部分中,配置 OpenSearch 服务端点:

    1. 对于 Endpoint选择一个选项,从当前地区的兼容域名或集合中进行选择。

    2. 选择 “下一步” 继续处理所选端点。

  5. 选择 “下一步” 继续下一步,或者选择 “取消” 退出而不保存。

矢量摄取可与以下 Amazon OpenSearch 服务功能配合使用,以优化您的矢量数据库性能:

用于向量索引的 GPU 加速

GPU 加速可缩短创建、更新和删除矢量索引所需的时间。与矢量摄取一起使用时,可以显著加快大型矢量数据库的摄取和索引过程。

自动优化

自动优化可自动发现搜索延迟、质量和内存要求之间的最佳权衡。矢量摄取可以在摄取过程中应用自动优化建议,以确保您的矢量索引得到最佳配置。

为了获得最佳结果,在使用矢量摄取构建大规模矢量数据库时,请考虑同时启用 GPU 加速和自动优化。