将您的数据源与 Amazon Bedrock 知识库同步 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将您的数据源与 Amazon Bedrock 知识库同步

创建知识库后,将数据源/数据源提取到知识库中,以便对它们进行索引并可供查询。Ingestion 会将数据源中的原始数据转换为矢量嵌入。在开始摄取之前,请检查您的数据源是否满足以下条件:

  • 您已经为数据源配置了连接信息。要配置数据源连接器以从数据源存储库中抓取数据,请参阅支持的数据源连接器

  • 这些文件采用支持的格式。有关更多信息,请参阅 Su pport 文档格式

  • 文件大小不超过 50 MB 的最大文件大小。有关更多信息,请参阅 知识库配额

  • 如果您的数据源包含元数据文件,请检查以下条件以确保元数据文件不会被忽略:

    • 每个.metadata.json文件都与其关联的源文件同名。

    • 如果知识库的向量索引位于 Amazon OpenSearch Serverless 矢量存储中,请检查该faiss引擎是否配置了矢量索引。如果使用引nmslib擎配置了向量索引,则必须执行以下操作之一:

    • 如果知识库的向量索引位于 Amazon Aurora 数据库集群中,请在开始摄取之前,检查您的索引表是否包含元数据文件中每个元数据属性的列。

注意

每次在数据源中添加、修改或删除文件时,都必须同步数据源,以便将其重新索引到知识库中。同步是增量式的,因此 Amazon Bedrock 仅处理自上次同步以来添加、修改或删除的文档。

要了解如何将数据源提取到知识库中,请选择与您选择的方法相对应的选项卡,然后按照步骤进行操作。

Console
摄取数据来源
  1. 通过以下网址打开 Amazon Bedrock 控制台:https://console.aws.amazon.com/bedrock/

  2. 从左侧导航窗格中选择知识库,然后选择您的知识库。

  3. 数据来源部分中,选择同步以开始数据摄取。

  4. 数据摄取完成后,如果成功则会显示绿色成功横幅。

  5. 您可以选择一个数据来源,查看其同步历史记录。选择查看警告以查看数据摄取作业失败的原因。

API

要将数据源提取到您为知识库配置的矢量存储中,请使用适用于 Amazon Bedrock 的代理构建时终端节点发送StartIngestionJob请求。指定knowledgeBaseIddataSourceId

Amazon Bedrock 代理构建时终端节点的GetIngestionJob请求中使用响应中ingestionJobId返回的内容来跟踪摄取任务的状态。此外,请指定knowledgeBaseIddataSourceId

  • 提取作业完成后,响应中的 statusCOMPLETE

  • 响应中的 statistics 对象会返回有关数据来源中文档的提取是否成功的信息。

您还可以使用适用于 Amazon Bedrock 的代理构建时终端节点发送ListIngestionJobs请求,从而查看数据源的所有摄取任务的信息。指定要将knowledgeBaseId数据采集到的知识库的dataSourceId和。

  • 通过在 filters 对象中指定要搜索的状态来筛选结果。

  • 通过指定 sortBy 对象,按作业启动时间或作业状态进行排序。您可以按升序或降序进行排序。

  • maxResults 字段中设置要在响应中返回的结果数量上限。如果结果多于您设置的数字,则响应会返回一个nextToken,您可以在另一个ListIngestionJobs请求中发送该请求以查看下一批作业。