映射数据来源字段 - Amazon Kendra

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

映射数据来源字段

Amazon Kendra 数据源连接器可以将数据源的文档或内容字段映射到 Amazon Kendra 索引中的字段。默认情况下,每个连接器都设计为爬取特定的数据来源字段。默认数据来源字段及其属性无法更改或自定义。在 Amazon Kendra 控制台上,无法编辑的默认字段和默认字段属性显示为灰色。

Amazon Kendra 连接器还允许您将数据源的自定义文档或内容字段映射到索引中的自定义字段。例如,如果您的数据来源中有一个名为“dept”的字段,其中包含文档的部门信息,则可以将其映射到名为“Department”的索引字段。这样,您就可以在查询文档时使用该字段。

您还可以映射 Amazon Kendra 保留字段或常用字段,例如_created_at。如果您的数据源有一个名为 “creation_date” 的字段,则可以将其映射到名为的等效 Amazon Kendra 保留字段。_created_at有关 Amazon Kendra 保留字段的更多信息,请参阅文档属性或字段

您可以映射大多数数据来源的字段。您可以为以下数据来源创建字段映射:

  • Adobe Experience Manager

  • Alfresco

  • Aurora (MySQL)

  • Aurora (PostgreSQL)

  • Amazon FSx (视窗)

  • Amazon FSx (NetApp ONTAP)

  • Amazon RDS/Aurora

  • Amazon RDS (Microsoft SQL Server)

  • Amazon RDS (MySQL)

  • Amazon RDS (Oracle)

  • Amazon RDS (PostgreSQL)

  • Amazon Kendra 网络爬虫

  • Amazon WorkDocs

  • Box

  • Confluence

  • Dropbox

  • Drupal

  • GitHub

  • Google Workspace Drives

  • Gmail

  • IBM DB2

  • Jira

  • Microsoft Exchange

  • 微软 OneDrive

  • 微软 SharePoint

  • Microsoft Teams

  • Microsoft SQL Server

  • Microsoft Yammer

  • MySQL

  • Oracle 数据库

  • PostgreSQL

  • Quip

  • Salesforce

  • ServiceNow

  • Slack

  • Zendesk

如果您将文档存储在 S3 存储桶或 S3 数据来源中,则可以使用 JSON 元数据文件指定字段。有关更多信息,请参阅 S3 数据来源连接器

将数据来源字段映射到索引字段分为三个步骤:

  1. 创建索引。有关更多信息,请参阅创建索引

  2. 更新索引以添加字段。

  3. 创建数据源并添加字段映射以将保留字段和任何自定义字段映射到 Amazon Kendra 索引字段。

要更新索引以添加自定义字段,请使用控制台编辑数据源字段映射并添加自定义字段或使用 UpdateIndexAPI。您一共可以向索引添加 500 个自定义字段。

对于数据库数据来源,如果数据库列的名称与保留字段的名称匹配,则会自动映射该字段和列。

使用 UpdateIndexAPI,您可以使用添加保留字段和自定义字段DocumentMetadataConfigurationUpdates

以下 JSON 示例使用 DocumentMetadataConfigurationUpdates 来向索引添加名为“Department”的字段。

"DocumentmetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE" } ]

创建字段时,您可以选择设置字段的搜索方式。可从以下选项中进行选择:

  • 可显示 - 确定是否在查询响应中返回字段。默认值为 true

  • 可分面 - 指示字段可用于创建分面。默认值为 false

  • 可搜索 - 确定是否在搜索中使用该字段。对于字符串字段,默认值为 true;对于数字和日期字段,默认值为 false

  • 可排序 - 指示可使用该字段对搜索结果进行排序。只能对日期、数字和字符串字段进行设置。无法为字符串列表字段进行设置。

以下 JSON 示例使用 DocumentMetadataConfigurationUpdates 来向索引添加名为“Department”的字段并将其标记为可分面。

"DocumentMetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE", "Search": { "Facetable": true } } ]

使用 Amazon Kendra 保留或常用文档字段

借助 UpdateIndex API,您可以使用DocumentMetadataConfigurationUpdates并指定要映射到等效文档属性/字段名称的 Amazon Kendra 保留索引字段名称来创建保留字段或常用字段。您还可以创建自定义字段。如果您使用数据源连接器,则大多数连接器都包含将数据源文档字段映射到 Amazon Kendra 索引字段的字段映射。如果您使用控制台,则要更新字段,方法是选择数据来源,选择编辑操作,然后在“字段映射”部分旁边继续配置数据来源。

您可以将 Search 对象配置为将字段设置为可显示、可分面、可搜索和可排序。您可以将 Relevance 对象配置为设置字段的排名顺序、提升持续时间或时间段,以应用于映射到特定字段值的提升、新鲜度、重要性值和重要性值。如果您使用控制台,则可以通过在导航菜单中选择 facet 选项来设置字段的搜索设置。要设置相关性调整,请在导航菜单中选择搜索索引的选项,输入查询,然后使用侧面板选项调整搜索相关性。创建字段后无法更改字段类型。

Amazon Kendra 有以下可供您使用的保留或常用文档字段:

  • _authors - 负责文档内容的一位或多位作者名单。

  • _category - 将文档置于特定组中的类别。

  • _created_at - 以 ISO 8601 格式创建文档的日期和时间。例如,2012-03-25T12:30:10+01:00 是中部欧洲时间 2012 年 3 月 25 日中午 12:30(10 秒)的 ISO 8601 日期-时间格式。

  • _data_source_id - 包含文档数据来源的标识符。

  • _document_body - 文档的内容。

  • _document_id - 文档的唯一标识符。

  • _document_title - 文档标题。

  • _excerpt_page_number - PDF 文件中显示文档摘录的页码。如果您的索引是在 2020 年 9 月 8 日之前创建的,则必须重新编制文档索引才能使用此属性。

  • _faq_id - 如果这是问答类型文档 (FAQ),则为常见问题解答的唯一标识符。

  • _file_type - 文档的文件类型,例如 pdf 或 doc。

  • _last_updated_at - 上次更新端点的日期和时间,采用 ISO 8601 格式。例如,2012-03-25T12:30:10+01:00 是中部欧洲时间 2012 年 3 月 25 日中午 12:30(10 秒)的 ISO 8601 日期-时间格式。

  • _source_uri - 文档可用的 URI。例如,公司网站上的文档的 URI。

  • _version - 文档特定版本的标识符。

  • _view_count - 查看文档的次数。

  • _language_code(字符串)-适用于文档的语言的代码。如果您未指定语言,默认为英语。有关支持的语言(包括其代码)的更多信息,请参阅添加非英语语言文档

对于自定义字段,您可以将 DocumentMetadataConfigurationUpdatesUpdateIndex API 配合使用来创建这些字段,就像创建保留字段或公用字段时一样。您必须为自定义字段设置相应的数据类型。如果您使用控制台,则要更新字段,方法是选择数据来源,选择编辑操作,然后在“字段映射”部分旁边继续配置数据来源。某些数据来源不支持添加新字段或自定义字段。创建字段后无法更改字段类型。

以下是您可以为自定义字段设置的类型:

  • Date

  • 数字

  • 字符串

  • 字符串列表

如果您使用 BatchPutDocumentAPI 将文档添加到索引,则会Attributes列出文档的字段/属性,然后使用该DocumentAttribute对象创建字段。

对于从 Amazon S3 数据源编制索引的文档,您可以使用包含字段信息的 JSON 元数据文件创建字段。

如果您使用支持的数据库作为数据来源,则可以使用字段映射选项配置字段。