Mapeando campos de fontes de dados - Amazon Kendra

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Mapeando campos de fontes de dados

Amazon Kendra conectores de fonte de dados podem mapear campos de documentos ou de conteúdo da sua fonte de dados para campos no seu Amazon Kendra índice. Por padrão, todo conector é projetado para rastrear campos específicos da fonte de dados. Os campos padrão da fonte de dados e suas propriedades não podem ser alterados nem personalizados. No Amazon Kendra console, os campos padrão e as propriedades do campo padrão que não podem ser editados ficam esmaecidos.

Amazon Kendra os conectores também permitem que você mapeie campos personalizados de documentos ou conteúdos de sua fonte de dados para campos personalizados em seu índice. Por exemplo, se você tiver um campo na fonte de dados chamado “departamento” que contém informações do departamento de um documento, ele pode ser mapeado para um campo de índice chamado “Departamento”. Dessa forma, você pode usar o campo ao consultar documentos.

Você também pode mapear campos Amazon Kendra reservados ou comuns, como_created_at. Se sua fonte de dados tiver um campo chamado “creation_date”, você poderá mapeá-lo para o campo Amazon Kendra reservado equivalente chamado. _created_at Para obter mais informações sobre campos Amazon Kendra reservados, consulte Atributos ou campos do documento.

Você pode mapear campos para a maioria das fontes de dados. Você pode criar mapeamentos de campo para as seguintes fontes de dados:

  • Adobe Experience Manager

  • Alfresco

  • Aurora (MySQL)

  • Aurora (PostgreSQL)

  • Amazon FSx (Windows)

  • Amazon FSx (EM UM NetApp TOQUE)

  • Amazon RDS/Aurora

  • Amazon RDS (Microsoft SQL Server)

  • Amazon RDS (MySQL)

  • Amazon RDS (Oracle)

  • Amazon RDS (PostgreSQL)

  • Amazon Kendra Rastreador da Web

  • Amazon WorkDocs

  • Box

  • Confluence

  • Dropbox

  • Drupal

  • GitHub

  • Google Workspace Drives

  • Gmail

  • IBM DB2

  • Jira

  • Microsoft Exchange

  • Microsoft OneDrive

  • Microsoft SharePoint

  • Microsoft Teams

  • Microsoft SQL Server

  • Microsoft Yammer

  • MySQL

  • Oracle Database

  • PostgreSQL

  • Quip

  • Salesforce

  • ServiceNow

  • Slack

  • Zendesk

Ao armazenar os documentos em um bucket do S3 ou fonte de dados do S3, especifique os campos usando um arquivo de metadados JSON. Para obter mais informações, consulte conectores de fonte de dados do S3.

O mapeamento dos campos da fonte de dados para um campo de índice é um processo de três etapas:

  1. Crie um índice. Para obter mais informações, consulte Criar um índice.

  2. Atualize o índice para adicionar campos.

  3. Crie uma fonte de dados e inclua mapeamentos de campo para mapear campos reservados e quaisquer campos personalizados para Amazon Kendra indexar campos.

Para atualizar o índice para adicionar campos personalizados, use o console para editar os mapeamentos dos campos da fonte de dados e adicionar um campo personalizado ou usar a UpdateIndexAPI. Você pode adicionar um total de 500 campos personalizados ao seu índice.

Para fontes de dados do banco de dados, se o nome da coluna do banco de dados corresponder ao nome de um campo reservado, o campo e a coluna serão mapeados automaticamente.

Com a UpdateIndexAPI, você adiciona campos reservados e personalizados usandoDocumentMetadataConfigurationUpdates.

O exemplo de JSON a seguir usa DocumentMetadataConfigurationUpdates para adicionar um campo chamado “Departamento” ao índice.

"DocumentmetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE" } ]

Ao criar o campo, você tem a opção de definir como o campo é usado para pesquisa. Você pode escolher entre as seguintes opções:

  • Exibível: determina se o campo é retornado na resposta da consulta. O padrão é true.

  • Facetável: indica que o campo pode ser usado para criar facetas. O padrão é false.

  • Pesquisável: determina se o campo é usado na pesquisa. O padrão é true para campos de string e false para campos de número e data.

  • Classificável: indica que o campo pode ser usado para classificar os resultados da pesquisa. Ele só pode ser definido para campos de data, número e sequência de caracteres. Ele não pode ser definido para campos de lista de strings.

O exemplo de JSON a seguir usa DocumentMetadataConfigurationUpdates para adicionar um campo chamado “Departamento” ao índice.

"DocumentMetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE", "Search": { "Facetable": true } } ]

Usando campos de documentos Amazon Kendra reservados ou comuns

Com a UpdateIndex API, você pode criar campos reservados ou comuns usando DocumentMetadataConfigurationUpdates e especificando o nome do campo de índice Amazon Kendra reservado para mapear para seu atributo de documento/nome de campo equivalente. Você também pode criar campos personalizadas. Se você usa um conector de fonte de dados, a maioria inclui mapeamentos de campo que mapeiam os campos do documento da fonte de dados para campos de Amazon Kendra índice. Se usar o console, atualize os campos selecionando a fonte de dados, a ação de edição e, em seguida, prosseguindo para a seção de mapeamentos de campo para configurar a fonte de dados.

Você pode configurar o objeto Search para definir um campo como exibível, facetável, pesquisável e classificável. Configure o objeto Relevance para definir a ordem de classificação, a duração do aumento ou o período de tempo de um campo a ser aplicado ao aumento, à atualização, ao valor de importância e aos valores de importância mapeados para valores de campo específicos. Se usar o console, defina as configurações de pesquisa de um campo selecionando a opção de faceta no menu de navegação. Para definir o ajuste de relevância, selecione a opção de pesquisar o índice no menu de navegação, insira uma consulta e use as opções do painel lateral para ajustar a relevância da pesquisa. Você não pode alterar o tipo de campo depois de criar o campo.

Amazon Kendra tem os seguintes campos de documento reservados ou comuns que você pode usar:

  • _authors: uma lista de um ou mais autores responsáveis pelo conteúdo do documento.

  • _category: uma categoria que coloca um documento em um grupo específico.

  • _created_at: a data e a hora no formato ISO 8601 em que o documento foi criado. Por exemplo, 2012-03-25T12:30:10+01:00 é o formato de data e hora ISO 8601 para 25 de março de 2012 às 12h30 (mais 10 segundos) no horário da Europa Central.

  • _data_source_id: o identificador da fonte de dados que contém o documento.

  • _document_body: o conteúdo do documento de trabalho.

  • _document_id: o identificador exclusivo de cada documento.

  • _document_title: o título do documento.

  • _excerpt_page_number: o número da página em um arquivo PDF em que o trecho do documento aparece. Se o índice foi criado antes de 8 de setembro de 2020, você deve reindexar os documentos antes de poder usar esse atributo.

  • _faq_id: se for um documento do tipo pergunta e resposta (Perguntas frequentes), um identificador exclusivo para as Perguntas frequentes.

  • _file_type: o tipo de arquivo do documento, como pdf ou doc.

  • _last_updated_at: a data e a hora no formato ISO 8601 em que o documento foi atualizado pela última vez. Por exemplo, 2012-03-25T12:30:10+01:00 é o formato de data e hora ISO 8601 para 25 de março de 2012 às 12h30 (mais 10 segundos) no horário da Europa Central.

  • _source_uri: o URI em que o documento está disponível. Por exemplo, o URI do documento no site da empresa.

  • _version: um identificador para a versão específica de um documento.

  • _view_count: o número de vezes que o documento foi visualizado.

  • _language_code(String): o código de um idioma que se aplica ao documento. O padrão é inglês se você não especificar um idioma. Para obter mais informações sobre os idiomas suportados, incluindo os códigos, consulte Adicionar documentos em outros idiomas além do inglês.

Para campos personalizados, você cria esses campos usando DocumentMetadataConfigurationUpdates com a API UpdateIndex, assim como faz ao criar um campo reservado ou comum. Você deve definir o tipo de dados apropriado para o campo personalizado. Se usar o console, atualize os campos selecionando a fonte de dados, a ação de edição e, em seguida, prosseguindo para a seção de mapeamentos de campo para configurar a fonte de dados. Algumas fontes de dados não oferecem suporte à adição de novos campos ou campos personalizados. Você não pode alterar o tipo de campo depois de criar o campo.

Estes são os tipos que podem ser definidos em campos personalizados:

  • Data

  • Número

  • String

  • Lista de strings

Se você adicionou documentos ao índice usando a BatchPutDocumentAPI, Attributes lista os campos/atributos dos seus documentos e cria campos usando o objeto. DocumentAttribute

Para documentos indexados de uma fonte de Amazon S3 dados, você cria campos usando um arquivo de metadados JSON que inclui as informações dos campos.

Ao usar um banco de dados compatível como fonte de dados, poderá configura os campos usando a opção de mapeamentos de campo.