Asignación de campos de origen de datos - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Asignación de campos de origen de datos

Amazon Kendra los conectores de fuentes de datos pueden asignar campos de documentos o contenido de la fuente de datos a los campos Amazon Kendra del índice. De forma predeterminada, cada conector está diseñado para rastrear campos de origen de datos específicos. Los campos de origen de datos predeterminados y sus propiedades no se pueden cambiar ni personalizar. En la Amazon Kendra consola, los campos predeterminados y las propiedades de los campos predeterminados que no se pueden editar aparecen atenuados.

Amazon Kendra Los conectores también le permiten asignar campos de contenido o documentos personalizados de la fuente de datos a los campos personalizados del índice. Por ejemplo, si tiene un campo en su origen de datos llamado “dept” que contiene información de departamento de un documento, puede asignarlo a un campo de índice denominado “Department”. De esta forma, puede utilizar el campo al consultar documentos.

También puede mapear campos Amazon Kendra reservados o comunes, como_created_at. Si la fuente de datos tiene un campo denominado «fecha de creación», puede asignarlo al campo Amazon Kendra reservado equivalente denominado. _created_at Para obtener más información sobre los campos Amazon Kendra reservados, consulte Atributos o campos del documento.

Puede asignar campos para la mayoría de orígenes de datos. Puede crear asignaciones de campos para los siguientes orígenes de datos:

  • Adobe Experience Manager

  • Alfresco

  • Aurora (mayoSQL)

  • Aurora (PostgreSQL)

  • Amazon FSx (Windows)

  • Amazon FSx (NetApp ONTAP)

  • RDSAmazona/Aurora

  • Amazon RDS (Microsoft SQL Server)

  • Amazon RDS (miSQL)

  • Amazon RDS (Oráculo)

  • Amazon RDS (PostgreSQL)

  • Amazon Kendra Rastreador web

  • Amazon WorkDocs

  • Box (Cuadro)

  • Confluence

  • Dropbox

  • Drupal

  • GitHub

  • Unidades de Workspace de Google

  • Gmail

  • IBM DB2

  • Jira

  • Microsoft Exchange

  • Microsoft OneDrive

  • Microsoft SharePoint

  • Microsoft Teams

  • SQLServidor Microsoft

  • Microsoft Yammer

  • Mi SQL

  • Oracle Database

  • Postgre SQL

  • Quip

  • Salesforce

  • ServiceNow

  • Slack

  • Zendesk

Si almacena sus documentos en un depósito de S3 o en una fuente de datos de S3, debe especificar los campos mediante un archivo de JSON metadatos. Para obtener más información, consulte Conector de origen de datos de S3.

La asignación de los campos de origen de datos a un campo de índice es un proceso de tres pasos:

  1. Cree un índice. Para obtener más información, consulte Creación de un índice.

  2. Actualice el índice para añadir campos.

  3. Cree una fuente de datos e incluya asignaciones de campos para asignar los campos reservados y cualquier campo personalizado a los campos de Amazon Kendra indexación.

Para actualizar el índice y añadir campos personalizados, utilice la consola para editar las asignaciones de campos de la fuente de datos y añadir un campo personalizado o utilice el. UpdateIndexAPI Puede añadir un total de 500 campos personalizados a su índice.

Para los orígenes de datos de la base de datos, si el nombre de la columna de la base de datos coincide con el nombre de un campo reservado, el campo y la columna se asignan automáticamente.

Con el UpdateIndexAPI, puede agregar campos reservados y personalizados mediante. DocumentMetadataConfigurationUpdates

En el siguiente JSON ejemplo, se utiliza DocumentMetadataConfigurationUpdates para agregar un campo denominado «Departamento» al índice.

"DocumentmetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE" } ]

Al crear el campo, tiene la opción de configurar cómo se utiliza el campo en las búsquedas. Puede elegir entre las siguientes opciones:

  • Visualizable: determina si el campo se devuelve en la respuesta de la consulta. El valor predeterminado es true.

  • Facetable: indica que el campo se puede utilizar para crear facetas. El valor predeterminado es false.

  • Buscable: determina si el campo se utiliza en la búsqueda. El valor predeterminado es true para los campos de cadena y false para los campos de número y fecha.

  • Ordenable: indica que el campo se puede utilizar para ordenar los resultados de búsqueda. Solo se puede configurar para campos de fecha, número y cadena. No se puede configurar para los campos de lista de cadenas.

En el siguiente JSON ejemplo, DocumentMetadataConfigurationUpdates se agrega un campo denominado «Departamento» al índice y se marca como facetable.

"DocumentMetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE", "Search": { "Facetable": true } } ]

Uso de campos de documentos comunes o Amazon Kendra reservados

Con él UpdateIndex API, puede crear campos reservados o comunes utilizando DocumentMetadataConfigurationUpdates y especificando el nombre del campo de índice Amazon Kendra reservado para asignarlo al atributo o nombre de campo del documento equivalente. También puede crear campos personalizados. Si utiliza un conector de fuente de datos, la mayoría incluye asignaciones de campos que asignan los campos del documento de la fuente de datos a campos de indexación. Amazon Kendra Si utiliza la consola, los campos se actualizan seleccionando el origen de datos, seleccionando la acción de edición y, a continuación, pasando a la sección de asignación de campos para configurar el origen de datos.

Puede configurar el objeto Search para establecer un campo como visualizable, facetable, buscable y ordenable. Puede configurar el objeto Relevance para establecer el orden de clasificación, duración de potenciación o período de tiempo de un campo para aplicarlos a los valores de potenciación, actualización, valor de importancia y valores de importancia asignados a valores de campo específicos. Si utiliza la consola, puede configurar los ajustes de búsqueda de un campo seleccionando la opción de faceta en el menú de navegación. Para configurar el ajuste de relevancia, seleccione la opción de buscar en su índice en el menú de navegación, introduzca una consulta y utilice las opciones del panel lateral para ajustar la relevancia de la búsqueda. No puede cambiar el tipo de campo una vez que este se ha creado.

Amazon Kendra tiene los siguientes campos de documento reservados o comunes que puede usar:

  • _authors: una lista de uno o más autores responsables del contenido del documento.

  • _category: una categoría que coloca un documento en un grupo específico.

  • _created_at: la fecha y la hora en formato ISO 8601 en las que se creó el documento. Por ejemplo, 2012-03-25T 12:30:10 + 01:00 es el formato ISO 8601 de fecha y hora del 25 de marzo de 2012 a las 12:30 p.m. (más 10 segundos) en la hora de Europa Central.

  • _data_source_id: el identificador del origen de datos que contiene el documento.

  • _document_body: el contenido del documento.

  • _document_id: un identificador único del documento.

  • _document_title: el título del documento.

  • _excerpt_page_number—El número de página de un archivo en el que aparece el extracto del documento. PDF Si el índice se creó antes del 8 de septiembre de 2020, debe volver a indexar los documentos antes de poder utilizar este atributo.

  • _faq_id—Si se trata de un documento del tipo pregunta-respuesta (FAQ), un identificador único para el. FAQ

  • _file_type: el tipo de archivo del documento, como pdf o doc.

  • _last_updated_at—La fecha y la hora en formato ISO 8601 en las que se actualizó el documento por última vez. Por ejemplo, 2012-03-25T 12:30:10 + 01:00 es el formato ISO 8601 de fecha y hora del 25 de marzo de 2012 a las 12:30 p.m. (más 10 segundos) en la hora de Europa Central.

  • _source_uri: el URI lugar en el que está disponible el documento. Por ejemplo, el URI del documento en el sitio web de una empresa.

  • _version: un identificador de la versión específica de un documento.

  • _view_count: el número de veces que se ha visto el documento.

  • _language_code (cadena): el código de un idioma que se aplica al documento. Este valor se define por defecto en inglés si no especifica un idioma. Para obtener más información acerca de los idiomas admitidos, incluidos sus códigos, consulte Adición de documentos en idiomas distintos del inglés.

En el caso de los campos personalizados, estos campos se crean DocumentMetadataConfigurationUpdates con UpdateIndexAPI, del mismo modo que cuando se crea un campo reservado o común. Debe establecer el tipo de datos adecuado para el campo personalizado. Si utiliza la consola, los campos se actualizan seleccionando el origen de datos, seleccionando la acción de edición y, a continuación, pasando a la sección de asignación de campos para configurar el origen de datos. Algunos orígenes de datos no admiten la adición de campos nuevos o campos personalizados. No puede cambiar el tipo de campo una vez que este se ha creado.

Los siguientes son los tipos que puede configurar para los campos personalizados:

  • Date

  • Número

  • Cadena

  • Lista de cadenas

Si ha añadido documentos al índice utilizando BatchPutDocumentAPI, Attributes enumera los campos/atributos de sus documentos y crea campos utilizando el DocumentAttribute objeto.

En el caso de los documentos indexados a partir de una fuente de Amazon S3 datos, los campos se crean mediante un archivo de JSON metadatos que incluye la información de los campos.

Si utiliza una base de datos compatible como origen de datos, puede configurar los campos mediante la opción de asignación de campos.