Asignación de campos de origen de datos - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Asignación de campos de origen de datos

Puede asignar campos de documentos o de contenido de los datos a los campos del índice. Por ejemplo, si tiene un campo en su origen de datos denominado «dept» que contiene información de departamento de un documento, puede asignarlo a un campo de índice denominado «Department». De esta forma, puede utilizar el campo al consultar documentos. Puede asignar campos para la mayoría de las fuentes de datos, pero no para todas.

Puede crear asignaciones de campos para los siguientes orígenes de datos:

  • Confluence

  • Base de datos

  • Unidades de Workspace de Google

  • Microsoft OneDrive

  • Microsoft SharePoint

  • Salesforce

  • ServiceNow

  • Amazon WorkDocs

  • Amazon FSx

  • Slack

  • Box

  • Quip

  • Jira

  • GitHub

  • Al aire libre

Si almacena los documentos en un bucket de S3 o en un origen de datos de S3, puede proporcionar atributos personalizados directamente mediante archivos de metadatos. Para obtener más información, consulte Creación de atributos de documento personalizados.

La asignación de los campos de origen de datos a un campo de índice es un proceso de tres pasos:

  1. Cree un índice. Para obtener más información, consulte Creación de un índice.

  2. Actualice el índice para añadir campos personalizados.

  3. Cree un origen de datos que asigne campos de origen de datos a los campos de índice.

Para actualizar el índice y agregar campos personalizados, utilice la consola o la API UpdateIndex. Puede añadir un total de 500 campos personalizados a su índice.

En la consola, puede elegir asignar un campo de origen de datos a uno de los siete nombres de campo reservados. O bien, puede elegir crear un nuevo campo de índice que se asigne al campo. Para los orígenes de datos de la base de datos, si el nombre de la columna de la base de datos coincide con el nombre de un campo reservado, el campo y la columna se asignan automáticamente.

Con la API , se agregan campos personalizados mediante el parámetro DocumentMetadataConfigurationUpdates.

En el siguiente ejemplo de JSON se utiliza DocumentMetadataConfigurationUpdates para agregar al índice un campo denominado «Department».

"DocumentmetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE" } ]

Al crear el campo, tiene la opción de configurar cómo se utiliza el campo en las búsquedas. Puede elegir entre las siguientes opciones:

  • Visualizable: determina si el campo se devuelve en la respuesta de la consulta. El valor predeterminado es true.

  • Facetable: indica que el campo se puede utilizar para crear facetas. El valor predeterminado es false.

  • Se puede buscar: determina si el campo se utiliza en la búsqueda. El valor predeterminado es true para los campos de cadena y false para los campos de número y fecha.

  • Ordenable: indica que el campo se puede utilizar para ordenar la respuesta de una consulta. Solo se puede configurar para campos de fecha, número y cadena. No se puede configurar para los campos de lista de cadenas.

En el siguiente ejemplo de JSON se utiliza DocumentMetadataConfigurationUpdates para agregar al índice un campo denominado «Department» y marcarlo como facetable.

"DocumentMetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE", "Search": { "Facetable": true } } ]

Amazon Kendratiene 15 campos reservados que puede asignar a campos de origen de datos. Debe proporcionar valores para estos campos. Los campos son:

  • _authors(lista de cadenas): lista de uno o más autores responsables del contenido del documento.

  • _category(cadena): categoría que coloca un documento en un grupo específico.

  • _created_at(cadena con codificación ISO 8601): fecha y hora en formato ISO 8601 de creación del documento. Por ejemplo, 2012-03-25T12:30:10+01:00 es el formato de fecha y hora ISO 8601 para el 25 de marzo de 2012, a las 12.30 h (más 10 segundos) en la zona horaria de Europa Central.

  • _data_source_id(cadena): el identificador de origen de datos que contiene el documento.

  • _document_body(cadena): el contenido del documento.

  • _document_id(cadena): un identificador único para el documento.

  • _document_title(cadena): el título del documento.

  • _excerpt_page_number(largo): el número de página de un archivo PDF en el que aparece el extracto del documento. Si el índice se creó antes del 8 de septiembre de 2020, debe volver a indexar los documentos antes de poder utilizar este atributo.

  • _faq_id(cadena): si se trata de una pregunta frecuente y su respuesta, un identificador único para ellas.

  • _file_type(cadena): el tipo de archivo del documento, como pdf o doc.

  • _last_updated_at(cadena con codificación ISO 8601): fecha y hora en formato ISO 8601 de última actualización del documento. Por ejemplo, 2012-03-25T12:30:10+01:00 es el formato de fecha y hora ISO 8601 para el 25 de marzo de 2012, a las 12.30 h (más 10 segundos) en la zona horaria de Europa Central.

  • _source_uri(cadena): el URI en el que está disponible el documento. Por ejemplo, el URI del documento en el sitio web de una empresa.

  • _version(cadena): el identificador de la versión específica de un documento.

  • _view_count(largo): el número de veces visto el documento.

  • _language_code(cadena): el código de un idioma que se aplica al documento. Este valor se define por defecto en inglés si no especifica un idioma. Para obtener más información acerca de los idiomas admitidos, incluidos sus códigos, consulte Adición de documentos en idiomas distintos del inglés.

Después de crear los campos de índice, puede asignar los campos de origen de datos a los campos de índice. En la consola, puede crear campos de índice y campos de origen de datos de mapa mediante el editor de asignaciones de campos personalizadas. Si utiliza la API, puede agregar asignaciones de campos mediante las API CreateDataSource o UpdateDataSource.

Puede evitar que los campos de índice personalizados se puedan buscar. En la consola, simplemente desactive Searchable (Buscable) para un campo en la configuración del campo de índice. Si utiliza la API, simplemente configure Searchable en FALSE para un campo que utilice el objeto Search (Búsqueda).