Creación de atributos de documento personalizados - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de atributos de documento personalizados

Cuando el origen de los datos es un bucket de S3 o un origen de datos, puede aplicar atributos personalizados a los documentos mediante archivos de metadatos. Por ejemplo, puede crear un atributo personalizado denominado «Department» con los valores de «HR», «Sales» y «Manufacturing». Puede aplicar estos atributos a sus documentos para poder limitar la respuesta a los documentos en el departamento «HR», por ejemplo.

Puede crear hasta 500 atributos personalizados.

Para otros orígenes de datos, asignará los campos del origen de datos externo a los atributos personalizados correspondientes en Amazon Kendra. Para obtener más información, consulte Asignación de campos de origen de datos.

Para poder utilizar un atributo personalizado, primero debe crear un campo en el índice. Utilice la consola o la API UpdateIndex para crear los campos de índice. Los tipos de campo admitidos son fecha, largo, cadena y lista de cadenas.

Con la API UpdateIndex, se agregan campos personalizados mediante el parámetro DocumentMetadataConfigurationUpdates.

En el siguiente ejemplo de JSON se utiliza DocumentMetadataConfigurationUpdates para agregar al índice un campo denominado «Department».

"DocumentmetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE" } ]

Amazon Kendra tiene 15 atributos reservados que puede usar. Los atributos son los siguientes:

  • _authors(lista de cadenas): lista de uno o más autores responsables del contenido del documento.

  • _category(cadena): categoría que coloca un documento en un grupo específico.

  • _created_at(cadena con codificación ISO 8601): fecha y hora de creación del documento.

    También puede incluir la zona horaria en el formato de fecha y hora ISO 8601 si es necesario. Por ejemplo, 2012-03-25T12:30:10+01:00 es el formato de fecha y hora ISO 8601 para el 25 de marzo de 2012, a las 12.30 h (más 10 segundos) en la zona horaria de Europa Central.

  • _data_source_id(cadena): el identificador de la fuente de datos que contiene el documento.

  • _document_body(cadena): el contenido del documento.

  • _document_id(cadena): un identificador único para el documento.

  • _document_title(cadena): el título del documento.

  • _excerpt_page_number(largo): el número de página de un archivo PDF en el que aparece el extracto del documento. Si el índice se creó antes del 8 de septiembre de 2020, debe volver a indexar los documentos antes de poder utilizar este atributo.

  • _faq_id(cadena): si se trata de una pregunta frecuente y su respuesta, un identificador único para ellas.

  • _file_type(cadena): el tipo de archivo del documento, como PDF o DOC.

  • _last_updated_at(cadena con codificación ISO 8601): fecha y hora de última actualización del documento.

    También puede incluir la zona horaria en el formato de fecha y hora ISO 8601 si es necesario. Por ejemplo, 2012-03-25T12:30:10+01:00 es el formato de fecha y hora ISO 8601 para el 25 de marzo de 2012, a las 12.30 h (más 10 segundos) en la zona horaria de Europa Central.

  • _source_uri(cadena): el URI en el que está disponible el documento. Por ejemplo, el URI del documento en el sitio web de una empresa.

  • _version(cadena): un identificador de la versión específica de un documento.

  • _view_count(largo): el número de veces que se ha visto el documento.

  • _language_code(cadena): el código de un idioma que se aplica al documento. Este valor se define por defecto en inglés si no especifica un idioma. Para obtener más información acerca de los idiomas admitidos, incluidos sus códigos, consulte Adición de documentos en idiomas distintos del inglés.

Después de crear un atributo personalizado, puede utilizarlo cuando llame a la API Query. Puede usarlo para búsquedas facetadas, utilizarla para filtrar la respuesta y elegir si se devuelve el atributo en la respuesta. Para obtener más información, consulte Consultas de filtrado.

Adición de atributos personalizados mediante BatchPutDocument API

Cuando utilice la API BatchPutDocument para agregar un documento al índice, se especifican atributos personalizados como parte de Attributes. Puede añadir varios atributos al llamar a la API. Puede crear hasta 500 atributos personalizados. El siguiente ejemplo es un atributo de cliente que agrega «Department» a un documento.

"Attributes": { "Department": "HR", "_category": "Vacation policy" }

Adición de atributos personalizados a un origen de datos de Amazon S3

Cuando se utilice un bucket de S3 como origen de datos para el índice, se agregan metadatos a los documentos con archivos de metadatos complementarios. Los archivos JSON de metadatos se colocan en una estructura de directorios paralela a los documentos. Para obtener más información, consulte Amazon S3metadatos de documento.

Los atributos personalizados se especifican en la estructura JSON de Attributes. Puede crear hasta 500 atributos personalizados. Por ejemplo, en el siguiente ejemplo se utiliza Attributes para definir tres atributos personalizados y un atributo reservado.

"Attributes": { "brand": "Amazon Basics", "price": 1595, "_category": "sports", "subcategories": ["outdoors", "electronics"] }