Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Documentos
En esta sección se explica cómo Amazon Kendra indexa los numerosos formatos de documentos que admite y los diferentes campos o atributos de los documentos.
Tipos o formatos de documentos
Amazon Kendra admite los tipos o formatos de documentos más populares, como PDF, HTML PowerPoint, Word y más. Un índice puede contener varios formatos de documento.
Amazon Kendra extrae el contenido del interior de los documentos para que se puedan buscar en ellos. Los documentos se analizan de forma que se optimice la búsqueda en el texto extraído y en cualquier contenido tabular (tablas HTML) de los documentos. Esto significa estructurar los documentos en campos o atributos que se utilizan para la búsqueda. Los metadatos del documento, como la fecha de la última modificación, pueden ser campos útiles para la búsqueda.
Los documentos se pueden organizar en filas y columnas. Por ejemplo, cada documento es una fila y cada campo/atributo del documento, como el título y el contenido del cuerpo, es una columna. Por ejemplo, si utiliza una base de datos como origen de datos, los datos deben estructurarse u organizarse en filas y columnas.
Puede añadir documentos al índice de las siguientes maneras:
Si desea añadir un archivo de preguntas frecuentes, utilice la CreateFaqAPI para añadir el archivo almacenado en un Amazon S3 depósito. Puedes elegir entre un formato CSV básico, un formato CSV que incluye campos o atributos personalizados en un encabezado y un formato JSON que incluye campos personalizados. El formato predeterminado es CSV básico.
A continuación, se proporciona información sobre cada formato de documento compatible y cómo Amazon Kendra trata cada formato al indexar documentos.
Formato del documento | Tratado como | Cómo se trata el documento | Estructura original |
---|---|---|---|
Formato de documento portátil (PDF) | HTML | Se convierte a HTML y, a continuación, se extrae el contenido. | No estructurado |
HyperText Lenguaje de marcado (HTML) | HTML | Las etiquetas HTML se filtran para extraer el contenido. El contenido debe estar entre las etiquetas HTML principales de inicio y cierre (<HTML>content</HTML> ). |
Semiestructurado |
Lenguaje de marcado extensible (XML) | XML | Las etiquetas XML se filtran para extraer el contenido. | Semiestructurado |
Transformación del lenguaje de hojas de estilo extensible (XSLT) | XSLT | Las etiquetas se filtran para extraer el contenido. | Semiestructurado |
MarkDown (MD) | Texto no cifrado | El contenido se extrae con MarkDown la sintaxis incluida. | Semiestructurado |
Valores separados por comas (CSV) | CSV | Contenido extraído de cada celda, con un único archivo tratado como resultado de un único documento. | Estructurado para archivos de preguntas frecuentes; de lo contrario, semiestructurado |
Microsoft Excel (XLS y XLSX) | XLS y XLSX | Contenido extraído de cada celda, con un único archivo tratado como resultado de un único documento. | Semiestructurado |
JavaScript Notación de objetos (JSON) | Texto no cifrado | El contenido se extrae con la sintaxis JSON incluida. | Semiestructurado |
Formato de texto enriquecido (RTF) | RTF | La sintaxis RTF se filtra para extraer el contenido. | Semiestructurado |
Microsoft PowerPoint (PPT) | PPT, PPTX | Solo se extrae el contenido de texto de las PowerPoint diapositivas para su búsqueda. Las imágenes y otros contenidos no se extraen. | No estructurado |
Microsoft Word | DOC, DOCX | Solo se extrae el contenido de texto de las páginas de Word para su búsqueda. Las imágenes y otros contenidos no se extraen. | No estructurado |
Texto sin formato (TXT) | TXT | Se extrae todo el texto del documento de texto. | No estructurado |
Atributos o campos del documento
Un documento tiene atributos o campos asociados. Los campos de un documento son las propiedades de un documento o lo que contiene su estructura. Por ejemplo, cada uno de sus documentos puede contener el título, el cuerpo del texto y el autor. También puede añadir campos personalizados para sus documentos específicos. Por ejemplo, si el índice busca documentos fiscales, puede especificar un campo personalizado para el tipo de documento fiscal, como el W-2, el 1099, etc.
Antes de poder usar un campo de documento en una consulta, debe asignarse a un campo de índice. Por ejemplo, el campo de título se puede asignar al campo _document_title
. Para obtener más información, consulte Asignación de campos. Para agregar un campo nuevo, debe crear un campo de índice al que asignarlo. Los campos de índice se crean mediante la consola o mediante la UpdateIndexAPI.
Puede usar los campos del documento para filtrar las respuestas y crear resultados de búsqueda facetados. Por ejemplo, puede filtrar una respuesta para que muestre solo una versión específica de un documento, o puede filtrar las búsquedas para que solo se muestren documentos fiscales del tipo 1099 que coincidan con el término de búsqueda. Para obtener más información, consulte Filtrado y búsqueda de facetas.
También puede utilizar los campos del documento para ajustar manualmente la respuesta a la consulta. Por ejemplo, puede optar por aumentar la importancia del campo de título para aumentar el peso que se le Amazon Kendra asigna al campo a la hora de determinar qué documentos devolver en la respuesta. Para más información, consulte Ajuste de la relevancia de la búsqueda.
Si agrega un documento directamente a un índice, debe especificar los campos en el parámetro de entrada del documento en la BatchPutDocumentAPI. Los valores de los campos personalizados se especifican en una matriz de DocumentAttributeobjetos. Si utiliza un origen de datos, el método que utilice para agregar los campos del documento depende del origen de datos. Para obtener más información, consulte Asignación de campos de origen de datos.
Uso de campos de documentos comunes o Amazon Kendra reservados
Con la UpdateIndex API, puede crear campos reservados o comunes utilizando DocumentMetadataConfigurationUpdates
y especificando el nombre del campo de índice Amazon Kendra
reservado para asignarlos al atributo o nombre de campo del documento equivalente. También puede crear campos personalizados. Si utiliza un conector de fuente de datos, la mayoría incluye asignaciones de campos que asignan los campos del documento de la fuente de datos a campos de indexación. Amazon Kendra Si utiliza la consola, los campos se actualizan seleccionando el origen de datos, seleccionando la acción de edición y, a continuación, pasando a la sección de asignación de campos para configurar el origen de datos.
Puede configurar el objeto Search
para establecer un campo como visualizable, facetable, buscable y ordenable. Puede configurar el objeto Relevance
para establecer el orden de clasificación, duración de potenciación o período de tiempo de un campo para aplicarlos a los valores de potenciación, actualización, valor de importancia y valores de importancia asignados a valores de campo específicos. Si utiliza la consola, puede configurar los ajustes de búsqueda de un campo seleccionando la opción de faceta en el menú de navegación. Para configurar el ajuste de relevancia, seleccione la opción de buscar en su índice en el menú de navegación, introduzca una consulta y utilice las opciones del panel lateral para ajustar la relevancia de la búsqueda. No puede cambiar el tipo de campo una vez que este se ha creado.
Amazon Kendra tiene los siguientes campos de documento reservados o comunes que puede usar:
-
_authors
: una lista de uno o más autores responsables del contenido del documento. -
_category
: una categoría que coloca un documento en un grupo específico. -
_created_at
: la fecha y hora en formato ISO 8601 de creación del documento. Por ejemplo, 2012-03-25T12:30:10+01:00 es el formato de fecha y hora ISO 8601 para el 25 de marzo de 2012, a las 12.30 h (más 10 segundos) en el horario de Europa Central. -
_data_source_id
: el identificador del origen de datos que contiene el documento. -
_document_body
: el contenido del documento. -
_document_id
: un identificador único del documento. -
_document_title
: el título del documento. -
_excerpt_page_number
: el número de página de un archivo PDF en el que aparece el extracto del documento. Si el índice se creó antes del 8 de septiembre de 2020, debe volver a indexar los documentos antes de poder utilizar este atributo. -
_faq_id
: si se trata de un documento tipo pregunta-respuesta (preguntas frecuentes), un identificador único para las preguntas frecuentes. -
_file_type
: el tipo de archivo del documento, como pdf o doc. -
_last_updated_at
: la fecha y hora en formato ISO 8601 de última actualización del documento. Por ejemplo, 2012-03-25T12:30:10+01:00 es el formato de fecha y hora ISO 8601 para el 25 de marzo de 2012, a las 12.30 h (más 10 segundos) en el horario de Europa Central. -
_source_uri
: el URI en el que está disponible el documento. Por ejemplo, el URI del documento en el sitio web de una empresa. -
_version
: un identificador de la versión específica de un documento. -
_view_count
: el número de veces que se ha visto el documento. -
_language_code
(cadena): el código de un idioma que se aplica al documento. Este valor se define por defecto en inglés si no especifica un idioma. Para obtener más información acerca de los idiomas admitidos, incluidos sus códigos, consulte Adición de documentos en idiomas distintos del inglés.
En el caso de campos personalizados, estos campos se crean mediante DocumentMetadataConfigurationUpdates
con la API UpdateIndex
, del mismo modo que cuando se crea un campo reservado o común. Debe establecer el tipo de datos adecuado para el campo personalizado. Si utiliza la consola, los campos se actualizan seleccionando el origen de datos, seleccionando la acción de edición y, a continuación, pasando a la sección de asignación de campos para configurar el origen de datos. Algunos orígenes de datos no admiten la adición de campos nuevos o campos personalizados. No puede cambiar el tipo de campo una vez que este se ha creado.
Los siguientes son los tipos que puede configurar para los campos personalizados:
-
Date
-
Número
-
Cadena
-
Lista de cadenas
Si ha añadido documentos al índice mediante la BatchPutDocumentAPI, Attributes
muestra los campos/atributos de los documentos y crea campos con el DocumentAttribute
objeto.
En el caso de los documentos indexados a partir de una fuente de Amazon S3 datos, los campos se crean mediante un archivo de metadatos JSON que incluye la información de los campos.
Si utiliza una base de datos compatible como origen de datos, puede configurar los campos mediante la opción de asignación de campos.