Tipos o formatos de documentos - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Tipos o formatos de documentos

Amazon Kendra admite los tipos o formatos de documentos más populares, como PDF, HTML PowerPoint, Word y más. Un índice puede contener varios formatos de documento.

Amazon Kendra extrae el contenido de los documentos para poder buscarlos. Los documentos se analizan de forma que se optimice la búsqueda en el texto extraído y en cualquier contenido tabular (tablas HTML) de los documentos. Esto significa estructurar los documentos en campos o atributos que se utilizan para la búsqueda. Los metadatos del documento, como la fecha de la última modificación, pueden ser campos útiles para la búsqueda.

Los documentos se pueden organizar en filas y columnas. Por ejemplo, cada documento es una fila y cada campo/atributo del documento, como el título y el contenido del cuerpo, es una columna. Por ejemplo, si utiliza una base de datos como origen de datos, los datos deben estructurarse u organizarse en filas y columnas.

Puede añadir documentos al índice de las siguientes maneras:

Si desea añadir un archivo de preguntas frecuentes, utilice la CreateFaqAPI para añadir el archivo almacenado en un Amazon S3 depósito. Puede elegir entre un formato CSV básico, un formato CSV que incluya campos/atributos personalizados en un encabezado y un formato JSON que incluya campos personalizados. El formato predeterminado es CSV básico.

A continuación, se proporciona información sobre cada formato de documento compatible y cómo Amazon Kendra trata cada formato al indexar documentos.

Formato del documento Tratado como Cómo se trata el documento Estructura original
Formato de documento portátil (PDF) HTML Se convierte a HTML y, a continuación, se extrae el contenido. No estructurado
HyperText Lenguaje de marcado (HTML) HTML Las etiquetas HTML se filtran para extraer el contenido. El contenido debe estar entre las etiquetas HTML principales de inicio y cierre (<HTML>content</HTML>). Semiestructurado
Lenguaje de marcado extensible (XML) XML Las etiquetas XML se filtran para extraer el contenido. Semiestructurado
Transformación del lenguaje de hojas de estilo extensible (XSLT) XSLT Las etiquetas se filtran para extraer el contenido. Semiestructurado
MarkDown (MD) Texto no cifrado El contenido se extrae con MarkDown la sintaxis incluida. Semiestructurado
Valores separados por comas (CSV) CSV Contenido extraído de cada celda, con un único archivo tratado como resultado de un único documento. Estructurado para archivos de preguntas frecuentes; de lo contrario, semiestructurado
Microsoft Excel (XLS y XLSX) XLS y XLSX Contenido extraído de cada celda, con un único archivo tratado como resultado de un único documento. Semiestructurado
JavaScript Notación de objetos (JSON) Texto no cifrado El contenido se extrae con la sintaxis JSON incluida. Semiestructurado
Formato de texto enriquecido (RTF) RTF La sintaxis RTF se filtra para extraer el contenido. Semiestructurado
Microsoft PowerPoint (PPT) PPT Solo se extrae el contenido de texto de las PowerPoint diapositivas para su búsqueda. Las imágenes y otros contenidos no se extraen. No estructurado
Microsoft Word (DOCX) DOCX Solo se extrae el contenido de texto de las páginas de Word para su búsqueda. Las imágenes y otros contenidos no se extraen. No estructurado
Texto sin formato (TXT) TXT Se extrae todo el texto del documento de texto. No estructurado