Creación de un conector de origen de datos - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de un conector de origen de datos

Puede crear un conector de fuente de datos para Amazon Kendra para conectarse a sus documentos e indexarlos. Amazon Kendra puede conectarse a Microsoft SharePoint, Google Drive y muchos otros proveedores. Cuando crea un conector de fuente de datos, proporciona Amazon Kendra la información de configuración necesaria para conectarse al repositorio de origen. A diferencia de añadir documentos directamente a un índice, puede escanear periódicamente el origen de datos para actualizar el índice.

Por ejemplo, supongamos que tiene un repositorio de documentos tributarios almacenado en un Amazon S3 balde. Ocasionalmente, los documentos existentes se modifican y se añaden nuevos documentos al repositorio. Si añades el repositorio a Amazon Kendra como fuente de datos, puede mantener el índice actualizado configurando sincronizaciones periódicas entre la fuente de datos y el índice.

Puede optar por actualizar un índice manualmente mediante la consola o el StartDataSourceSyncJobAPI. De lo contrario, puede configurar una programación para actualizar un índice y sincronizarlo con su origen de datos.

Un índice puede tener más de un origen de datos. Cada origen de datos puede tener su propia programación de actualizaciones. Por ejemplo, puede actualizar el índice de sus documentos de trabajo a diario, o incluso cada hora, y actualizar los documentos archivados manualmente cada vez que cambie el archivo.

Si desea modificar los metadatos o los atributos y el contenido del documento durante el proceso de ingesta del documento, consulte Amazon Kendra Enriquecimiento de documentos personalizado.

nota

Cada identificador de documento debe ser único por índice. No puede crear una fuente de datos para indexar los documentos con su identidad única IDs y, BatchPutDocument API a continuación, utilizarla para indexar los mismos documentos o viceversa. Puede eliminar una fuente de datos y, BatchPutDocument API a continuación, utilizarla para indexar los mismos documentos o viceversa. Usando el BatchPutDocument y BatchDeleteDocument APIs en combinación con un Amazon Kendra el conector de fuente de datos para el mismo conjunto de documentos podría provocar incoherencias con los datos. En su lugar, le recomendamos que utilice el Amazon Kendra conector de fuente de datos personalizado.

nota

Los archivos agregados al índice deben estar en un flujo de UTF 8 bytes codificados. Para obtener más información sobre los documentos en Amazon Kendra, consulte Documentos.

Establecimiento de un programa de actualizaciones

Configure el origen de datos para que se actualice periódicamente con la consola o mediante el parámetro Schedule al crear o actualizar un origen de datos. El contenido del parámetro es una cadena que contiene una cadena de programación en formato cron o una cadena vacía para indicar que el índice se actualiza a petición. Para conocer el formato de una expresión cron, consulte Programar expresiones para reglas en la Amazon CloudWatch Events Guía del usuario. Amazon Kendra solo admite expresiones cron. No admite expresiones de frecuencia.

Configuración del idioma

Puede indexar todos los documentos en un origen de datos en un idioma compatible. Al llamar CreateDataSource, debe especificar el código de idioma de todos los documentos en la fuente de datos. Si un documento no contiene un código de idioma especificado en un campo de metadatos, el documento se indexa utilizando el código de idioma especificado para todos los documentos en el nivel de origen de datos. Si no especifica ningún idioma, Amazon Kendra indexa los documentos de una fuente de datos en inglés de forma predeterminada. Para obtener más información acerca de los idiomas admitidos, incluidos sus códigos, consulte Adición de documentos en idiomas distintos del inglés.

Todos los documentos de un origen de datos en un idioma compatible se indexan mediante la consola. Vaya a Orígenes de datos y edite su origen de datos o a Agregar origen de datos si va a agregar un nuevo origen de datos. En la página Especificar detalles del origen de datos, seleccione un idioma en el menú desplegable Idioma. Seleccione Actualizar o continúe introduciendo la información de configuración para conectarse a su origen de datos.