Creación de origen de datos - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de origen de datos

Puede crear un conector de origen de datos paraAmazon Kendrapara conectarse a los documentos e indexarlos.Amazon Kendrapuede conectarse a Microsoft SharePoint, Google Drive y muchos otros proveedores. Cuando crea un conector de origen de datos, proporcionaAmazon Kendrala información de configuración necesaria para conectarse al repositorio de origen. A diferencia de añadir documentos directamente a un índice, puede escanear periódicamente la fuente de datos para actualizar el índice.

Por ejemplo, supongamos que tiene un repositorio de documentos de impuestos almacenado en un bucket de S3. De vez en cuando, se cambian los documentos existentes y se agregan documentos nuevos al repositorio. Si ha incorporado el repositorio aAmazon Kendracomo fuente de datos, puede mantener su índice actualizado mediante la configuración de sincronizaciones periódicas entre la fuente de datos y el índice.

Puede optar por actualizar un índice manualmente mediante la consola o laStartDataSourceSyncJobAPI. De lo contrario, configura un programa para actualizar un índice y hacer que se sincronice con la fuente de datos.

Un índice puede tener más de una origen de datos. Cada fuente de datos puede tener su propia programación de actualizaciones. Por ejemplo, puede actualizar el índice de los documentos de trabajo diariamente, o incluso cada hora, mientras actualiza los documentos archivados manualmente cada vez que cambia el archivo.

Si desea modificar los metadatos o atributos del documento y el contenido durante el proceso de ingesta de documentos, consulte Custom Document Enrichment de Amazon Kendra.

Tenga en cuenta que cada ID de documento debe ser único por índice. No se puede crear un origen de datos para indexar los documentos con sus ID exclusivos y, a continuación, utilizar la API BatchPutDocument para indexar los mismos documentos o viceversa. No se puede crear un origen de datos para indexar los documentos con sus ID exclusivos y, a continuación, utilizar la API BatchPutDocument para indexar los mismos documentos o viceversa.

Establecer un calendario de actualizaciones

Configure la fuente de datos para que se actualice periódicamente con la consola o medianteScheduleal crear o actualizar una fuente de datos. El contenido del parámetro es una cadena que contiene uncron-format schedule string o una cadena vacía para indicar que el índice se actualiza a pedido. Para obtener información sobre el formato de una expresión cron, consulteProgramar expresiones para reglasen laAmazon CloudWatch EventsGuía del usuario de.Amazon Kendrasolo admite expresiones cron. No admite expresiones de tarifas.

Configuración de un idioma

Puede indexar todos sus documentos en una fuente de datos en un idioma admitido. Usted especifica el código de idioma de todos los documentos de la fuente de datos cuando llamaCreateDataSource. Si un documento no contiene un código de idioma especificado en un campo de metadatos, el documento se indexará utilizando el código de idioma especificado para todos los documentos en el nivel de origen de datos. Si no especifica un idioma,Amazon Kendraindexa los documentos de una fuente de datos en inglés de forma predeterminada. Para obtener más información sobre los lenguajes admitidos, incluidos sus códigos, consulteAdición de documentos en idiomas distintos del inglés.

Puede indexar todos los documentos en una fuente de datos en un idioma admitido mediante la consola. Vaya aOrígenes de datosy edite su origen de datos oAgregue origen de datossi va a añadir un nuevo origen de datos. En la páginaEspecificar detalles de fuente de datos, elija un idioma en el menú desplegableIdioma. Puede seleccionarActualizacióno continúe introduciendo la información de configuración para conectarse a su origen de datos.