Amazon S3 - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Amazon S3

Amazon S3 es un servicio de almacenamiento de objetos que almacena datos como objetos dentro de cubos. Puedes usarlo Amazon Kendra para indexar el repositorio de documentos de tu Amazon S3 depósito.

aviso

Amazon Kendra no utiliza una política de bucket que conceda permisos a un Amazon Kendra director para interactuar con un bucket de S3. En su lugar, usa IAM roles. Asegúrate de Amazon Kendra no incluirlo como miembro de confianza en tu política de grupos para evitar problemas de seguridad de los datos al conceder permisos accidentalmente a directores arbitrarios. Sin embargo, puede añadir una política de bucket para utilizar un bucket de Amazon S3 en distintas cuentas. Para obtener más información, consulte Políticas para usar Amazon S3 en varias cuentas (en la pestaña de roles de IAM de S3, en la sección Roles de IAM para orígenes de datos). Para obtener información sobre las IAM funciones de las fuentes de datos de S3, consulte las IAM funciones.

nota

Amazon Kendra ahora es compatible con un Amazon S3 conector actualizado.

La consola se ha actualizado automáticamente para usted. Todos los conectores nuevos que cree en la consola utilizarán la arquitectura actualizada. Si usa la API, ahora debe usar el TemplateConfigurationobjeto en lugar del S3DataSourceConfiguration objeto para configurar el conector.

Los conectores configurados con la antigua arquitectura de consola y API seguirán funcionando tal y como estaban configurados. Sin embargo, no podrá editarlos ni actualizarlos. Si desea editar o actualizar la configuración del conector, debe crear un conector nuevo.

Se recomienda migrar el flujo de trabajo del conector a la versión actualizada. Está previsto que el soporte para los conectores configurados con la arquitectura anterior finalice en junio de 2024.

Puede conectarse a su fuente de Amazon S3 datos mediante la Amazon Kendra consola o la TemplateConfigurationAPI.

nota

Para generar un informe de estado de sincronización para su fuente de Amazon S3 datos, consulte Solución de problemas con las fuentes de datos.

Para solucionar problemas del conector de fuente de datos Amazon Kendra S3, consulteSolución de problemas con los orígenes de datos.

Características admitidas

  • Asignaciones de campo

  • Control de acceso de usuarios

  • Filtros de inclusión/exclusión

  • Sincronizaciones de contenido completas e incrementales

  • Nube privada virtual (VPC)

Requisitos previos

Antes de poder utilizarla Amazon Kendra para indexar la fuente de datos de S3, realice estos cambios en su S3 y en sus AWS cuentas.

En S3, asegúrese de que:

  • Copiaste el nombre de tu Amazon S3 bucket.

    nota

    El depósito debe estar en la misma región que el Amazon Kendra índice y el índice debe tener permiso para acceder al depósito que contiene los documentos.

  • Ha comprobado que cada documento es único en S3 y en otros orígenes de datos que vaya a utilizar para el mismo índice. Cada origen de datos que desee utilizar para un índice no debe contener el mismo documento en varios orígenes de datos. Los ID de documento son globales para un índice y deben ser únicos por índice.

En tu AWS cuenta, asegúrate de tener:

Si no tiene un IAM rol existente, puede usar la consola para crear un nuevo IAM rol al conectar su fuente de datos de S3. Amazon Kendra Si utiliza la API, debe proporcionar el ARN de un IAM rol existente y un ID de índice.

Instrucciones de conexión

Para conectarse Amazon Kendra a la fuente de datos de S3, debe proporcionar los detalles necesarios de la fuente de datos de S3 para Amazon Kendra poder acceder a los datos. Si aún no ha configurado S3 para Amazon Kendra, consulteRequisitos previos.

Console

Para conectarse Amazon Kendra a Amazon S3

  1. Inicie sesión en la Amazon Kendra consola AWS Management Console y ábrala.

  2. En el panel de navegación izquierdo, elija Índices y, a continuación, elija el índice que desee usar de la lista de índices.

    nota

    Puede elegir configurar o editar los ajustes de Control de acceso de usuarios en la Configuración del índice.

  3. En la página Introducción, seleccione Agregar origen de datos.

  4. En la página Agregar fuente de datos, elija el conector S3 y, a continuación, elija Agregar conector. Si usa la versión 2 (si corresponde), elija el conector S3 con la etiqueta «V2.0".

  5. En la página Especificar detalles del origen de datos, introduzca la siguiente información:

    1. En Nombre y descripción, en Nombre del origen de datos: introduzca un nombre para el origen de datos. Puede incluir guiones, pero no espacios.

    2. (Opcional) Descripción: introduzca una descripción opcional para el origen de datos.

    3. En el idioma predeterminado: elija un idioma para filtrar los documentos para el índice. A menos que especifique lo contrario, el idioma predeterminado es el inglés. El idioma especificado en los metadatos del documento anula el idioma seleccionado.

    4. En Etiquetas, para añadir una nueva etiqueta: incluya etiquetas opcionales para buscar y filtrar sus recursos o realizar un seguimiento de sus AWS costes.

    5. Elija Siguiente.

  6. En la página Definir acceso y seguridad, introduzca la siguiente información opcional:

    1. IAM rol: elija un IAM rol existente o cree uno nuevo IAM para acceder a las credenciales de su repositorio e indexar el contenido.

      nota

      IAM los roles utilizados para los índices no se pueden usar para las fuentes de datos. Si no está seguro de si un rol existente se utiliza para un índice o para las preguntas frecuentes, elija Crear un nuevo rol para evitar errores.

    2. Nube privada virtual (VPC): puede optar por utilizar una VPC. Si es así, debe agregar Subredes y Grupos de seguridad de VPC.

    3. Elija Siguiente.

  7. En la página Configurar ajustes de sincronización, introduzca la siguiente información:

    1. Para la ubicación de la fuente de datos: especifique la ruta al Amazon S3 depósito donde se almacenan los datos. Seleccione Browse S3 para elegir su bucket de S3.

    2. Para obtener el tamaño máximo de archivo: especifique un límite en MB para rastrear solo los archivos que estén por debajo de este límite. El tamaño máximo de archivo permitido Amazon Kendra es de 50 MB.

    3. Para los archivos de metadatos (opcionales), prefija la ubicación de la carpeta: especifique la ruta a la carpeta en la que se almacenan los campos o atributos y otros metadatos del documento. Seleccione Examinar S3 para localizar la carpeta de metadatos.

    4. Para la ubicación del archivo de configuración de la lista de control de acceso (opcional): especifique la ruta al archivo que contiene una estructura JSON de los usuarios y su acceso a los documentos. Seleccione Examinar S3 para localizar el archivo de la ACL.

    5. (Opcional) Seleccionar clave de descifrado: seleccione esta opción para usar una clave de descifrado. Puede optar por utilizar una AWS KMS clave existente.

    6. Para una configuración adicional (opcional): añada patrones para incluir o excluir determinados archivos. Todas las rutas se expresan con relación al bucket de S3 de ubicación del origen de datos.

    7. Modo de sincronización: elija cómo desea actualizar el índice cuando cambie el contenido del origen de datos. Al sincronizar la fuente de datos Amazon Kendra por primera vez, todo el contenido se rastrea e indexa de forma predeterminada. Debes realizar una sincronización completa de los datos si la sincronización inicial ha fallado, incluso si no seleccionas la sincronización completa como opción de modo de sincronización.

      • Sincronización completa: indexa todo el contenido de forma inmediata y reemplaza el contenido existente cada vez que la fuente de datos se sincronice con el índice.

      • Sincronización nueva, modificada o eliminada: indexe solo el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para rastrear los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.

    8. En el programa de ejecución sincronizado, para Frecuencia: elija la frecuencia con la que desea sincronizar el contenido de la fuente de datos y actualizar el índice.

    9. Elija Siguiente.

  8. En la página Establecer asignaciones de campos, especifique la siguiente información opcional:

    1. Asignaciones de campos predeterminadas: seleccione entre las fuentes de datos predeterminadas Amazon Kendra generadas los campos que desee asignar a su índice.

    2. Agregar campo: elija esta opción para agregar campos de origen de datos personalizados para crear un nombre de campo de índice al que asignarlos y el tipo de datos del campo.

    3. Elija Siguiente.

  9. En la página Revisar y crear, compruebe que la información que ha introducido es correcta y, a continuación, seleccione Añadir origen de datos. También puede elegir editar la información desde esta página. El origen de datos aparecerá en la página Orígenes de datos una vez que el origen de datos se haya agregado correctamente.

API

Para conectarse a Amazon Kendra Amazon S3

Debe especificar un JSON del esquema de la fuente de datos mediante la TemplateConfigurationAPI. Debe proporcionar la siguiente información:

  • Fuente de datos: especifique el tipo de fuente de datos como S3 cuando utiliza el esquema TemplateConfigurationJSON. Especifique también la fuente de datos TEMPLATE al llamar a la CreateDataSourceAPI.

  • BucketName: el nombre del depósito que contiene los documentos.

  • Modo de sincronización: especifique cómo Amazon Kendra debe actualizarse el índice cuando cambie el contenido de la fuente de datos. Al sincronizar la fuente de datos Amazon Kendra por primera vez, todo el contenido se rastrea e indexa de forma predeterminada. Debes realizar una sincronización completa de los datos si la sincronización inicial ha fallado, incluso si no seleccionas la sincronización completa como opción de modo de sincronización. Puede elegir entre las siguientes opciones:

    • FORCED_FULL_CRAWLpara indexar todo el contenido de forma actualizada, sustituyendo el contenido existente cada vez que la fuente de datos se sincronice con el índice.

    • FULL_CRAWLpara indexar solo el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.

  • IAM rol: especifique RoleArn cuándo llama CreateDataSource para proporcionar a un IAM rol permisos para acceder a su Secrets Manager secreto y para llamar a las API públicas requeridas para el conector S3 y Amazon Kendra. Para obtener más información, consulte Roles de IAM para orígenes de datos de S3.

También puede añadir las siguientes características opcionales:

  • Nube privada virtual (VPC): especifique a VpcConfiguration cuándo llamar a CreateDataSource. Para obtener más información, consulte Configuración Amazon Kendra para usar un Amazon VPC.

  • Filtros de inclusión y exclusión: especifique si desea incluir o excluir determinados nombres, tipos y rutas de archivos. Se utilizan patrones globales (patrones que pueden expandir un patrón comodín hasta convertirse en una lista de nombres de rutas que coincidan con el patrón dado). Para ver ejemplos, consulte Uso de filtros de exclusión e inclusión en la referencia de comandos de la AWS CLI.

  • Configuración de metadatos de documentos y control de acceso: agregue metadatos de documentos y archivos de control de acceso que contengan información como el URI de origen, el autor del documento o los campos o atributos del documento personalizados, así como sus usuarios y los documentos a los que pueden acceder. Cada archivo de metadatos contiene metadatos sobre un solo documento.

  • Asignaciones de campos: elija asignar los campos del origen de datos de S3 a los campos de índice de Amazon Kendra . Para obtener más información, consulte Asignación de campos de origen de datos.

    nota

    El campo del cuerpo del documento o el cuerpo del documento equivalente de sus documentos es obligatorio Amazon Kendra para poder buscarlos. Debe asignar el nombre del campo del cuerpo del documento en la fuente de datos al nombre del campo de índice_document_body. Todos los demás campos son opcionales.

Para obtener una lista de otras claves JSON importantes que debe configurar, consulte el Esquema de plantilla de S3.

Más información

Para obtener más información sobre la integración Amazon Kendra con la fuente de datos de S3, consulte: