OneDrive Conector Microsoft V2.0 - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

OneDrive Conector Microsoft V2.0

Microsoft OneDrive es un servicio de almacenamiento basado en la nube que puedes usar para almacenar, compartir y alojar tu contenido. Puede usarlo Amazon Kendra para indexar su fuente OneDrive de datos.

Puede conectarse Amazon Kendra a su fuente OneDrive de datos mediante la Amazon Kendra consola y la OneDriveConfigurationAPI.

nota

Está previsto que el soporte para OneDrive Connector OneDriveConfiguration V1.0/API finalice en junio de 2023. Recomendamos utilizar el OneDrive conector TemplateConfiguration V2.0/API. La versión 2.0 proporciona ACL adicionales y la funcionalidad del rastreador de identidades.

Para solucionar problemas del conector de la fuente de Amazon Kendra OneDrive datos, consulteSolución de problemas con los orígenes de datos.

Características admitidas

Amazon Kendra OneDrive el conector de fuente de datos admite las siguientes funciones:

  • Asignaciones de campo

  • control de acceso de usuarios

  • Filtros de inclusión/exclusión

  • Sincronizaciones de contenido completas e incrementales

  • Nube privada virtual (VPC)

Requisitos previos

Antes de poder utilizarla Amazon Kendra para indexar la fuente de OneDrive datos, realice estos cambios en sus AWS cuentas OneDrive y.

En OneDrive, asegúrate de tener:

  • Creó una OneDrive cuenta en Office 365.

  • Ha apuntado su ID de inquilino de Microsoft 365. Puede encontrar su ID de inquilino en las propiedades de su portal de Azure Active Directory o en su aplicación OAuth.

  • Creó una aplicación OAuth en el portal de Azure y anotó el ID de cliente y el secreto del cliente o las credenciales del cliente utilizadas para la autenticación con un AWS Secrets Manager secreto. Consulte el tutorial de Microsoft y el ejemplo de aplicación registrada para obtener más información.

    nota

    Al crear o registrar una aplicación en el portal de Azure, el ID secreto representa el valor secreto real. Debe anotar o guardar el valor secreto real inmediatamente al crear el secreto y la aplicación. Para acceder a su secreto, seleccione el nombre de la aplicación en el portal de Azure y, a continuación, vaya a la opción de menú relativa a los certificados y secretos.

    Para acceder a su ID de cliente, seleccione el nombre de su aplicación en el portal de Azure y, a continuación, vaya a la página de información general. El ID de la aplicación (cliente) es el ID del cliente.

    nota

    Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No se recomienda volver a utilizar las credenciales y los datos secretos en varios orígenes de datos ni en las versiones 1.0 y 2.0 del conector (si procede).

  • Ha utilizado el ID de la aplicación de AD para registrar una clave secreta para la aplicación en el sitio de AD. La clave secreta debe contener el ID de la aplicación y una clave secreta.

  • Ha copiado el dominio de AD de la organización.

  • Ha agregado los siguientes permisos a la aplicación de AD en la opción Microsoft Graph:

    • Leer los archivos de todas las colecciones de sitios (File.Read-All)

    • Lea los perfiles completos de todos los usuarios (User.Read.All)

    • Leer todos los grupos (Group.Read.All)

    • Lea todas las notas (Notes.Read.All)

  • Ha copiado la lista de usuarios cuyos documentos se deben indexar. Puede elegir entre proporcionar una lista de nombres de usuario o puede proporcionarlos en un archivo almacenado en un Amazon S3. Después de crear el origen de datos, puede:

    • Modificar la lista de usuarios.

    • Cambie de una lista de usuarios a una lista almacenada en un Amazon S3 bucket.

    • Cambia la ubicación del Amazon S3 depósito de una lista de usuarios. Si cambias la ubicación del depósito, también debes actualizar el IAM rol de la fuente de datos para que tenga acceso al depósito.

      nota

      Si almacena la lista de nombres de usuario en un Amazon S3 depósito, la IAM política de la fuente de datos debe proporcionar acceso al depósito y acceso a la clave con la que se cifró el depósito, si la hubiera.

      El OneDrive conector utiliza el correo electrónico de la información de contacto presente en las propiedades de usuario de Onedrive. Asegúrese de que el usuario cuyos datos desea rastrear tenga el campo de correo electrónico configurado en la página Información de contacto, ya que, en el caso de los nuevos usuarios, podría estar en blanco.

En tu AWS cuenta, asegúrate de tener:

  • Creó un Amazon Kendra índice y, si utiliza la API, anotó el identificador del índice.

  • Creó un IAM rol para su fuente de datos y, si usa la API, anotó el ARN del IAM rol.

  • Guardó sus credenciales de OneDrive autenticación en un AWS Secrets Manager secreto y, si usa la API, anotó el ARN del secreto.

Si no tiene un IAM rol o secreto existente, puede usar la consola para crear un nuevo IAM rol y un Secrets Manager secreto al conectar su fuente de OneDrive datos. Amazon Kendra Si utiliza la API, debe proporcionar el ARN de un IAM rol y un Secrets Manager secreto existentes y un identificador de índice.

Instrucciones de conexión

Para conectarse Amazon Kendra a su fuente de OneDrive datos, debe proporcionar los detalles de sus OneDrive credenciales para que Amazon Kendra pueda acceder a sus datos. Si aún no lo ha configurado OneDrive Amazon Kendra, consulteRequisitos previos.

Console

Para conectarse Amazon Kendra a OneDrive

  1. Inicie sesión en la Amazon Kendra consola AWS Management Console y ábrala.

  2. En el panel de navegación izquierdo, elija Índices y, a continuación, elija el índice que desee usar de la lista de índices.

    nota

    Puede elegir configurar o editar los ajustes de Control de acceso de usuarios en la Configuración del índice.

  3. En la página Introducción, seleccione Agregar origen de datos.

  4. En la página Agregar fuente de datos, elija el OneDrive conector y, a continuación, elija Agregar conector. Si utiliza la versión 2 (si corresponde), elija el OneDrive conector con la etiqueta «V2.0".

  5. En la página Especificar detalles del origen de datos, introduzca la siguiente información:

    1. En Nombre y descripción, en Nombre del origen de datos: introduzca un nombre para el origen de datos. Puede incluir guiones, pero no espacios.

    2. (Opcional) Descripción: introduzca una descripción opcional para el origen de datos.

    3. En el idioma predeterminado: elija un idioma para filtrar los documentos para el índice. A menos que especifique lo contrario, el idioma predeterminado es el inglés. El idioma especificado en los metadatos del documento anula el idioma seleccionado.

    4. En Etiquetas, para añadir una nueva etiqueta: incluya etiquetas opcionales para buscar y filtrar sus recursos o realizar un seguimiento de sus AWS costes.

    5. Elija Siguiente.

  6. En la página Definir acceso y seguridad, introduzca la siguiente información:

    1. OneDrive ID de inquilino: introduzca el ID de OneDrive inquilino sin el protocolo.

    2. Autorización: active o desactive la información de la lista de control de acceso (ACL) para sus documentos, si tiene una ACL y desea utilizarla para el control de acceso. La ACL especifica a qué documentos pueden acceder los usuarios y los grupos. La información de la ACL se utiliza para filtrar los resultados de búsqueda en función del acceso del usuario o su grupo a los documentos. Para obtener más información, consulte Filtrado de contexto de usuario.

    3. En Autenticación: elija entre Nueva y Existente.

      1. Si elige Existente, seleccione un secreto existente en Seleccionar secreto.

      2. Si elige Nuevo, introduzca la siguiente información en la sección Nuevo secreto de AWS Secrets Manager :

        1. Nombre del secreto: un nombre para su secreto. El prefijo 'AmazonKendra- OneDrive -' se añade automáticamente a su nombre secreto.

        2. Para el ID de cliente y el secreto del cliente: introduzca el ID y el secreto del cliente.

    4. Nube privada virtual (VPC): puede optar por utilizar una VPC. Si es así, debe agregar Subredes y Grupos de seguridad de VPC.

    5. Rastreador de identidad: especifique si se debe activar el rastreador Amazon Kendra de identidad. El rastreador de identidades utiliza la información de la lista de control de acceso (ACL) de los documentos para filtrar los resultados de la búsqueda en función del acceso del usuario o de su grupo a los documentos. Si tiene una ACL para sus documentos y decide utilizarla, también puede optar por activar el rastreador de identidades para configurar el filtrado Amazon Kendra de los resultados de búsqueda según el contexto del usuario. De lo contrario, si el rastreador de identidades está desactivado, se pueden buscar públicamente todos los documentos. Si quieres usar el control de acceso para tus documentos y el rastreador de identidad está desactivado, también puedes usar la PutPrincipalMappingAPI para cargar información de acceso de usuarios y grupos para filtrar el contexto de los usuarios.

    6. IAM rol: elija un IAM rol existente o cree uno nuevo IAM para acceder a las credenciales del repositorio y al contenido del índice.

      nota

      IAM los roles utilizados para los índices no se pueden usar para las fuentes de datos. Si no está seguro de si un rol existente se utiliza para un índice o para las preguntas frecuentes, elija Crear un nuevo rol para evitar errores.

    7. Elija Siguiente.

  7. En la página Configurar ajustes de sincronización, introduzca la siguiente información:

    1. Para el ámbito de sincronización: elija los OneDrive datos de los usuarios que desee indexar. Puede agregar un máximo de 10 usuarios de forma manual.

    2. En Configuración adicional: añada patrones de expresión regular para incluir o excluir determinado contenido. Puede agregar hasta 100 patrones.

    3. Modo de sincronización: elija cómo desea actualizar el índice cuando cambie el contenido del origen de datos. Al sincronizar la fuente de datos Amazon Kendra por primera vez, todo el contenido se rastrea e indexa de forma predeterminada. Debes realizar una sincronización completa de los datos si la sincronización inicial ha fallado, incluso si no eliges la sincronización completa como opción de modo de sincronización.

      • Sincronización completa: indexa todo el contenido de forma inmediata y reemplaza el contenido existente cada vez que la fuente de datos se sincronice con el índice.

      • Sincronización nueva y modificada: indexe solo el contenido nuevo y modificado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.

      • Sincronización nueva, modificada o eliminada: indexe solo el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.

    4. En el programa de ejecución sincronizado, para Frecuencia: elija la frecuencia con la que desea sincronizar el contenido de la fuente de datos y actualizar el índice.

    5. Elija Siguiente.

  8. En la página Establecer asignaciones de campos, especifique la siguiente información:

    1. Campos de fuente de datos predeterminados: seleccione entre los campos de fuente de datos predeterminados Amazon Kendra generados que desee asignar a su índice.

    2. Elija Siguiente.

  9. En la página Revisar y crear, compruebe que la información que ha introducido es correcta y, a continuación, seleccione Añadir origen de datos. También puede elegir editar la información desde esta página. El origen de datos aparecerá en la página Orígenes de datos una vez que el origen de datos se haya agregado correctamente.

API

Para conectarse a Amazon Kendra OneDrive

Debe especificar un JSON del esquema de la fuente de datos mediante la TemplateConfigurationAPI. Debe proporcionar la siguiente información:

  • Fuente de datos: especifique el tipo de fuente de datos como ONEDRIVEV2 cuando utiliza el esquema TemplateConfigurationJSON. Especifique también la fuente de datos TEMPLATE al llamar a la CreateDataSourceAPI.

  • ID de inquilino: especifique el ID de inquilino de Microsoft 365. Puede encontrar su ID de inquilino en las propiedades de su portal de Azure Active Directory o en su aplicación OAuth.

  • Modo de sincronización: especifique cómo Amazon Kendra debe actualizarse el índice cuando cambie el contenido de la fuente de datos. Al sincronizar la fuente de datos Amazon Kendra por primera vez, todo el contenido se rastrea e indexa de forma predeterminada. Debes realizar una sincronización completa de los datos si la sincronización inicial ha fallado, incluso si no eliges la sincronización completa como opción de modo de sincronización. Puede elegir entre las siguientes opciones:

    • FORCED_FULL_CRAWLpara indexar todo el contenido de forma actualizada, sustituyendo el contenido existente cada vez que la fuente de datos se sincronice con el índice.

    • FULL_CRAWLpara indexar solo el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.

    • CHANGE_LOGpara indexar solo el contenido nuevo y modificado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.

  • Nombre secreto de recurso de Amazon (ARN): proporcione el nombre de recurso de Amazon (ARN) de un Secrets Manager secreto que contenga las credenciales de autenticación que creó en su cuenta. OneDrive

    Si utiliza la autenticación OAuth 2.0, el secreto se almacena en una estructura JSON con las siguientes claves:

    { "clientId": "client ID", "clientSecret": "client secret" }
  • IAM rol: especifique RoleArn cuándo llama CreateDataSource para proporcionar un IAM rol con permisos para acceder a su Secrets Manager secreto y para llamar a las API públicas requeridas para el conector y. OneDrive Amazon Kendra Para obtener más información, consulte las IAM funciones de las fuentes OneDrive de datos.

También puede añadir las siguientes características opcionales:

  • Nube privada virtual (VPC): especifique a VpcConfiguration cuándo llamar a CreateDataSource. Para obtener más información, consulte Configuración Amazon Kendra para usar un Amazon VPC.

  • Filtros de inclusión y exclusión: puede especificar si desea incluir o excluir determinados archivos, OneNote secciones y OneNote páginas.

    nota

    La mayoría de los orígenes de datos utilizan patrones de expresiones regulares, que son patrones de inclusión o exclusión denominados filtros. Si especifica un filtro de inclusión, solo se indexará el contenido que coincida con el filtro de inclusión. Los documentos que no coincidan con el filtro de inclusión no se indexan. Si especifica un filtro de inclusión y exclusión, los documentos que coincidan con el filtro de exclusión no se indexarán, aunque coincidan con el filtro de inclusión.

  • Rastreador de identidad: especifique si se debe activar el rastreador Amazon Kendra de identidad. El rastreador de identidades utiliza la información de la lista de control de acceso (ACL) de los documentos para filtrar los resultados de la búsqueda en función del acceso del usuario o de su grupo a los documentos. Si tiene una ACL para sus documentos y decide utilizarla, también puede optar por activar el rastreador de identidades para configurar el filtrado Amazon Kendra de los resultados de búsqueda según el contexto del usuario. De lo contrario, si el rastreador de identidades está desactivado, se pueden buscar públicamente todos los documentos. Si quieres usar el control de acceso para tus documentos y el rastreador de identidad está desactivado, también puedes usar la PutPrincipalMappingAPI para cargar información de acceso de usuarios y grupos para filtrar el contexto de los usuarios.

  • Asignaciones de campos: solo puede mapear campos de índice integrados o comunes para el conector. Amazon Kendra OneDrive La asignación de campos personalizada no está disponible para el OneDrive conector debido a las limitaciones de la API. Para obtener más información, consulte Asignación de campos de origen de datos.

Para ver una lista de otras claves JSON importantes que debes configurar, consulta el esquema OneDrive de la plantilla.