Uso de una GitHub origen de datos - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de una GitHub origen de datos

Puede utilizar su GitHub repositorio o repositorios como fuente de datos paraAmazon Kendra. Para utilizar GitHub en la consola de, vaya a laAmazon Kendraconsola, selecciona tu índice y, a continuación, seleccionaOrígenes de datosdesde el menú de navegación para añadir GitHub.

Cuando te conectas a GitHub para indexar los documentos, debe especificar si utiliza GitHubNube empresarial (SaaS) o GitHub Servidor empresarial (local). Debe proporcionar el GitHubURL de host para tu tipo de GitHub servicio que utilizas. Por ejemplo, la URL del host de GitHubnube podría serhttps://api.github.comy la URL del host para GitHubel servidor podría serhttps://on-prem-host-url/api/v3/.

También debe proporcionar el nombre de la organización de los repositorios. Puede encontrar el nombre de la organización iniciando sesión en GitHub Escritorio de y selecciónSus organizacionesen el menú desplegable de tu foto de perfil. Si usa GitHub servidor, debe usar unAmazon Virtual Private Cloud(VPC) para conectarse a su GitHub servidor de.

Puede especificar patrones de expresiones regulares para incluir o excluir archivos específicos dentro de GitHub repositorios de. Puede especificar qué repositorios desea indexar. Puedes elegir si quieres indexar solo los archivos de los repositorios o incluir propuestas y solicitudes de extracción, así como sus comentarios y adjuntos de comentarios.

Debe crear un índice antes de crear el GitHub origen de datos. Para obtener más información, consulteCreación de un índice. Debe proporcionar el ID del índice al crear la fuente de datos.

Para conectar a GitHub, puede especificar la conexión y otra información en la consola o mediante laGitHubConfigurationobjetar. Debe proporcionar el GitHub URL de host o URL de punto final de API y GitHub nombre de organización asociado a los repositorios que desea indexar.

Antes de poder indexar los documentos o el contenido de su GitHub repositorios, debes ser un GitHub usuario con permisos administrativos para la organización en la GitHub cuenta corporativa de.

También deberá proporcionar el nombre de recurso de Amazon (ARN) de unIAMque conceda permiso a para acceder a GitHub organización de. Usted proporciona el ARN de unIAMmediante laCreateDataSourceAPI. Para obtener más información acerca de los permisos de, consulteIAMRoles de para GitHuborigen de datos.

Amazon Kendrarequiere credenciales de autenticación para acceder a su GitHub organización de. Consulte Autenticación.

Amazon Kendratambién rastrea la información del usuario desde el GitHub instancia. Esto resulta útil para el filtrado de contexto de usuario, en el que los resultados de la búsqueda se filtran en función del acceso del usuario o su grupo a los documentos. Para obtener más información, consulteFiltrado de contexto de usuario para GitHub origen de datos.

También puede añadir la siguiente información opcional:

  • Ya seaAmazon Kendradebe indexar el contenido de los comentarios de su GitHubcontenido de. Cada comentario se indexa como un documento independiente.

  • Ya seaAmazon Kendradebe utilizar el GitHub mecanismo de registro de cambios para determinar si es necesario actualizar el contenido en el índice. Utilice el registro de cambios si no deseaAmazon Kendrapara analizar todos los archivos. Sin embargo, si el registro de cambios es grande, puede que tardeAmazon Kendramenos tiempo para analizar los archivos del GitHubrepositorios que procesar el registro de cambios. Si estás sincronizando tu GitHub fuente de datos con su índice por primera vez, se exploran todos los archivos.

  • Patrón de inclusión o exclusión: Si especifica un patrón de inclusión, no se indiza ningún archivo del repositorio con un nombre o tipo de archivo que no coincida con el patrón. Si especifica un patrón de inclusión y exclusión, los documentos que coincidan con el patrón de exclusión no se indexarán aunque coincidan con el patrón de inclusión.

  • Mapeos de campo que mapean su GitHub Campos paraAmazon KendraCampos de índice de. Para obtener más información, consulteAsignación de campos de origen de datos.

Autenticación

Las credenciales de autenticación para acceder a su GitHub la organización debe incluir su GitHub Token de acceso. Creas el token en GitHub. Almacenas tu GitHub Credenciales en unAWS Secrets Managersecreto de. Si usa elAmazon Kendrapara crear la fuente de datos, puede crear el secreto mientras crea la fuente de datos. O puede utilizar unSecrets Managersecreto de. Si utiliza la API para crear la origen de datos, deberá proporcionar el nombre de recurso de Amazon (ARN) de un secreto existente.

Las credenciales se almacenan como una cadena JSON en laSecrets Managersecreto de.

{ "githubToken": "token" }

Para crear un token en GitHub

  1. Inicie sesión en el GitHub aplicación de escritorio de. Debe disponer de permisos administrativos para la organización en la GitHub cuenta corporativa de.

  2. Seleccione el menú desplegable de imagen de perfil en la parte superior de la página y, a continuación, seleccioneSus organizaciones.

  3. SelectConfiguraciónjunto al nombre de la organización y, a continuación, seleccionaConfiguración para desarrolladores.

  4. SelectTokens de acceso personaly luegoGenerar token nuevo.

  5. Escriba un nombre para el token de. Por ejemplo,kendra_github_token.

  6. Establece la caducidad de tu token.

  7. Si usa GitHub Enterprise Cloud (SaaS), elija los siguientes permisos:

    • repositorio: estado

    • public_repo

    • repo: invitar

    • leer:org

    • usuario: correo electrónico

    • leer: user

    Si usa GitHub Enterprise Server (local), elija los siguientes permisos:

    • repositorio: estado

    • public_repo

    • repo: invitar

    • leer:org

    • usuario: correo electrónico

    • leer: user

    • site_admin

  8. SelectGenerar token.

  9. Copie el token. Lo necesitará cuando cree elSecrets Managersecreto de GitHub origen de datos.