Uso de un origen de datos personalizado - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de un origen de datos personalizado

Utilice un origen de datos personalizado cuando tenga un repositorio queAmazon Kendratodavía no proporciona un conector de origen de datos para. Puedes usarlo para ver las mismas métricas del historial de ejecuciones queAmazon Kendralas fuentes de datos proporcionan incluso cuando no se puede utilizarAmazon Kendrafuentes de datos para sincronizar tus repositorios. Utilízalo para crear una experiencia de supervisión de sincronización coherente entreAmazon Kendrafuentes de datos y personalizadas. En concreto, utilice un origen de datos personalizado para ver las métricas de sincronización de un conector de fuente de datos que creó mediante elBatchPutDocumentyEliminar documento por lotesAPI.

Cuando cree una fuente de datos personalizada, puede ejercer un control total sobre el modo en que se seleccionan los documentos a indexar.Amazon Kendraproporciona solo información de métricas de que se pueden utilizar para monitorizar los trabajos de sincronización de orígenes de datos. Debe crear y ejecutar el rastreador que determina los documentos que los índices de origen de datos.

Puede crear un identificador para su origen de datos personalizado mediante la consola o mediante elCreateDataSourceAPI. Para utilizar la consola, asigne un nombre a la fuente de datos y, opcionalmente, una descripción y etiquetas de recursos. Después de crear el origen de datos, se muestra un ID de origen de datos. Copie este ID para utilizarlo al sincronizar el origen de datos con el índice.

También puede crear una fuente de datos personalizada mediante elCreateDataSourceAPI. La API devuelve un ID que se utilizará al sincronizar el origen de datos. Cuando utilice elCreateDataSourceAPI para crear un origen de datos personalizado, no se puede configurar elConfiguration,RoleArnoScheduleparámetros. Si establece estos parámetros,Amazon Kendradevuelve un objetoValidationExceptionexcepción.

Para utilizar un origen de datos personalizado, cree una aplicación que se encargue de actualizar elAmazon Kendraíndice. La aplicación depende del rastreador que cree. El rastreador lee los documentos del repositorio y determina cuál debe enviarse aAmazon Kendra. La aplicación debe realizar los pasos siguientes:

  1. Rastrea tu repositorio y haz una lista de los documentos del repositorio que se agregan, actualizan o eliminan.

  2. Llame a laTrabajo de sincronización de origen de datos de inicioAPI para indicar que se está iniciando un trabajo de sincronización. Proporciona un ID de origen de datos para identificar el origen de datos que se está sincronizando.Amazon Kendradevuelve un identificador de ejecución para identificar un trabajo de sincronización concreto.

  3. Llame a laEliminar documento por lotesAPI para añadir, actualizar y quitar documentos del índice. Proporciona el ID de origen de datos y el identificador de ejecución para identificar el origen de datos que se está sincronizando y el trabajo al que está asociada esta actualización.

  4. Llame a laDetener trabajo de sincronización de origen de datosAPI para indicar el final del trabajo de sincronización. Después de llamar alStopDataSourceSyncJobAPI, el identificador de ejecución asociado ya no es válido.

  5. Llame a laLista de trabajos de sincronización de fuentes de datosAPI con identificadores de índice y fuente de datos para enumerar los trabajos de sincronización del origen de datos y ver métricas de los trabajos de sincronización.

Después de finalizar un trabajo de sincronización, puede iniciar un nuevo trabajo de sincronización. Puede haber un período de tiempo antes de que todos los documentos enviados se añadan al índice. UsarListDataSourceSyncJobsAPI para ver el estado del trabajo de sincronización. Si el archivo deStatusdevuelto para el trabajo de sincronización esSYNCING_INDEXING, algunos documentos se siguen indexando. Puede iniciar un nuevo trabajo de sincronización cuando el estado del trabajo anterior seaFAILED,SUCCEEDED, o bienSYNCING_INDEX.

Después de llamar alStopDataSourceSyncJobAPI, no puedes usar un identificador de trabajo de sincronización en una llamada alBatchPutDocumentoBatchDeleteDocumentAPI. Si lo hace, todos los documentos enviados se devuelven en elFailedDocumentsmensaje de respuesta de la API.

Es un atributo obligatorio

Cuando envía un documento aAmazon KendraUsando elBatchPutDocumentAPI, cada documento requiere dos atributos para identificar el origen de datos y la ejecución de sincronización a la que pertenece. Debe proporcionar los dos atributos siguientes:

  • _data_source_id— El identificador del origen de datos. Esto se devuelve cuando crea el origen de datos con la consola o elCreateDataSourceAPI.

  • _data_source_sync_job_execution_id— Identificador de la ejecución de sincronización. Esto se devuelve cuando inicia la sincronización del índice con elStartDataSourceSyncJobAPI.

A continuación se muestra el JSON necesario para indexar un documento mediante un origen de datos personalizado.

{ "Documents": [ { "Attributes": [ { "Key": "_data_source_id", "Value": { "StringValue": "data source identifier" } }, { "Key": "_data_source_sync_job_execution_id", "Value": { "StringValue": "sync job identifier" } } ], "Blob": "document content", "ContentType": "content type", "Id": "document identifier", "Title": "document title" } ], "IndexId": "index identifier", "RoleArn": "IAM role ARN" }

Al quitar un documento del índice mediante elBatchDeleteDocumentAPI, debe especificar los dos campos siguientes en elDataSourceSyncJobMetricTargetparámetro:

  • DataSourceId— El identificador del origen de datos. Esto se devuelve cuando crea el origen de datos con la consola o elCreateDataSourceAPI.

  • DataSourceSyncJobId— Identificador de la ejecución de sincronización. Esto se devuelve cuando inicia la sincronización del índice con elStartDataSourceSyncJobAPI.

A continuación se muestra el JSON necesario para eliminar un documento del índice mediante laBatchDeleteDocumentAPI.

{ "DataSourceSyncJobMetricTarget": { "DataSourceId": "data source identifier", "DataSourceSyncJobId": "sync job identifier" }, "DocumentIdList": [ "document identifier" ], "IndexId": "index identifier" }

Visualización de métricas de

Una vez finalizado el trabajo de sincronización, puede utilizar elMétricas de trabajo de sincronización de fuentes de datosAPI para obtener las métricas asociadas al trabajo de sincronización. Utilízalo para supervisar las sincronizaciones de fuentes de datos personalizadas.

Si envía el mismo documento varias veces, ya sea como parte delBatchPutDocumentAPI, elBatchDeleteDocumentAPI, o si el documento se envía para su adición y eliminación, el documento solo se cuenta una vez en las métricas.

  • DocumentsAdded— El número de documentos presentados mediante elBatchPutDocumentLa API asociada a este trabajo de sincronización se ha agregado al índice por primera vez. Si un documento se envía para su adición más de una vez en una sincronización, el documento solo se cuenta una vez en las métricas.

  • DocumentsDeleted— El número de documentos presentados mediante elBatchDeleteDocumentAPI asociada a este trabajo de sincronización eliminada del índice. Si un documento se envía para su eliminación más de una vez en una sincronización, el documento solo se cuenta una vez en las métricas.

  • DocumentsFailed: el número de documentos asociados a este trabajo de sincronización que fallaron en la indexación. Son documentos aceptados porAmazon Kendrapara indexar pero no se ha podido indexar ni eliminar. Si un documento no es aceptado porAmazon Kendra, el identificador del documento se devuelve en elFailedDocumentspropiedad response delBatchPutDocumentyBatchDeleteDocumentAPI.

  • DocumentsModified— El número de documentos modificados presentados mediante elBatchPutDocumentAPI asociada a este trabajo de sincronización que se modificó en elAmazon Kendraíndice.

Amazon Kendraemite tambiénAmazon CloudWatchmétricas durante la indexación de documentos. Para obtener más información, consulteMonitoreoAmazon KendraconAmazon CloudWatch.

Amazon Kendrano devuelve elDocumentsScannedmétrica para fuentes de datos personalizadas. También emite elCloudWatchmétricas enumeradas en el documentoMétricas deAmazon Kendraorígenes de datos.