Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Uso de un origen de datos personalizado
Utilice un origen de datos personalizado cuando tenga un repositorio queAmazon Kendratodavía no proporciona un conector de origen de datos para. Puedes usarlo para ver las mismas métricas del historial de ejecuciones queAmazon Kendralas fuentes de datos proporcionan incluso cuando no se puede utilizarAmazon Kendrafuentes de datos para sincronizar tus repositorios. Utilízalo para crear una experiencia de supervisión de sincronización coherente entreAmazon Kendrafuentes de datos y personalizadas. En concreto, utilice un origen de datos personalizado para ver las métricas de sincronización de un conector de fuente de datos que creó mediante elBatchPutDocumentyEliminar documento por lotesAPI.
Cuando cree una fuente de datos personalizada, puede ejercer un control total sobre el modo en que se seleccionan los documentos a indexar.Amazon Kendraproporciona solo información de métricas de que se pueden utilizar para monitorizar los trabajos de sincronización de orígenes de datos. Debe crear y ejecutar el rastreador que determina los documentos que los índices de origen de datos.
Puede crear un identificador para su origen de datos personalizado mediante la consola o mediante elCreateDataSourceAPI. Para utilizar la consola, asigne un nombre a la fuente de datos y, opcionalmente, una descripción y etiquetas de recursos. Después de crear el origen de datos, se muestra un ID de origen de datos. Copie este ID para utilizarlo al sincronizar el origen de datos con el índice.

También puede crear una fuente de datos personalizada mediante elCreateDataSource
API. La API devuelve un ID que se utilizará al sincronizar el origen de datos. Cuando utilice elCreateDataSource
API para crear un origen de datos personalizado, no se puede configurar elConfiguration
,RoleArn
oSchedule
parámetros. Si establece estos parámetros,Amazon Kendradevuelve un objetoValidationException
excepción.
Para utilizar un origen de datos personalizado, cree una aplicación que se encargue de actualizar elAmazon Kendraíndice. La aplicación depende del rastreador que cree. El rastreador lee los documentos del repositorio y determina cuál debe enviarse aAmazon Kendra. La aplicación debe realizar los pasos siguientes:
-
Rastrea tu repositorio y haz una lista de los documentos del repositorio que se agregan, actualizan o eliminan.
-
Llame a laTrabajo de sincronización de origen de datos de inicioAPI para indicar que se está iniciando un trabajo de sincronización. Proporciona un ID de origen de datos para identificar el origen de datos que se está sincronizando.Amazon Kendradevuelve un identificador de ejecución para identificar un trabajo de sincronización concreto.
-
Llame a laEliminar documento por lotesAPI para añadir, actualizar y quitar documentos del índice. Proporciona el ID de origen de datos y el identificador de ejecución para identificar el origen de datos que se está sincronizando y el trabajo al que está asociada esta actualización.
-
Llame a laDetener trabajo de sincronización de origen de datosAPI para indicar el final del trabajo de sincronización. Después de llamar al
StopDataSourceSyncJob
API, el identificador de ejecución asociado ya no es válido. -
Llame a laLista de trabajos de sincronización de fuentes de datosAPI con identificadores de índice y fuente de datos para enumerar los trabajos de sincronización del origen de datos y ver métricas de los trabajos de sincronización.
Después de finalizar un trabajo de sincronización, puede iniciar un nuevo trabajo de sincronización. Puede haber un período de tiempo antes de que todos los documentos enviados se añadan al índice. UsarListDataSourceSyncJobs
API para ver el estado del trabajo de sincronización. Si el archivo deStatus
devuelto para el trabajo de sincronización esSYNCING_INDEXING
, algunos documentos se siguen indexando. Puede iniciar un nuevo trabajo de sincronización cuando el estado del trabajo anterior seaFAILED
,SUCCEEDED
, o bienSYNCING_INDEX
.
Después de llamar alStopDataSourceSyncJob
API, no puedes usar un identificador de trabajo de sincronización en una llamada alBatchPutDocument
oBatchDeleteDocument
API. Si lo hace, todos los documentos enviados se devuelven en elFailedDocuments
mensaje de respuesta de la API.
Es un atributo obligatorio
Cuando envía un documento aAmazon KendraUsando elBatchPutDocument
API, cada documento requiere dos atributos para identificar el origen de datos y la ejecución de sincronización a la que pertenece. Debe proporcionar los dos atributos siguientes:
-
_data_source_id
— El identificador del origen de datos. Esto se devuelve cuando crea el origen de datos con la consola o elCreateDataSource
API. -
_data_source_sync_job_execution_id
— Identificador de la ejecución de sincronización. Esto se devuelve cuando inicia la sincronización del índice con elStartDataSourceSyncJob
API.
A continuación se muestra el JSON necesario para indexar un documento mediante un origen de datos personalizado.
{
"Documents": [
{
"Attributes": [
{
"Key": "_data_source_id",
"Value": {
"StringValue": "data source identifier
"
}
},
{
"Key": "_data_source_sync_job_execution_id",
"Value": {
"StringValue": "sync job identifier
"
}
}
],
"Blob": "document content
",
"ContentType": "content type
",
"Id": "document identifier
",
"Title": "document title
"
}
],
"IndexId": "index identifier
",
"RoleArn": "IAM role ARN
"
}
Al quitar un documento del índice mediante elBatchDeleteDocument
API, debe especificar los dos campos siguientes en elDataSourceSyncJobMetricTarget
parámetro:
-
DataSourceId
— El identificador del origen de datos. Esto se devuelve cuando crea el origen de datos con la consola o elCreateDataSource
API. -
DataSourceSyncJobId
— Identificador de la ejecución de sincronización. Esto se devuelve cuando inicia la sincronización del índice con elStartDataSourceSyncJob
API.
A continuación se muestra el JSON necesario para eliminar un documento del índice mediante laBatchDeleteDocument
API.
{
"DataSourceSyncJobMetricTarget": {
"DataSourceId": "data source identifier
",
"DataSourceSyncJobId": "sync job identifier
"
},
"DocumentIdList": [
"document identifier
"
],
"IndexId": "index identifier
"
}
Visualización de métricas de
Una vez finalizado el trabajo de sincronización, puede utilizar elMétricas de trabajo de sincronización de fuentes de datosAPI para obtener las métricas asociadas al trabajo de sincronización. Utilízalo para supervisar las sincronizaciones de fuentes de datos personalizadas.
Si envía el mismo documento varias veces, ya sea como parte delBatchPutDocument
API, elBatchDeleteDocument
API, o si el documento se envía para su adición y eliminación, el documento solo se cuenta una vez en las métricas.
-
DocumentsAdded
— El número de documentos presentados mediante elBatchPutDocument
La API asociada a este trabajo de sincronización se ha agregado al índice por primera vez. Si un documento se envía para su adición más de una vez en una sincronización, el documento solo se cuenta una vez en las métricas. -
DocumentsDeleted
— El número de documentos presentados mediante elBatchDeleteDocument
API asociada a este trabajo de sincronización eliminada del índice. Si un documento se envía para su eliminación más de una vez en una sincronización, el documento solo se cuenta una vez en las métricas. -
DocumentsFailed
: el número de documentos asociados a este trabajo de sincronización que fallaron en la indexación. Son documentos aceptados porAmazon Kendrapara indexar pero no se ha podido indexar ni eliminar. Si un documento no es aceptado porAmazon Kendra, el identificador del documento se devuelve en elFailedDocuments
propiedad response delBatchPutDocument
yBatchDeleteDocument
API. -
DocumentsModified
— El número de documentos modificados presentados mediante elBatchPutDocument
API asociada a este trabajo de sincronización que se modificó en elAmazon Kendraíndice.
Amazon Kendraemite tambiénAmazon CloudWatchmétricas durante la indexación de documentos. Para obtener más información, consulteMonitoreoAmazon KendraconAmazon CloudWatch.
Amazon Kendrano devuelve elDocumentsScanned
métrica para fuentes de datos personalizadas. También emite elCloudWatchmétricas enumeradas en el documentoMétricas deAmazon Kendraorígenes de datos.