Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Conector de orígenes de datos personalizados
Utilice una fuente de datos personalizada cuando tenga un repositorio para el que aún Amazon Kendra no haya un conector de fuente de datos. Puedes usarlo para ver las mismas métricas del historial de ejecución que proporcionan las fuentes de Amazon Kendra datos, incluso si no puedes Amazon Kendra usarlas para sincronizar tus repositorios. Utilízala para crear una experiencia de supervisión de sincronización coherente entre las fuentes de Amazon Kendra datos y las personalizadas. En concreto, utilice una fuente de datos personalizada para ver las métricas de sincronización de un conector de fuente de datos que haya creado con BatchPutDocumenty BatchDeleteDocumentAPIs.
Para solucionar problemas del conector de origen de datos personalizado de Amazon Kendra, consulte Solución de problemas con los orígenes de datos.
Al crear una fuente de datos personalizada, tiene el control total sobre cómo se seleccionan los documentos que se van a indexar. Amazon Kendra solo proporciona información métrica que puede utilizar para supervisar los trabajos de sincronización de la fuente de datos. Debe crear y ejecutar el rastreador que determina los documentos que indexa su origen de datos.
Debe especificar el título principal de los documentos mediante el objeto Document y _source_uri
para DocumentTitle
DocumentURI
incluirlo en la respuesta del Query
resultado. DocumentAttribute
Puede crear un identificador para su fuente de datos personalizada mediante la consola o mediante el CreateDataSourceAPI. Para usar la consola, asigne un nombre al origen de datos y, si lo desea, una descripción y etiquetas de recursos. Una vez creado el origen de datos, se muestra el ID correspondiente. Copie este ID para usarlo cuando sincronice el origen de datos con el índice.
También puede crear una fuente de datos personalizada mediante CreateDataSource
API. APIDevuelve un ID para usarlo cuando sincronice la fuente de datos. Cuando se utiliza CreateDataSource
API para crear una fuente de datos personalizada, no se pueden configurar los Configuration
Schedule
parámetros RoleArn
o. Si establece estos parámetros, Amazon Kendra devuelve una ValidationException
excepción.
Para usar un origen de datos personalizado, cree una aplicación que se encargue de actualizar el índice de Amazon Kendra . La aplicación depende del rastreador que cree. El rastreador lee los documentos del repositorio y determina cuáles se deben enviar a Amazon Kendra. La aplicación debe realizar los pasos siguientes:
-
Rastrear el repositorio y hacer una lista de los documentos del repositorio que se han agregado, actualizado o eliminado.
-
Llama StartDataSourceSyncJobAPIa la señal de que se está iniciando un trabajo de sincronización. Debe proporcionar un ID de fuente de datos para identificar la fuente de datos que se está sincronizando. Amazon Kendra devuelve un identificador de ejecución para identificar un trabajo de sincronización concreto.
-
Llama BatchDeleteDocumentAPIal para eliminar documentos del índice. Se proporciona el ID del origen de datos y el ID de ejecución para identificar el origen de datos que se está sincronizando y el trabajo al que está asociada esta actualización.
-
Llame al StopDataSourceSyncJobAPIpara indicar el final del trabajo de sincronización. Tras llamar al
StopDataSourceSyncJob
API, el identificador de ejecución asociado ya no es válido. -
Llama al ListDataSourceSyncJobsAPIcon los identificadores del índice y de la fuente de datos para ver los trabajos de sincronización de la fuente de datos y ver las métricas de los trabajos de sincronización.
Tras finalizar un trabajo de sincronización, se puede iniciar uno nuevo. Puede transcurrir un tiempo antes de que todos los documentos enviados se añadan al índice. Utilice el ListDataSourceSyncJobs
API para ver el estado del trabajo de sincronización. Si el Status
devuelto para el trabajo de sincronización es SYNCING_INDEXING
, algunos documentos aún se están indexando. Puede iniciar un nuevo trabajo de sincronización cuando el estado del trabajo anterior sea FAILED
oSUCCEEDED
.
Una vez que llames al StopDataSourceSyncJob
API, no podrás usar un identificador de trabajo de sincronización en una llamada al BatchPutDocument
quirófano BatchDeleteDocument
APIs. Si lo hace, todos los documentos enviados se devolverán en el mensaje de FailedDocuments
respuesta delAPI.
Atributos obligatorios
Al enviar un documento a Amazon Kendra través del BatchPutDocument
API, cada documento requiere dos atributos para identificar la fuente de datos y la ejecución de sincronización a la que pertenece. Debe proporcionar los dos atributos siguientes para asignar correctamente los documentos del origen de datos personalizado a un índice de Amazon Kendra :
-
_data_source_id
: el identificador del origen de datos. Esto se devuelve al crear la fuente de datos con la consola o elCreateDataSource
API. -
_data_source_sync_job_execution_id
: el identificador de la ejecución de sincronización. Esto se devuelve al iniciar la sincronización del índice conStartDataSourceSyncJob
API.
Lo siguiente es lo que se JSON requiere para indexar un documento mediante una fuente de datos personalizada.
{
"Documents": [
{
"Attributes": [
{
"Key": "_data_source_id",
"Value": {
"StringValue": "data source identifier
"
}
},
{
"Key": "_data_source_sync_job_execution_id",
"Value": {
"StringValue": "sync job identifier
"
}
}
],
"Blob": "document content
",
"ContentType": "content type
",
"Id": "document identifier
",
"Title": "document title
"
}
],
"IndexId": "index identifier
",
"RoleArn": "IAM role ARN
"
}
Al eliminar un documento del índice mediante el BatchDeleteDocument
API, debe especificar los dos campos siguientes en el DataSourceSyncJobMetricTarget
parámetro:
-
DataSourceId
: el identificador del origen de datos. Esto se devuelve al crear la fuente de datos con la consola o elCreateDataSource
API. -
DataSourceSyncJobId
: el identificador de la ejecución de sincronización. Esto se devuelve al iniciar la sincronización del índice conStartDataSourceSyncJob
API.
Lo siguiente es lo que JSON se requiere para eliminar un documento del índice mediante el BatchDeleteDocument
API.
{
"DataSourceSyncJobMetricTarget": {
"DataSourceId": "data source identifier
",
"DataSourceSyncJobId": "sync job identifier
"
},
"DocumentIdList": [
"document identifier
"
],
"IndexId": "index identifier
"
}
Visualización de métricas
Una vez finalizado un trabajo de sincronización, puede utilizar el DataSourceSyncJobMetricsAPIpara obtener las métricas asociadas al trabajo de sincronización. Utilícela para supervisar las sincronizaciones de sus orígenes de datos personalizados.
Si envías el mismo documento varias veces, ya sea como parte del BatchPutDocument
API BatchDeleteDocument
API, o si el documento se envía tanto para su adición como para su eliminación, el documento solo se cuenta una vez en las métricas.
-
DocumentsAdded
—El número de documentos enviados mediante elBatchPutDocument
API proceso asociado a este trabajo de sincronización se ha añadido al índice por primera vez. Si un documento se envía para agregarlo más de una vez en una sincronización, el documento solo se cuenta una vez en las métricas. -
DocumentsDeleted
—El número de documentos enviados con elBatchDeleteDocument
API asociado a este trabajo de sincronización que se han eliminado del índice. Si un documento se envía para eliminarlo más de una vez en una sincronización, el documento solo se cuenta una vez en las métricas. -
DocumentsFailed
: el número de documentos asociados a este trabajo de sincronización que no se pudieron indexar. Se trata de documentos que fueron aceptados por Amazon Kendra para su indexación, pero que no se pudieron indexar ni eliminar. Si un documento no es aceptado por Amazon Kendra, el identificador del documento se devuelve en la propiedad deFailedDocuments
respuesta de la letraBatchPutDocument
yBatchDeleteDocument
APIs. -
DocumentsModified
—El número de documentos modificados enviados mediante el procesoBatchPutDocument
API asociado a este trabajo de sincronización y que se modificaron en el Amazon Kendra índice.
Amazon Kendra también emite Amazon CloudWatch métricas al indexar los documentos. Para obtener más información, consulte Amazon Kendra Monitorear con. Amazon CloudWatch
Amazon Kendra no devuelve la DocumentsScanned
métrica de las fuentes de datos personalizadas. También emite CloudWatch las métricas que figuran en el documento Métricas de las fuentes de Amazon Kendra datos.
Más información
Para obtener más información sobre la integración Amazon Kendra con su fuente de datos personalizada, consulte: