Conector de orígenes de datos personalizados - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conector de orígenes de datos personalizados

Utilice una fuente de datos personalizada cuando tenga un repositorio para el que aún Amazon Kendra no haya un conector de fuente de datos. Puedes usarlo para ver las mismas métricas del historial de ejecución que proporcionan las fuentes de Amazon Kendra datos, incluso si no puedes Amazon Kendra usarlas para sincronizar tus repositorios. Utilízala para crear una experiencia de supervisión de sincronización coherente entre las fuentes de Amazon Kendra datos y las personalizadas. En concreto, utilice una fuente de datos personalizada para ver las métricas de sincronización de un conector de fuente de datos que haya creado con BatchPutDocumenty BatchDeleteDocumentAPIs.

Para solucionar problemas del conector de origen de datos personalizado de Amazon Kendra, consulte Solución de problemas con los orígenes de datos.

Al crear una fuente de datos personalizada, tiene el control total sobre cómo se seleccionan los documentos que se van a indexar. Amazon Kendra solo proporciona información métrica que puede utilizar para supervisar los trabajos de sincronización de la fuente de datos. Debe crear y ejecutar el rastreador que determina los documentos que indexa su origen de datos.

Debe especificar el título principal de los documentos mediante el objeto Document y _source_uri para DocumentTitle DocumentURI incluirlo en la respuesta del Query resultado. DocumentAttribute

Puede crear un identificador para su fuente de datos personalizada mediante la consola o mediante el CreateDataSourceAPI. Para usar la consola, asigne un nombre al origen de datos y, si lo desea, una descripción y etiquetas de recursos. Una vez creado el origen de datos, se muestra el ID correspondiente. Copie este ID para usarlo cuando sincronice el origen de datos con el índice.

Form for specifying data source details, including name, description, and optional tags.

También puede crear una fuente de datos personalizada mediante CreateDataSourceAPI. APIDevuelve un ID para usarlo cuando sincronice la fuente de datos. Cuando se utiliza CreateDataSource API para crear una fuente de datos personalizada, no se pueden configurar los Configuration Schedule parámetros RoleArn o. Si establece estos parámetros, Amazon Kendra devuelve una ValidationException excepción.

Para usar un origen de datos personalizado, cree una aplicación que se encargue de actualizar el índice de Amazon Kendra . La aplicación depende del rastreador que cree. El rastreador lee los documentos del repositorio y determina cuáles se deben enviar a Amazon Kendra. La aplicación debe realizar los pasos siguientes:

  1. Rastrear el repositorio y hacer una lista de los documentos del repositorio que se han agregado, actualizado o eliminado.

  2. Llama StartDataSourceSyncJobAPIa la señal de que se está iniciando un trabajo de sincronización. Debe proporcionar un ID de fuente de datos para identificar la fuente de datos que se está sincronizando. Amazon Kendra devuelve un identificador de ejecución para identificar un trabajo de sincronización concreto.

  3. Llama BatchDeleteDocumentAPIal para eliminar documentos del índice. Se proporciona el ID del origen de datos y el ID de ejecución para identificar el origen de datos que se está sincronizando y el trabajo al que está asociada esta actualización.

  4. Llame al StopDataSourceSyncJobAPIpara indicar el final del trabajo de sincronización. Tras llamar al StopDataSourceSyncJobAPI, el identificador de ejecución asociado ya no es válido.

  5. Llama al ListDataSourceSyncJobsAPIcon los identificadores del índice y de la fuente de datos para ver los trabajos de sincronización de la fuente de datos y ver las métricas de los trabajos de sincronización.

Tras finalizar un trabajo de sincronización, se puede iniciar uno nuevo. Puede transcurrir un tiempo antes de que todos los documentos enviados se añadan al índice. Utilice el ListDataSourceSyncJobs API para ver el estado del trabajo de sincronización. Si el Status devuelto para el trabajo de sincronización es SYNCING_INDEXING, algunos documentos aún se están indexando. Puede iniciar un nuevo trabajo de sincronización cuando el estado del trabajo anterior sea FAILED oSUCCEEDED.

Una vez que llames al StopDataSourceSyncJobAPI, no podrás usar un identificador de trabajo de sincronización en una llamada al BatchPutDocument quirófano BatchDeleteDocumentAPIs. Si lo hace, todos los documentos enviados se devolverán en el mensaje de FailedDocuments respuesta delAPI.

Atributos obligatorios

Al enviar un documento a Amazon Kendra través del BatchPutDocumentAPI, cada documento requiere dos atributos para identificar la fuente de datos y la ejecución de sincronización a la que pertenece. Debe proporcionar los dos atributos siguientes para asignar correctamente los documentos del origen de datos personalizado a un índice de Amazon Kendra :

  • _data_source_id: el identificador del origen de datos. Esto se devuelve al crear la fuente de datos con la consola o el CreateDataSourceAPI.

  • _data_source_sync_job_execution_id: el identificador de la ejecución de sincronización. Esto se devuelve al iniciar la sincronización del índice con StartDataSourceSyncJobAPI.

Lo siguiente es lo que se JSON requiere para indexar un documento mediante una fuente de datos personalizada.

{ "Documents": [ { "Attributes": [ { "Key": "_data_source_id", "Value": { "StringValue": "data source identifier" } }, { "Key": "_data_source_sync_job_execution_id", "Value": { "StringValue": "sync job identifier" } } ], "Blob": "document content", "ContentType": "content type", "Id": "document identifier", "Title": "document title" } ], "IndexId": "index identifier", "RoleArn": "IAM role ARN" }

Al eliminar un documento del índice mediante el BatchDeleteDocumentAPI, debe especificar los dos campos siguientes en el DataSourceSyncJobMetricTarget parámetro:

  • DataSourceId: el identificador del origen de datos. Esto se devuelve al crear la fuente de datos con la consola o el CreateDataSourceAPI.

  • DataSourceSyncJobId: el identificador de la ejecución de sincronización. Esto se devuelve al iniciar la sincronización del índice con StartDataSourceSyncJobAPI.

Lo siguiente es lo que JSON se requiere para eliminar un documento del índice mediante el BatchDeleteDocumentAPI.

{ "DataSourceSyncJobMetricTarget": { "DataSourceId": "data source identifier", "DataSourceSyncJobId": "sync job identifier" }, "DocumentIdList": [ "document identifier" ], "IndexId": "index identifier" }

Visualización de métricas

Una vez finalizado un trabajo de sincronización, puede utilizar el DataSourceSyncJobMetricsAPIpara obtener las métricas asociadas al trabajo de sincronización. Utilícela para supervisar las sincronizaciones de sus orígenes de datos personalizados.

Si envías el mismo documento varias veces, ya sea como parte del BatchPutDocument API BatchDeleteDocumentAPI, o si el documento se envía tanto para su adición como para su eliminación, el documento solo se cuenta una vez en las métricas.

  • DocumentsAdded—El número de documentos enviados mediante el BatchPutDocument API proceso asociado a este trabajo de sincronización se ha añadido al índice por primera vez. Si un documento se envía para agregarlo más de una vez en una sincronización, el documento solo se cuenta una vez en las métricas.

  • DocumentsDeleted—El número de documentos enviados con el BatchDeleteDocument API asociado a este trabajo de sincronización que se han eliminado del índice. Si un documento se envía para eliminarlo más de una vez en una sincronización, el documento solo se cuenta una vez en las métricas.

  • DocumentsFailed: el número de documentos asociados a este trabajo de sincronización que no se pudieron indexar. Se trata de documentos que fueron aceptados por Amazon Kendra para su indexación, pero que no se pudieron indexar ni eliminar. Si un documento no es aceptado por Amazon Kendra, el identificador del documento se devuelve en la propiedad de FailedDocuments respuesta de la letra BatchPutDocument y BatchDeleteDocumentAPIs.

  • DocumentsModified—El número de documentos modificados enviados mediante el proceso BatchPutDocument API asociado a este trabajo de sincronización y que se modificaron en el Amazon Kendra índice.

Amazon Kendra también emite Amazon CloudWatch métricas al indexar los documentos. Para obtener más información, consulte Amazon Kendra Monitorear con. Amazon CloudWatch

Amazon Kendra no devuelve la DocumentsScanned métrica de las fuentes de datos personalizadas. También emite CloudWatch las métricas que figuran en el documento Métricas de las fuentes de Amazon Kendra datos.

Más información

Para obtener más información sobre la integración Amazon Kendra con su fuente de datos personalizada, consulte: