Connettore sorgente dati personalizzato - Amazon Kendra

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Connettore sorgente dati personalizzato

Utilizza un'origine dati personalizzata quando disponi di un repository che Amazon Kendra non fornisce ancora un connettore per l'origine dati per. Puoi usarlo per visualizzare le stesse metriche di cronologia delle esecuzioni fornite dalle fonti di Amazon Kendra dati anche quando non puoi utilizzare le sorgenti dati Amazon Kendra di origine per sincronizzare i tuoi repository. Utilizzalo per creare un'esperienza di monitoraggio della sincronizzazione coerente tra le fonti di Amazon Kendra dati e quelle personalizzate. In particolare, utilizza un'origine dati personalizzata per visualizzare le metriche di sincronizzazione per un connettore di origine dati creato utilizzando BatchPutDocumentand BatchDeleteDocumentAPIs.

Per la risoluzione dei problemi relativi al connettore di origine dati personalizzato Amazon Kendra, consulta. Risoluzione dei problemi relativi alle origini dati

Quando crei un'origine dati personalizzata, hai il controllo completo su come vengono selezionati i documenti da indicizzare. Amazon Kendra fornisce solo informazioni metriche che è possibile utilizzare per monitorare i processi di sincronizzazione delle sorgenti dati. È necessario creare ed eseguire il crawler che determina i documenti indicizzati dalla fonte di dati.

È necessario specificare il titolo principale dei documenti utilizzando l'oggetto Document e _source_uri per DocumentURI includerlo nella risposta del risultato. DocumentAttributeDocumentTitleQuery

È possibile creare un identificatore per l'origine dati personalizzata utilizzando la console o utilizzando il CreateDataSourceAPI. Per utilizzare la console, assegna un nome alla fonte di dati e, facoltativamente, una descrizione e dei tag delle risorse. Dopo aver creato l'origine dati, viene visualizzato un ID dell'origine dati. Copia questo ID per utilizzarlo quando sincronizzi l'origine dati con l'indice.

Form for specifying data source details, including name, description, and optional tags.

Puoi anche creare un'origine dati personalizzata utilizzando. CreateDataSource API APIRestituisce un ID da utilizzare quando si sincronizza l'origine dati. Quando si utilizza il CreateDataSource API per creare un'origine dati personalizzata, non è possibile impostare i Schedule parametriConfiguration, RoleArn or. Se imposti questi parametri, Amazon Kendra restituisce un'ValidationExceptioneccezione.

Per utilizzare un'origine dati personalizzata, create un'applicazione responsabile dell'aggiornamento dell' Amazon Kendra indice. L'applicazione dipende dal crawler creato dall'utente. Il crawler legge i documenti presenti nel repository e determina a quali devono essere inviati. Amazon Kendra L'applicazione deve eseguire le seguenti operazioni:

  1. Scansiona il tuo repository e crea un elenco dei documenti in esso contenuti che sono stati aggiunti, aggiornati o eliminati.

  2. Chiamate il StartDataSourceSyncJobAPIper segnalare che è in corso un processo di sincronizzazione. Fornisci un ID di origine dati per identificare l'origine dati da sincronizzare. Amazon Kendra restituisce un ID di esecuzione per identificare un particolare processo di sincronizzazione.

  3. Chiama il BatchDeleteDocumentAPIper rimuovere i documenti dall'indice. Fornisci l'ID dell'origine dati e l'ID di esecuzione per identificare l'origine dati da sincronizzare e il processo a cui è associato questo aggiornamento.

  4. Chiamate il StopDataSourceSyncJobAPIper segnalare la fine del processo di sincronizzazione. Dopo aver chiamato StopDataSourceSyncJobAPI, l'ID di esecuzione associato non è più valido.

  5. Chiamali ListDataSourceSyncJobsAPIcon gli identificatori dell'indice e dell'origine dati per elencare i processi di sincronizzazione per l'origine dati e per visualizzare le metriche relative ai processi di sincronizzazione.

Dopo aver terminato un processo di sincronizzazione, puoi iniziare un nuovo processo di sincronizzazione. Può trascorrere un periodo di tempo prima che tutti i documenti inviati vengano aggiunti all'indice. Utilizzare il ListDataSourceSyncJobs API per visualizzare lo stato del processo di sincronizzazione. Se il risultato Status del processo di sincronizzazione èSYNCING_INDEXING, alcuni documenti sono ancora in fase di indicizzazione. È possibile avviare un nuovo processo di sincronizzazione quando lo stato del lavoro precedente è FAILED o. SUCCEEDED

Dopo aver chiamato il StopDataSourceSyncJobAPI, non è possibile utilizzare un identificatore del processo di sincronizzazione in una chiamata a BatchPutDocument o BatchDeleteDocumentAPIs. In tal caso, tutti i documenti inviati vengono restituiti nel messaggio di FailedDocuments risposta di. API

Attributi obbligatori

Quando si invia un documento a Amazon Kendra utilizzare il BatchPutDocumentAPI, ogni documento richiede due attributi per identificare l'origine dati e l'esecuzione di sincronizzazione a cui appartiene. È necessario fornire i due attributi seguenti per mappare correttamente i documenti dall'origine dati personalizzata a un Amazon Kendra indice:

  • _data_source_id—L'identificatore della fonte di dati. Viene restituito quando si crea l'origine dati con la console o il. CreateDataSource API

  • _data_source_sync_job_execution_id—L'identificatore dell'esecuzione di sincronizzazione. Viene restituito quando si avvia la sincronizzazione dell'indice con. StartDataSourceSyncJob API

Quanto segue è JSON necessario per indicizzare un documento utilizzando un'origine dati personalizzata.

{ "Documents": [ { "Attributes": [ { "Key": "_data_source_id", "Value": { "StringValue": "data source identifier" } }, { "Key": "_data_source_sync_job_execution_id", "Value": { "StringValue": "sync job identifier" } } ], "Blob": "document content", "ContentType": "content type", "Id": "document identifier", "Title": "document title" } ], "IndexId": "index identifier", "RoleArn": "IAM role ARN" }

Quando si rimuove un documento dall'indice utilizzando il BatchDeleteDocumentAPI, è necessario specificare i due campi seguenti nel DataSourceSyncJobMetricTarget parametro:

  • DataSourceId—L'identificatore della fonte di dati. Viene restituito quando si crea l'origine dati con la console o il. CreateDataSource API

  • DataSourceSyncJobId—L'identificatore dell'esecuzione di sincronizzazione. Viene restituito quando si avvia la sincronizzazione dell'indice con. StartDataSourceSyncJob API

Quanto segue è JSON necessario per eliminare un documento dall'indice utilizzando. BatchDeleteDocument API

{ "DataSourceSyncJobMetricTarget": { "DataSourceId": "data source identifier", "DataSourceSyncJobId": "sync job identifier" }, "DocumentIdList": [ "document identifier" ], "IndexId": "index identifier" }

Visualizzazione dei parametri

Al termine di un processo di sincronizzazione, è possibile utilizzare il DataSourceSyncJobMetricsAPIper ottenere le metriche associate al processo di sincronizzazione. Usalo per monitorare le sincronizzazioni delle sorgenti dati personalizzate.

Se invii lo stesso documento più volte, come parte di BatchPutDocument API BatchDeleteDocumentAPI, o se il documento viene inviato sia per l'aggiunta che per l'eliminazione, il documento viene conteggiato solo una volta nelle metriche.

  • DocumentsAdded—Il numero di documenti inviati utilizzando il processo di sincronizzazione BatchPutDocument API associato a questo aggiunto all'indice per la prima volta. Se un documento viene inviato per l'aggiunta più di una volta in una sincronizzazione, il documento viene conteggiato solo una volta nelle metriche.

  • DocumentsDeleted—Il numero di documenti inviati utilizzando il processo di sincronizzazione BatchDeleteDocument API associato a questo processo di sincronizzazione eliminato dall'indice. Se un documento viene inviato per l'eliminazione più di una volta in una sincronizzazione, il documento viene conteggiato solo una volta nelle metriche.

  • DocumentsFailed—Il numero di documenti associati a questo processo di sincronizzazione la cui indicizzazione non è riuscita. Si tratta di documenti che sono stati accettati Amazon Kendra per l'indicizzazione ma che non è stato possibile indicizzare o eliminare. Se un documento non viene accettato da Amazon Kendra, l'identificatore del documento viene restituito nella proprietà di FailedDocuments risposta di and. BatchPutDocument BatchDeleteDocument APIs

  • DocumentsModified—Il numero di documenti modificati inviati utilizzando il processo di sincronizzazione BatchPutDocument API associato a questo che sono stati modificati nell' Amazon Kendra indice.

Amazon Kendra emette Amazon CloudWatch metriche anche durante l'indicizzazione dei documenti. Per ulteriori informazioni, consulta Monitoraggio con. Amazon KendraAmazon CloudWatch

Amazon Kendra non restituisce la DocumentsScanned metrica per le fonti di dati personalizzate. Emette anche le CloudWatch metriche elencate nel documento Metriche per le fonti di dati. Amazon Kendra

Ulteriori informazioni

Per saperne di più sull'integrazione Amazon Kendra con la tua fonte di dati personalizzata, consulta: