Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Connettore sorgente dati personalizzato
Utilizza un'origine dati personalizzata quando disponi di un repository che Amazon Kendra non fornisce ancora un connettore per l'origine dati per. Puoi usarlo per visualizzare le stesse metriche di cronologia delle esecuzioni fornite dalle fonti di Amazon Kendra dati anche quando non puoi utilizzare le sorgenti dati Amazon Kendra di origine per sincronizzare i tuoi repository. Utilizzalo per creare un'esperienza di monitoraggio della sincronizzazione coerente tra le fonti di Amazon Kendra dati e quelle personalizzate. In particolare, utilizza un'origine dati personalizzata per visualizzare le metriche di sincronizzazione per un connettore di origine dati creato utilizzando BatchPutDocumentand BatchDeleteDocumentAPIs.
Per la risoluzione dei problemi relativi al connettore di origine dati personalizzato Amazon Kendra, consulta. Risoluzione dei problemi relativi alle origini dati
Quando crei un'origine dati personalizzata, hai il controllo completo su come vengono selezionati i documenti da indicizzare. Amazon Kendra fornisce solo informazioni metriche che è possibile utilizzare per monitorare i processi di sincronizzazione delle sorgenti dati. È necessario creare ed eseguire il crawler che determina i documenti indicizzati dalla fonte di dati.
È necessario specificare il titolo principale dei documenti utilizzando l'oggetto Document e _source_uri
per DocumentURI
includerlo nella risposta del risultato. DocumentAttributeDocumentTitle
Query
È possibile creare un identificatore per l'origine dati personalizzata utilizzando la console o utilizzando il CreateDataSourceAPI. Per utilizzare la console, assegna un nome alla fonte di dati e, facoltativamente, una descrizione e dei tag delle risorse. Dopo aver creato l'origine dati, viene visualizzato un ID dell'origine dati. Copia questo ID per utilizzarlo quando sincronizzi l'origine dati con l'indice.
Puoi anche creare un'origine dati personalizzata utilizzando. CreateDataSource
API APIRestituisce un ID da utilizzare quando si sincronizza l'origine dati. Quando si utilizza il CreateDataSource
API per creare un'origine dati personalizzata, non è possibile impostare i Schedule
parametriConfiguration
, RoleArn
or. Se imposti questi parametri, Amazon Kendra restituisce un'ValidationException
eccezione.
Per utilizzare un'origine dati personalizzata, create un'applicazione responsabile dell'aggiornamento dell' Amazon Kendra indice. L'applicazione dipende dal crawler creato dall'utente. Il crawler legge i documenti presenti nel repository e determina a quali devono essere inviati. Amazon Kendra L'applicazione deve eseguire le seguenti operazioni:
-
Scansiona il tuo repository e crea un elenco dei documenti in esso contenuti che sono stati aggiunti, aggiornati o eliminati.
-
Chiamate il StartDataSourceSyncJobAPIper segnalare che è in corso un processo di sincronizzazione. Fornisci un ID di origine dati per identificare l'origine dati da sincronizzare. Amazon Kendra restituisce un ID di esecuzione per identificare un particolare processo di sincronizzazione.
-
Chiama il BatchDeleteDocumentAPIper rimuovere i documenti dall'indice. Fornisci l'ID dell'origine dati e l'ID di esecuzione per identificare l'origine dati da sincronizzare e il processo a cui è associato questo aggiornamento.
-
Chiamate il StopDataSourceSyncJobAPIper segnalare la fine del processo di sincronizzazione. Dopo aver chiamato
StopDataSourceSyncJob
API, l'ID di esecuzione associato non è più valido. -
Chiamali ListDataSourceSyncJobsAPIcon gli identificatori dell'indice e dell'origine dati per elencare i processi di sincronizzazione per l'origine dati e per visualizzare le metriche relative ai processi di sincronizzazione.
Dopo aver terminato un processo di sincronizzazione, puoi iniziare un nuovo processo di sincronizzazione. Può trascorrere un periodo di tempo prima che tutti i documenti inviati vengano aggiunti all'indice. Utilizzare il ListDataSourceSyncJobs
API per visualizzare lo stato del processo di sincronizzazione. Se il risultato Status
del processo di sincronizzazione èSYNCING_INDEXING
, alcuni documenti sono ancora in fase di indicizzazione. È possibile avviare un nuovo processo di sincronizzazione quando lo stato del lavoro precedente è FAILED
o. SUCCEEDED
Dopo aver chiamato il StopDataSourceSyncJob
API, non è possibile utilizzare un identificatore del processo di sincronizzazione in una chiamata a BatchPutDocument
o BatchDeleteDocument
APIs. In tal caso, tutti i documenti inviati vengono restituiti nel messaggio di FailedDocuments
risposta di. API
Attributi obbligatori
Quando si invia un documento a Amazon Kendra utilizzare il BatchPutDocument
API, ogni documento richiede due attributi per identificare l'origine dati e l'esecuzione di sincronizzazione a cui appartiene. È necessario fornire i due attributi seguenti per mappare correttamente i documenti dall'origine dati personalizzata a un Amazon Kendra indice:
-
_data_source_id
—L'identificatore della fonte di dati. Viene restituito quando si crea l'origine dati con la console o il.CreateDataSource
API -
_data_source_sync_job_execution_id
—L'identificatore dell'esecuzione di sincronizzazione. Viene restituito quando si avvia la sincronizzazione dell'indice con.StartDataSourceSyncJob
API
Quanto segue è JSON necessario per indicizzare un documento utilizzando un'origine dati personalizzata.
{
"Documents": [
{
"Attributes": [
{
"Key": "_data_source_id",
"Value": {
"StringValue": "data source identifier
"
}
},
{
"Key": "_data_source_sync_job_execution_id",
"Value": {
"StringValue": "sync job identifier
"
}
}
],
"Blob": "document content
",
"ContentType": "content type
",
"Id": "document identifier
",
"Title": "document title
"
}
],
"IndexId": "index identifier
",
"RoleArn": "IAM role ARN
"
}
Quando si rimuove un documento dall'indice utilizzando il BatchDeleteDocument
API, è necessario specificare i due campi seguenti nel DataSourceSyncJobMetricTarget
parametro:
-
DataSourceId
—L'identificatore della fonte di dati. Viene restituito quando si crea l'origine dati con la console o il.CreateDataSource
API -
DataSourceSyncJobId
—L'identificatore dell'esecuzione di sincronizzazione. Viene restituito quando si avvia la sincronizzazione dell'indice con.StartDataSourceSyncJob
API
Quanto segue è JSON necessario per eliminare un documento dall'indice utilizzando. BatchDeleteDocument
API
{
"DataSourceSyncJobMetricTarget": {
"DataSourceId": "data source identifier
",
"DataSourceSyncJobId": "sync job identifier
"
},
"DocumentIdList": [
"document identifier
"
],
"IndexId": "index identifier
"
}
Visualizzazione dei parametri
Al termine di un processo di sincronizzazione, è possibile utilizzare il DataSourceSyncJobMetricsAPIper ottenere le metriche associate al processo di sincronizzazione. Usalo per monitorare le sincronizzazioni delle sorgenti dati personalizzate.
Se invii lo stesso documento più volte, come parte di BatchPutDocument
API BatchDeleteDocument
API, o se il documento viene inviato sia per l'aggiunta che per l'eliminazione, il documento viene conteggiato solo una volta nelle metriche.
-
DocumentsAdded
—Il numero di documenti inviati utilizzando il processo di sincronizzazioneBatchPutDocument
API associato a questo aggiunto all'indice per la prima volta. Se un documento viene inviato per l'aggiunta più di una volta in una sincronizzazione, il documento viene conteggiato solo una volta nelle metriche. -
DocumentsDeleted
—Il numero di documenti inviati utilizzando il processo di sincronizzazioneBatchDeleteDocument
API associato a questo processo di sincronizzazione eliminato dall'indice. Se un documento viene inviato per l'eliminazione più di una volta in una sincronizzazione, il documento viene conteggiato solo una volta nelle metriche. -
DocumentsFailed
—Il numero di documenti associati a questo processo di sincronizzazione la cui indicizzazione non è riuscita. Si tratta di documenti che sono stati accettati Amazon Kendra per l'indicizzazione ma che non è stato possibile indicizzare o eliminare. Se un documento non viene accettato da Amazon Kendra, l'identificatore del documento viene restituito nella proprietà diFailedDocuments
risposta di and.BatchPutDocument
BatchDeleteDocument
APIs -
DocumentsModified
—Il numero di documenti modificati inviati utilizzando il processo di sincronizzazioneBatchPutDocument
API associato a questo che sono stati modificati nell' Amazon Kendra indice.
Amazon Kendra emette Amazon CloudWatch metriche anche durante l'indicizzazione dei documenti. Per ulteriori informazioni, consulta Monitoraggio con. Amazon KendraAmazon CloudWatch
Amazon Kendra non restituisce la DocumentsScanned
metrica per le fonti di dati personalizzate. Emette anche le CloudWatch metriche elencate nel documento Metriche per le fonti di dati. Amazon Kendra
Ulteriori informazioni
Per saperne di più sull'integrazione Amazon Kendra con la tua fonte di dati personalizzata, consulta: