Attributi obbligatori Visualizzazione dei parametri Ulteriori informazioni

Connettore sorgente dati personalizzato

Utilizza un'origine dati personalizzata quando disponi di un repository che Amazon Kendra non fornisce ancora un connettore per l'origine dati per. Puoi utilizzarlo per visualizzare le stesse metriche della cronologia delle esecuzioni fornite dalle fonti di Amazon Kendra dati anche quando non puoi utilizzare le sorgenti dati Amazon Kendra di origine per sincronizzare i tuoi repository. Utilizzalo per creare un'esperienza di monitoraggio della sincronizzazione coerente tra le fonti di Amazon Kendra dati e quelle personalizzate. In particolare, utilizza un'origine dati personalizzata per visualizzare le metriche di sincronizzazione per un connettore di origine dati creato utilizzando BatchPutDocumentand BatchDeleteDocument APIs.

Per la risoluzione dei problemi relativi al connettore di origine dati personalizzato Amazon Kendra, consulta. Risoluzione dei problemi relativi alle origini dati

Quando crei un'origine dati personalizzata, hai il controllo completo su come vengono selezionati i documenti da indicizzare. Amazon Kendra fornisce solo informazioni metriche che è possibile utilizzare per monitorare i processi di sincronizzazione delle sorgenti dati. È necessario creare ed eseguire il crawler che determina i documenti indicizzati dalla fonte di dati.

È necessario specificare il titolo principale dei documenti utilizzando l'oggetto Document e _source_uri per DocumentURI includerlo nella risposta del risultato. DocumentAttributeDocumentTitleQuery

È possibile creare un identificatore per l'origine dati personalizzata utilizzando la console o l'CreateDataSourceAPI. Per utilizzare la console, assegna un nome alla fonte di dati e, facoltativamente, una descrizione e dei tag delle risorse. Dopo aver creato l'origine dati, viene visualizzato un ID dell'origine dati. Copia questo ID per utilizzarlo quando sincronizzi l'origine dati con l'indice.

Form for specifying data source details, including name, description, and optional tags.

Puoi anche creare un'origine dati personalizzata utilizzando l'CreateDataSourceAPI. L'API restituisce un ID da utilizzare quando sincronizzi l'origine dati. Quando utilizzi l'CreateDataSourceAPI per creare un'origine dati personalizzata, non puoi impostare i Configuration Schedule parametri RoleArn o. Se imposti questi parametri, Amazon Kendra restituisce un'ValidationExceptioneccezione.

Per utilizzare un'origine dati personalizzata, create un'applicazione responsabile dell'aggiornamento dell' Amazon Kendra indice. L'applicazione dipende dal crawler creato dall'utente. Il crawler legge i documenti presenti nel repository e determina a quali devono essere inviati. Amazon Kendra L'applicazione deve eseguire le seguenti operazioni:

Scansiona il tuo repository e crea un elenco dei documenti in esso contenuti che sono stati aggiunti, aggiornati o eliminati.
Chiama l'StartDataSourceSyncJobAPI per segnalare che è in corso un processo di sincronizzazione. Fornisci un ID di origine dati per identificare l'origine dati da sincronizzare. Amazon Kendra restituisce un ID di esecuzione per identificare un particolare processo di sincronizzazione.
Chiama l'BatchDeleteDocumentAPI per rimuovere i documenti dall'indice. Fornisci l'ID dell'origine dati e l'ID di esecuzione per identificare l'origine dati da sincronizzare e il processo a cui è associato questo aggiornamento.
Chiama l'StopDataSourceSyncJobAPI per segnalare la fine del processo di sincronizzazione. Dopo aver chiamato l'StopDataSourceSyncJobAPI, l'ID di esecuzione associato non è più valido.
Chiama l'ListDataSourceSyncJobsAPI con gli identificatori dell'indice e dell'origine dati per elencare i processi di sincronizzazione per l'origine dati e per visualizzare le metriche per i processi di sincronizzazione.

Dopo aver terminato un processo di sincronizzazione, puoi iniziare un nuovo processo di sincronizzazione. Può trascorrere un periodo di tempo prima che tutti i documenti inviati vengano aggiunti all'indice. Utilizza l'ListDataSourceSyncJobsAPI per visualizzare lo stato del processo di sincronizzazione. Se il risultato Status del processo di sincronizzazione èSYNCING_INDEXING, alcuni documenti sono ancora in fase di indicizzazione. È possibile avviare un nuovo processo di sincronizzazione quando lo stato del lavoro precedente è FAILED o. SUCCEEDED

Dopo aver chiamato l'StopDataSourceSyncJobAPI, non è possibile utilizzare un identificatore del processo di sincronizzazione in una chiamata alla sala BatchPutDocument operatoria BatchDeleteDocument APIs. In tal caso, tutti i documenti inviati vengono restituiti nel messaggio di FailedDocuments risposta dell'API.

Attributi obbligatori

Quando invii un documento all' Amazon Kendra utilizzo dell'BatchPutDocumentAPI, ogni documento richiede due attributi per identificare la fonte di dati e l'esecuzione di sincronizzazione a cui appartiene. È necessario fornire i seguenti due attributi per mappare correttamente i documenti dall'origine dati personalizzata a un Amazon Kendra indice:

_data_source_id—L'identificatore della fonte di dati. Viene restituito quando si crea l'origine dati con la console o l'CreateDataSourceAPI.
_data_source_sync_job_execution_id—L'identificatore dell'esecuzione di sincronizzazione. Viene restituito quando si avvia la sincronizzazione dell'indice con l'API. StartDataSourceSyncJob

Di seguito è riportato il codice JSON necessario per indicizzare un documento utilizzando un'origine dati personalizzata.


{
    "Documents": [
        {
            "Attributes": [
                {
                    "Key": "_data_source_id",
                    "Value": {
                        "StringValue": "data source identifier"
                    }
                },
                {
                    "Key": "_data_source_sync_job_execution_id",
                    "Value": {
                        "StringValue": "sync job identifier"
                    }
                }
            ],
            "Blob": "document content",
            "ContentType": "content type",
            "Id": "document identifier",
            "Title": "document title"
        }
    ],
    "IndexId": "index identifier",
    "RoleArn": "IAM role ARN"
}

Quando rimuovi un documento dall'indice utilizzando l'BatchDeleteDocumentAPI, devi specificare i due campi seguenti nel DataSourceSyncJobMetricTarget parametro:

DataSourceId—L'identificatore della fonte di dati. Viene restituito quando si crea l'origine dati con la console o l'CreateDataSourceAPI.
DataSourceSyncJobId—L'identificatore dell'esecuzione di sincronizzazione. Viene restituito quando si avvia la sincronizzazione dell'indice con l'API. StartDataSourceSyncJob

Di seguito è riportato il codice JSON necessario per eliminare un documento dall'indice utilizzando l'BatchDeleteDocumentAPI.


{
    "DataSourceSyncJobMetricTarget": {
        "DataSourceId": "data source identifier",
        "DataSourceSyncJobId": "sync job identifier"
    },
    "DocumentIdList": [
        "document identifier"
    ],
    "IndexId": "index identifier"
}

Visualizzazione dei parametri

Al termine di un processo di sincronizzazione, puoi utilizzare l'DataSourceSyncJobMetricsAPI per ottenere le metriche associate al processo di sincronizzazione. Usalo per monitorare le sincronizzazioni delle sorgenti dati personalizzate.

Se invii lo stesso documento più volte, come parte dell'BatchPutDocumentAPI, dell'API o se il BatchDeleteDocument documento viene inviato sia per l'aggiunta che per l'eliminazione, il documento viene conteggiato una sola volta nelle metriche.

DocumentsAdded—Il numero di documenti inviati utilizzando l'BatchPutDocumentAPI associata a questo processo di sincronizzazione aggiunti all'indice per la prima volta. Se un documento viene inviato per l'aggiunta più di una volta in una sincronizzazione, il documento viene conteggiato solo una volta nelle metriche.
DocumentsDeleted—Il numero di documenti inviati utilizzando l'BatchDeleteDocumentAPI associata a questo processo di sincronizzazione è stato eliminato dall'indice. Se un documento viene inviato per l'eliminazione più di una volta in una sincronizzazione, il documento viene conteggiato solo una volta nelle metriche.
DocumentsFailed—Il numero di documenti associati a questo processo di sincronizzazione la cui indicizzazione non è riuscita. Si tratta di documenti che sono stati accettati Amazon Kendra per l'indicizzazione ma che non è stato possibile indicizzare o eliminare. Se un documento non viene accettato da Amazon Kendra, l'identificatore del documento viene restituito nella proprietà di FailedDocuments risposta di and. BatchPutDocument BatchDeleteDocument APIs
DocumentsModified—Il numero di documenti modificati inviati utilizzando l'BatchPutDocumentAPI associata a questo processo di sincronizzazione che sono stati modificati nell' Amazon Kendra indice.

Amazon Kendra emette Amazon CloudWatch metriche anche durante l'indicizzazione dei documenti. Per ulteriori informazioni, consulta Monitoraggio con. Amazon KendraAmazon CloudWatch

Amazon Kendra non restituisce la DocumentsScanned metrica per le fonti di dati personalizzate. Emette anche le CloudWatch metriche elencate nel documento Metriche per le fonti di dati. Amazon Kendra

Ulteriori informazioni

Per saperne di più sull'integrazione Amazon Kendra con la tua fonte di dati personalizzata, consulta:

Aggiungere fonti di dati personalizzate a Amazon Kendra

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Connettore Confluence V1.0

Fonte di dati personalizzata (Java)