カスタムデータソースコネクタ

データソースコネクタをまだ提供 Amazon Kendra していないリポジトリがある場合は、カスタムデータソースを使用します。これを使用して、 Amazon Kendra のデータソースを使用してリポジトリを同期できない場合でも、 Amazon Kendraデータソースが提供するのと同じ実行履歴メトリクスを表示できます。これを使用して、 Amazon Kendra データソースとカスタムデータソースの間で一貫した同期モニタリングエクスペリエンスを作成します。具体的には、カスタムデータソースを使用して、BatchPutDocument および BatchDeleteDocument API を使用して作成したデータソースコネクタの同期メトリクスを確認します。

Amazon Kendra データソースコネクタのトラブルシューティングについては、「データソースのトラブルシューティング」を参照してください。

カスタムデータソースを作成すると、インデックスを作成するドキュメントの選択方法を完全に制御できます。は、データソース同期ジョブのモニタリングに使用できるメトリクス情報 Amazon Kendra のみを提供します。データソースインデックスを決定するクローラを作成し、実行する必要があります。

Query 結果のレスポンスに DocumentTitle と DocumentURI を含めるには、ドキュメントオブジェクトを使用してドキュメントのメインタイトルを指定し、DocumentAttribute で _source_uri を指定する必要があります。

コンソールを使用して、または CreateDataSource API を使用してカスタムデータソースの識別子を作成します。コンソールを使用するには、データソースに名前を付け、オプションで説明とリソースタグを指定します。データソースが作成されると、データソース ID が表示されます。この ID をコピーして、データソースをインデックスと同期するときに使用します。

Form for specifying data source details, including name, description, and optional tags.

CreateDataSource API を使用して、カスタムデータソースを作成することもできます。この API は、データソースを同期するときに使用する ID を返します。CreateDataSource API を使用してカスタムデータソースを作成する場合、Configuration、RoleArn または Schedule パラメータは設定できません。これらのパラメータを設定すると、はValidationException例外 Amazon Kendra を返します。

カスタムデータソースを使用するには、 Amazon Kendra インデックスの更新を担当するアプリケーションを作成します。アプリケーションは、作成するクローラによって異なります。クローラーはリポジトリ内のドキュメントを読み取り、 Amazon Kendraに送信するドキュメントを決定します。アプリケーションでは、以下のステップを実行する必要があります。

リポジトリをクロールし、リポジトリ内の追加、更新、または削除されるドキュメントのリストを作成します。
StartDataSourceSyncJob API を呼び出して、同期ジョブが開始されていることを通知します。同期しているデータソースを識別するためのデータソース ID を指定します。は実行 ID を Amazon Kendra 返し、特定の同期ジョブを識別します。
BatchDeleteDocument API を呼び出して、インデックスからドキュメントを削除します。同期しているデータソースと、この更新が関連付けられているジョブを識別するために、データソース ID と実行 ID を指定します。
StopDataSourceSyncJob API を呼び出し、同期ジョブの終了を通知します。StopDataSourceSyncJob API を呼び出すと、関連付けられた実行 ID は無効になります。
インデックスとデータソース識別子を使用して ListDataSourceSyncJobs API を呼び出し、データソースの同期ジョブを一覧表示し、同期ジョブのメトリクスを表示します。

同期ジョブを終了したら、新しい同期ジョブを開始できます。提出されたすべてのドキュメントがインデックスに追加されるまで期間がある場合があります。ListDataSourceSyncJobs API を使用して、同期ジョブのステータスを確認します。同期ジョブに対して返された Status が SYNCING_INDEXING の場合、一部のドキュメントはまだインデックス作成中です。前のジョブのステータスが FAILED または SUCCEEDED の場合は、新しい同期ジョブを開始できます。

StopDataSourceSyncJob API を呼び出した後、同期ジョブ識別子は、BatchPutDocument または BatchDeleteDocument API への呼び出には使えません。呼び出しに使用した場合、送信されたすべてのドキュメントは、API からの FailedDocuments レスポンスメッセージに返されます。

必須属性

BatchPutDocument API Amazon Kendra を使用してにドキュメントを送信する場合、各ドキュメントには、属するデータソースと同期実行を識別するための 2 つの属性が必要です。カスタムデータソースのドキュメントを Amazon Kendra インデックスに正しくマッピングするには、次の 2 つの属性を指定する必要があります。

_data_source_id - データソースの識別子。これは、コンソールまたは CreateDataSource API を使用してデータソースを作成したときに返されます。
_data_source_sync_job_execution_id - 同期実行の識別子。これは、StartDataSourceSyncJob API とのインデックスの同期を開始したときに返されます。

カスタムデータソースを使用してドキュメントのインデックスを作成するために必要な JSON を次に示します。


{
    "Documents": [
        {
            "Attributes": [
                {
                    "Key": "_data_source_id",
                    "Value": {
                        "StringValue": "data source identifier"
                    }
                },
                {
                    "Key": "_data_source_sync_job_execution_id",
                    "Value": {
                        "StringValue": "sync job identifier"
                    }
                }
            ],
            "Blob": "document content",
            "ContentType": "content type",
            "Id": "document identifier",
            "Title": "document title"
        }
    ],
    "IndexId": "index identifier",
    "RoleArn": "IAM role ARN"
}

BatchDeleteDocument API を使用してインデックスからドキュメントを削除すると、DataSourceSyncJobMetricTarget パラメータで次の 2 つのフィールドを指定する必要があります。

DataSourceId - データソースの識別子。これは、コンソールまたは CreateDataSource API を使用してデータソースを作成したときに返されます。
DataSourceSyncJobId - 同期実行の識別子。これは、StartDataSourceSyncJob API とのインデックスの同期を開始したときに返されます。

以下は、BatchDeleteDocument API を使用してインデックスからドキュメントを削除するのに必要な JSON です。


{
    "DataSourceSyncJobMetricTarget": {
        "DataSourceId": "data source identifier",
        "DataSourceSyncJobId": "sync job identifier"
    },
    "DocumentIdList": [
        "document identifier"
    ],
    "IndexId": "index identifier"
}

メトリクスの表示

同期ジョブが終了したら、 DataSourceSyncJobMetrics API を使用して、同期ジョブに関連付けられたメトリクスを取得します。これを使用して、カスタムデータソースの同期をモニタリングします。

同じドキュメントを複数回提出する場合、BatchPutDocument API、BatchDeleteDocument API のいずれかの一部で、ドキュメントが追加と削除の両方で送信された場合、ドキュメントはメトリクスで一度だけカウントされます。

DocumentsAdded - インデックスに初めて追加されたこの同期ジョブに関連付けられた BatchPutDocument API で送信されたドキュメントの数。ドキュメントが同期で複数回追加されるように送信された場合、そのドキュメントはメトリクスで 1 回だけカウントされます。
DocumentsDeleted - インデックスから削除されたこの同期ジョブに関連付けられた BatchDeleteDocument API を使用して送信されたドキュメントの数。ドキュメントが同期で複数回削除されるように送信された場合、そのドキュメントはメトリクスで 1 回だけカウントされます。
DocumentsFailed - インデックス作成に失敗したこの同期ジョブに関連付けられているドキュメントの数。これらは、 Amazon Kendra がインデックス作成のために受け入れましたが、インデックス作成または削除はできなかったドキュメントです。ドキュメントがによって受け入れられない場合 Amazon Kendra、ドキュメントの識別子は BatchPutDocumentおよび BatchDeleteDocument API のFailedDocumentsレスポンスプロパティで返されます。 APIs
DocumentsModified— Amazon Kendra インデックスで変更された、この同期ジョブに関連付けられた BatchPutDocument API を使用して送信された変更されたドキュメントの数。

Amazon Kendra は、ドキュメントのインデックス作成中に Amazon CloudWatch メトリクスも出力します。詳細については、「 Amazon Kendra によるモニタリング Amazon CloudWatch」を参照してください。

Amazon Kendra は、カスタムデータソースの DocumentsScannedメトリクスを返しません。また、データソースのドキュメント CloudWatch メトリクスにリストされているメトリクスも出力します。 Amazon Kendra

詳細はこちら

カスタムデータソース Amazon Kendra との統合の詳細については、以下を参照してください。

へのカスタムデータソースの追加 Amazon Kendra

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Confluence コネクタ V1.0

カスタムデータソース (Java)