カスタムデータソースコネクタ - Amazon Kendra

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

カスタムデータソースコネクタ

データソースコネクタをまだ提供 Amazon Kendra していないリポジトリがある場合は、カスタムデータソースを使用します。の Amazon Kendra データソースを使用してリポジトリを同期できない場合でも、 Amazon Kendraデータソースが提供するのと同じ実行履歴メトリクスを表示できます。これを使用して、 Amazon Kendra データソースとカスタムデータソース間で一貫した同期モニタリングエクスペリエンスを作成します。具体的には、カスタムデータソースを使用して、 BatchPutDocumentBatchDeleteDocument を使用して作成したデータソースコネクタの同期メトリクスを表示しますAPIs。

Amazon Kendra データソースコネクタのトラブルシューティングについては、「データソースのトラブルシューティング」を参照してください。

カスタムデータソースを作成すると、インデックスを作成するドキュメントの選択方法を完全に制御できます。 は、データソース同期ジョブのモニタリングに使用できるメトリクス情報 Amazon Kendra のみを提供します。データソースインデックスを決定するクローラを作成し、実行する必要があります。

Query 結果のレスポンスに DocumentTitleDocumentURIを含める_source_uriDocumentAttributeには、ドキュメントオブジェクトを使用してドキュメントのメインタイトルを指定する必要があります。

コンソールまたは を使用して、カスタムデータソースの識別子を作成しますCreateDataSourceAPI。コンソールを使用するには、データソースに名前を付け、オプションで説明とリソースタグを指定します。データソースが作成されると、データソース ID が表示されます。この ID をコピーして、データソースをインデックスと同期するときに使用します。

Form for specifying data source details, including name, description, and optional tags.

を使用してカスタムデータソースを作成することもできますCreateDataSourceAPI。は、データソースを同期するときに使用する ID APIを返します。を使用してカスタムデータソースCreateDataSourceAPIを作成する場合、Configuration、、RoleArnまたは Scheduleパラメータを設定することはできません。これらのパラメータを設定すると、 はValidationException例外 Amazon Kendra を返します。

カスタムデータソースを使用するには、 Amazon Kendra インデックスの更新を担当するアプリケーションを作成します。アプリケーションは、作成するクローラによって異なります。クローラーはリポジトリ内のドキュメントを読み取り、 Amazon Kendraに送信するドキュメントを決定します。アプリケーションでは、以下のステップを実行する必要があります。

  1. リポジトリをクロールし、リポジトリ内の追加、更新、または削除されるドキュメントのリストを作成します。

  2. を呼び出しStartDataSourceSyncJobAPIて、同期ジョブが開始されていることを通知します。同期しているデータソースを識別するためのデータソース ID を指定します。 は実行 ID を Amazon Kendra 返し、特定の同期ジョブを識別します。

  3. を呼び出しBatchDeleteDocumentAPIて、インデックスからドキュメントを削除します。同期しているデータソースと、この更新が関連付けられているジョブを識別するために、データソース ID と実行 ID を指定します。

  4. を呼び出しStopDataSourceSyncJobAPIて、同期ジョブの終了を通知します。を呼び出すとAPI、関連付けられた実行 ID StopDataSourceSyncJob は無効になります。

  5. インデックスとデータソース識別子ListDataSourceSyncJobsAPIを使用して を呼び出して、データソースの同期ジョブを一覧表示し、同期ジョブのメトリクスを表示します。

同期ジョブを終了したら、新しい同期ジョブを開始できます。提出されたすべてのドキュメントがインデックスに追加されるまで期間がある場合があります。ListDataSourceSyncJobs API を使用して、同期ジョブのステータスを確認します。同期ジョブに対して返された StatusSYNCING_INDEXING の場合、一部のドキュメントはまだインデックス作成中です。前のジョブのステータスが FAILEDまたは の場合、新しい同期ジョブを開始できますSUCCEEDED

を呼び出した後API、 BatchPutDocumentまたは StopDataSourceSyncJob への呼び出しで同期ジョブ識別子を使用することはできませんBatchDeleteDocumentAPIs。これを行うと、送信されたすべてのドキュメントが からのFailedDocuments応答メッセージで返されますAPI。

必須属性

Amazon Kendra を使用して にドキュメントを送信する場合BatchPutDocumentAPI、各ドキュメントには、それが属するデータソースと同期実行を識別するための 2 つの属性が必要です。カスタムデータソースのドキュメントを Amazon Kendra インデックスに正しくマッピングするには、次の 2 つの属性を指定する必要があります。

  • _data_source_id - データソースの識別子。これは、コンソールまたは CreateDataSource を使用してデータソースを作成するときに返されますAPI。

  • _data_source_sync_job_execution_id - 同期実行の識別子。これは、 とのインデックス同期を開始すると返されますStartDataSourceSyncJobAPI。

以下は、カスタムデータソースを使用してドキュメントのインデックスを作成するJSONために必要なものです。

{ "Documents": [ { "Attributes": [ { "Key": "_data_source_id", "Value": { "StringValue": "data source identifier" } }, { "Key": "_data_source_sync_job_execution_id", "Value": { "StringValue": "sync job identifier" } } ], "Blob": "document content", "ContentType": "content type", "Id": "document identifier", "Title": "document title" } ], "IndexId": "index identifier", "RoleArn": "IAM role ARN" }

を使用してインデックスからドキュメントを削除する場合API、 DataSourceSyncJobMetricTargetパラメータで次の BatchDeleteDocument 2 つのフィールドを指定する必要があります。

  • DataSourceId - データソースの識別子。これは、コンソールまたは CreateDataSource を使用してデータソースを作成するときに返されますAPI。

  • DataSourceSyncJobId - 同期実行の識別子。これは、 とのインデックス同期を開始すると返されますStartDataSourceSyncJobAPI。

以下は、 を使用してインデックスからドキュメントを削除JSONするために必要なBatchDeleteDocumentものですAPI。

{ "DataSourceSyncJobMetricTarget": { "DataSourceId": "data source identifier", "DataSourceSyncJobId": "sync job identifier" }, "DocumentIdList": [ "document identifier" ], "IndexId": "index identifier" }

メトリクスの表示

同期ジョブが完了したら、 を使用して同期ジョブに関連付けられたメトリクスDataSourceSyncJobMetricsAPIを取得できます。これを使用して、カスタムデータソースの同期をモニタリングします。

、、または の一部として同じドキュメントを複数回送信した場合API、またはドキュメントが追加と削除の両方で送信された場合、ドキュメントはメトリクスで 1 BatchPutDocument API BatchDeleteDocument 回だけカウントされます。

  • DocumentsAdded— この同期ジョブBatchPutDocumentAPIに関連付けられた を使用して、インデックスに初めて追加されたドキュメントの数。ドキュメントが同期で複数回追加されるように送信された場合、そのドキュメントはメトリクスで 1 回だけカウントされます。

  • DocumentsDeleted— この同期ジョブBatchDeleteDocumentAPIに関連付けられた を使用して送信されたドキュメントのうち、インデックスから削除されたドキュメントの数。ドキュメントが同期で複数回削除されるように送信された場合、そのドキュメントはメトリクスで 1 回だけカウントされます。

  • DocumentsFailed - インデックス作成に失敗したこの同期ジョブに関連付けられているドキュメントの数。これらは、 Amazon Kendra がインデックス作成のために受け入れましたが、インデックス作成または削除はできなかったドキュメントです。ドキュメントが によって受け入れられない場合 Amazon Kendra、ドキュメントの識別子は BatchPutDocumentおよび BatchDeleteDocumentFailedDocumentsレスポンスプロパティで返されますAPIs。

  • DocumentsModified— この同期ジョブBatchPutDocumentAPIに関連付けられた を使用して送信された、 Amazon Kendra インデックスで変更されたドキュメントの数。

Amazon Kendra また、 はドキュメントのインデックス作成中に Amazon CloudWatch メトリクスを発行します。詳細については、「 Amazon Kendra によるモニタリング Amazon CloudWatch」を参照してください。

Amazon Kendra は、カスタムデータソースの DocumentsScannedメトリクスを返しません。また、データソース のドキュメント CloudWatch メトリクス にリストされているメトリクスも出力します。 Amazon Kendra

詳細

カスタムデータソース Amazon Kendra との統合の詳細については、以下を参照してください。