Amazon CloudWatch を用いた OpenSearch クラスターメトリクスのモニタリング - Amazon OpenSearch サービス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon CloudWatch を用いた OpenSearch クラスターメトリクスのモニタリング

Amazon OpenSearch Service は、ドメインから Amazon CloudWatch にデータを公開します。CloudWatch では、それらのデータポイントについての統計 (メトリクスと呼ばれる) を、順序付けられた時系列データのセットとして取得できます。OpenSearch Service は、ほとんどのメトリクスを 60 秒間隔で CloudWatch に送信します。汎用または磁気 EBS ボリュームを使用する場合、EBS ボリュームのメトリクスは 5 分ごとのみに更新されます。Amazon CloudWatch の詳細については、Amazon CloudWatch ユーザーガイドを参照してください。

OpenSearch Service コンソールには、CloudWatch の raw データに基づいて一連のグラフが表示されます。必要に応じて、コンソールでのグラフではなく Amazon CloudWatch にクラスターデータを表示することもできます。サービスは、メトリクスを 2 週間アーカイブし、その後破棄します。このメトリクスに追加料金はかかりませんが、CloudWatch には引き続きダッシュボードとアラームの作成に対して課金されます。詳細については、「Amazon CloudWatch の料金」を参照してください。

OpenSearch Service は CloudWatch にメトリクスを発行します。

CloudWatch でのメトリクスの表示

CloudWatch メトリクスはまずサービスの名前空間ごとにグループ化され、次に各名前空間内のさまざまなディメンションの組み合わせごとにグループ化されます。

CloudWatch コンソールを使用してメトリクスを表示するには
  1. CloudWatch コンソール (https://console.aws.amazon.com/cloudwatch/) を開きます。

  2. 左のナビゲーションペインで、[Metrics] (メトリクス) を見つけ、[All metrics] (すべてのメトリクス) を選択します。ES/OpenSearchService 名前空間を選択します。

  3. ディメンションを選択して、対応するメトリクスを表示します。個別のノードのメトリクスは、ClientId, DomainName, NodeId ディメンションにあります。クラスターメトリクスは、Per-Domain, Per-Client Metrics ディメンションにあります。一部のノードメトリクスは、クラスターレベルで集計されるため、両方のディメンションに含まれます。シャードメトリクスは、ClientId, DomainName, NodeId, ShardRole ディメンションにあります。

AWS CLI を使用してメトリクスのリストを表示するには

次のコマンドを実行します。

aws cloudwatch list-metrics --namespace "AWS/ES"

OpenSearch Service でのヘルスチャートの解釈

OpenSearch Service でメトリクスを表示するには、[クラスターヘルス] および [インスタンスヘルス] タブを使用します [インスタンスヘルス] タブでは、ボックスチャートを使用して、各 OpenSearch ノードのヘルスを一目で確認できます。

  • それぞれの色付きの箱は、指定した期間におけるノードの値範囲を示しています。

  • 青色の箱は他のノードと同じ値を示します。赤色の箱は異常値を示します。

  • 各箱の白線は、ノードの現在値を示します。

  • 各拍の両脇にある「ひげ」は、期間におけるすべてのノードの最大値と最小値を示します。

ドメインの設定を変更すると、[クラスターヘルス] タブと [インスタンスヘルス] タブの各インスタンスのリストが正しい数に戻る前に、しばらくの間 2 倍のサイズになる場合があります。この動作の説明については、「Amazon OpenSearch サービスの設定変更」を参照してください。

クラスターメトリクス

Amazon OpenSearch Service は、以下のクラスターのメトリクスを提供します。

メトリクス 説明
ClusterStatus.green

値 1 は、すべてのインデックスシャードがクラスターのノードに割り当てられることを示します。

関連する統計: Maximum

ClusterStatus.yellow 値 1 は、すべてのインデックスのプライマリシャードがクラスターのノードに割り当てられていることを示しますが、1 つ以上のインデックスのレプリカシャードが割り当てられていません。詳細については、「黄色のクラスター状態」を参照してください。

関連する統計: Maximum

ClusterStatus.red

値 1 は、少なくとも 1 つのインデックスのプライマリとレプリカの両方のシャードが、クラスターのノードに割り当てられないことを示します。詳細については、「赤のクラスター状態」を参照してください。

関連する統計: Maximum

Shards.active

アクティブなプライマリとレプリカの両方のシャードの合計数。

関連する統計: Maximum、Sum

Shards.unassigned

クラスターのノードに割り当てられていないシャードの数。

関連する統計: Maximum、Sum

Shards.delayedUnassigned

タイムアウト設定によってノード割り当てが遅れたシャードの数。

関連する統計: Maximum、Sum

Shards.activePrimary

アクティブなプライマリシャードの数。

関連する統計: Maximum、Sum

Shards.initializing

初期化中のシャードの数。

関連する統計情報: Sum

Shards.relocating

再配置中のシャードの数。

関連する統計情報: Sum

Nodes

OpenSearch Service クラスターのノードの数 (例: 専用マスターノードと UltraWarm ノード)。詳細については、「Amazon OpenSearch サービスの設定変更」を参照してください。

関連する統計: Maximum

SearchableDocuments

クラスター内のすべてのデータノードで検索可能なドキュメントの合計数。

関連する統計情報: Minimum、Maximum、Average

DeletedDocuments

クラスター内のすべてのデータノードで削除対象としてマークされたドキュメントの合計数。これらのドキュメントは検索結果に表示されなくなっていますが、セグメントマージ中にディスクから削除されたドキュメントのみが OpenSearch によって削除されます。このメトリクスは、削除リクエスト後に増加し、セグメントマージ後に減少します。

関連する統計情報: Minimum、Maximum、Average

CPUUtilization

クラスター内のデータノードの CPU 使用率の割合。Maximum は、CPU 使用率が最も高いノードを示します。Average は、クラスター内のすべてのノードを表します。このメトリクスは、個別のノードでも利用できます。

関連する統計: Maximum、Average

FreeStorageSpace

クラスター内のデータノードの空き領域。Sum はクラスターの合計空き容量を示しますが、正確な値を得るには期間を 1 分にする必要があります。MinimumMaximum は、それぞれ空き領域が最も少ないノードと最も多いノードを示します。このメトリクスは、個別のノードでも利用できます。OpenSearch Service は、このメトリクスが 0 に達したときに ClusterBlockException をスローします。復旧するには、インデックスを削除する、より大きなインスタンスを追加する、既存のインスタンスに EBS ベースのストレージを追加する、のいずれかを実行する必要があります。詳細については、使用可能なストレージ領域の不足 を参照してください。

OpenSearch Service コンソールには、この値が GiB 単位で表示されます。Amazon CloudWatch コンソールには、この値が MiB 単位で表示されます。

注記

FreeStorageSpace は、OpenSearch の _cluster/stats および _cat/allocation API が提供する値より常に小さくなります。OpenSearch Service は、内部オペレーションの各インスタンスでストレージ領域の割合を予約します。詳細については、「ストレージ要件の計算」を参照してください。

関連する統計: Minimum、Maximum、Average、Sum

ClusterUsedSpace

クラスターの合計使用領域。正確な値を取得するには、期間を 1 分のままにしておく必要があります。

OpenSearch Service コンソールには、この値が GiB 単位で表示されます。Amazon CloudWatch コンソールには、この値が MiB 単位で表示されます。

関連する統計: Minimum、Maximum

ClusterIndexWritesBlocked

クラスターで、着信する書き込みリクエストを受け入れるか、ブロックするかを指定します。値 0 では、クラスターでリクエストを受け入れます。値 1 ではリクエストをブロックします。

代表的なものとしては、FreeStorageSpace が少なすぎる、JVMMemoryPressure が高すぎるなどがあります。この問題を軽減するには、ディスク容量の追加やクラスターのスケーリングを検討します。

関連する統計: Maximum

JVMMemoryPressure

クラスター内のすべてのデータノードで使用する Java ヒープの最大パーセンテージ。OpenSearch Service は、インスタンスの RAM の半分を Java ヒープ (32 GiB のヒープサイズまで) に使用します。インスタンスは最大 64 GiB の RAM まで垂直スケーリングでき、それ以上はインスタンスを追加することで水平方向にスケーリングできます。「Amazon OpenSearch Service の推奨 CloudWatch アラーム」を参照してください。

関連する統計: Maximum

注記

このメトリクスのロジックは、サービスソフトウェア R20220323 で変更されました。詳細については、「リリースノート」を参照してください。

OldGenJVMMemoryPressure

クラスター内のすべてのデータノードにおける「旧世代」で使用する Java ヒープの最大パーセンテージ。このメトリクスは、ノードレベルでも使用できます。

関連する統計: Maximum

AutomatedSnapshotFailure

クラスターの失敗した自動スナップショットの数。1 の値は、自動スナップショットが過去 36 時間、ドメイン用に取られなかったことを示します。

関連する統計: Minimum、Maximum

CPUCreditBalance

クラスター内の、データノードに使用できる残りの CPU クレジット。CPU クレジットは、フル CPU パフォーマンスを 1 分間実現します。詳細については、Amazon EC2 デベロッパーガイドの「CPU クレジット」を参照してください。このメトリクスは、T2 のインスタンスタイプでのみ使用できます。

関連する統計: Minimum

OpenSearchDashboardsHealthyNodes

OpenSearch Dashboards のヘルスチェック。最小、最大、および平均がすべて 1 に等しい場合、Dashboards は正常に動作しています。最大が 1、最小が 0、平均が 0.7 の 10 個のノードがある場合、これは 7 個のノード (70%) が正常であり、3 個のノード (30%) が正常でないことを意味します。

関連する統計情報: Minimum、Maximum、Average

OpensearchDashboardsReportingFailedRequestSysErrCount

サーバーの問題または機能の制限により失敗した OpenSearch Dashboards レポートを生成するリクエストの数。

関連する統計情報: Sum

OpensearchDashboardsReportingFailedRequestUserErrCount

クライアントの問題により失敗した OpenSearch Dashboards レポートを生成するリクエストの数。

関連する統計情報: Sum

OpensearchDashboardsReportingRequestCount

OpenSearch Dashboards レポートを生成するリクエストの合計数。

関連する統計情報: Sum

OpensearchDashboardsReportingSuccessCount

OpenSearch Dashboards レポートを生成するリクエストに成功した数。

関連する統計情報: Sum

KMSKeyError

値 1 は、保管中のデータを暗号化するために使用される AWS KMS キーが無効になっていることを示します。通常のオペレーションにドメインを復元するには、キーを再度有効にします。コンソールでは、保管時のデータを暗号化するドメインに対してのみこのメトリクスが表示されます。

関連する統計: Minimum、Maximum

KMSKeyInaccessible

値 1 は、保管中のデータを暗号化するために使用される AWS KMS キーが削除されたか、OpenSearch Service への付与が取り消し済みであることを示します。この状態にあるドメインを復元することはできません。ただし、手動のスナップショットがある場合は、それを使用してドメインのデータを新しいドメインに移行できます。コンソールでは、保管時のデータを暗号化するドメインに対してのみこのメトリクスが表示されます。

関連する統計: Minimum、Maximum

InvalidHostHeaderRequests

OpenSearch クラスターに対する HTTP リクエストのうち、ホストヘッダーが無効な (または欠落している) ものの数。有効なリクエストには、ホストヘッダー値としてドメインホスト名が含まれます。OpenSearch Service は、制限付きアクセスポリシーを持たないパブリックアクセスドメインの不正なリクエストを拒否します。すべてのドメインに制限付きアクセスポリシーを適用することをお勧めします。

このメトリクスで大きな値が表示される場合は、OpenSearch クライアントのリクエストにドメインホスト名が含まれていることを確認します (ない場合は、IP アドレスなど)。

関連する統計情報: Sum

OpenSearchRequests(previously ElasticsearchRequests)

OpenSearch クラスターに対するリクエストの数。

関連する統計情報: Sum

2xx, 3xx, 4xx, 5xx

特定の HTTP レスポンスコード (2xx、3xx、4xx、5xx) の発生につながった、ドメインへのリクエストの数。

関連する統計情報: Sum

ThroughputThrottle

ディスクがスロットリングされたかどうかが示されます。スロットリングは、ReadThroughputMicroBursting と WriteThroughputMicroBursting の合計スループットが最大スループット MaxProvisionedThroughput よりも高い場合に発生します。MaxProvisionedThroughput は、インスタンススループットまたはプロビジョニングされたボリュームスループットのうち、低い方の値です。値 1 は、ディスクがスロットリングされていることを示しています。値 0 は正常な動作を示します。

インスタンスのスループットについては、「Amazon EBS 最適化インスタンスを使用する」を参照してください。ボリュームスループットの詳細については、「Amazon EBS ボリュームの種類」を参照してください。

関連する統計: Minimum、Maximum

専用マスターノードメトリクス

Amazon OpenSearch Service は、以下の専用マスターノードのメトリクスを提供します。

メトリクス 説明
MasterCPUUtilization

専用マスターノードが使用する CPU リソースの最大パーセンテージ。このメトリクスが 60 パーセントに達する場合、インスタンスタイプのサイズを増やすことをお勧めします。

関連する統計: Maximum

MasterFreeStorageSpace

このメトリクスは関係ないため無視できます。このサービスはデータノードとしてマスターノードを使用しません。

MasterJVMMemoryPressure

クラスター内のすべての専用マスターノードで使用する Java ヒープの最大パーセンテージ。このメトリクスが 85 パーセントに達する場合、より大規模なインスタンスタイプに移行することをお勧めします。

関連する統計: Maximum

注記

このメトリクスのロジックは、サービスソフトウェア R20220323 で変更されました。詳細については、「リリースノート」を参照してください。

MasterOldGenJVMMemoryPressure

マスターノードごとの「旧世代」で使用される Java ヒープの最大パーセンテージ。

関連する統計: Maximum

MasterCPUCreditBalance

クラスター内の専用マスターノードで使用できる、残りの CPU クレジット。CPU クレジットは、フル CPU パフォーマンスを 1 分間実現します。詳細については、Amazon EC2 デベロッパーガイドの「CPU クレジット」を参照してください。このメトリクスは、T2 のインスタンスタイプでのみ使用できます。

関連する統計: Minimum

MasterReachableFromNode

MasterNotDiscovered 例外のヘルスチェック。値 1 は正常な動作を示します。値 0 は、/_cluster/health/ の動作が正常ではないことを示します。

障害が発生すると、ソースノードからマスターノードにアクセスすることができなくなります。通常、これらはネットワーク接続または AWS 依存関係の問題が原因で発生します。

関連する統計: Maximum

MasterSysMemoryUtilization

使用中のマスターノードのメモリの割合。

関連する統計: Maximum

EBS ボリュームメトリクス

Amazon OpenSearch Service は、以下の EBS ボリュームのメトリクスを提供します。

メトリクス 説明
ReadLatency

EBS ボリュームでの読み取り操作のレイテンシー (秒単位)。このメトリクスは、個別のノードでも利用できます。

関連する統計情報: Minimum、Maximum、Average

WriteLatency

EBS ボリュームでの書き込み操作のレイテンシー (秒単位)。このメトリクスは、個別のノードでも利用できます。

関連する統計情報: Minimum、Maximum、Average

ReadThroughput

EBS ボリュームでの読み取り操作のスループット (バイト/秒単位)。このメトリクスは、個別のノードでも利用できます。

関連する統計情報: Minimum、Maximum、Average

ReadThroughputMicroBursting

マイクロバーストを考慮に入れたときの、EBS ボリュームにおける読み取りオペレーションのスループット (バイト/秒)。このメトリクスは、個別のノードでも利用できます。マイクロバーストは、EBS ボリュームがきわめて短い時間 (1 分未満) に高い IOPS またはスループットをバーストするときに発生します。

関連する統計情報: Minimum、Maximum、Average

WriteThroughput

EBS ボリュームでの書き込み操作のスループット (バイト/秒単位)。このメトリクスは、個別のノードでも利用できます。

関連する統計情報: Minimum、Maximum、Average

WriteThroughputMicroBursting

マイクロバーストを考慮に入れたときの、EBS ボリュームにおける書き込みオペレーションのスループット (バイト/秒)。このメトリクスは、個別のノードでも利用できます。マイクロバーストは、EBS ボリュームがきわめて短い時間 (1 分未満) に高い IOPS またはスループットをバーストするときに発生します。

関連する統計情報: Minimum、Maximum、Average

DiskQueueDepth

EBS ボリュームに対する保留中の入出力 (I/O) リクエストの数。

関連する統計情報: Minimum、Maximum、Average

ReadIOPS

EBS ボリュームでの読み取り操作の入出力 (I/O) 操作数 (1 秒あたり)。このメトリクスは、個別のノードでも利用できます。

関連する統計情報: Minimum、Maximum、Average

ReadIOPSMicroBursting

マイクロバーストを考慮に入れたときの、EBS ボリュームでの読み取り操作の入出力 (I/O) 操作数 (1 秒あたり)。このメトリクスは、個別のノードでも利用できます。マイクロバーストは、EBS ボリュームがきわめて短い時間 (1 分未満) に高い IOPS またはスループットをバーストするときに発生します。

関連する統計情報: Minimum、Maximum、Average

WriteIOPS

EBS ボリュームでの書き込み操作の入出力 (I/O) 操作数 (1 秒あたり)。このメトリクスは、個別のノードでも利用できます。

関連する統計情報: Minimum、Maximum、Average

WriteIOPSMicroBursting

マイクロバーストを考慮に入れたときの、EBS ボリュームでの書き込み操作の入出力 (I/O) 操作数 (1 秒あたり)。このメトリクスは、個別のノードでも利用できます。マイクロバーストは、EBS ボリュームがきわめて短い時間 (1 分未満) に高い IOPS またはスループットをバーストするときに発生します。

関連する統計情報: Minimum、Maximum、Average

BurstBalance

EBS ボリュームの、バーストバケットに残っている入出力 (I/O) クレジットの割合。値 100 は、ボリュームが最大クレジット数を累積したことを意味します。このパーセンテージが 70% を下回る場合は、「低 EBS バーストバランス」を参照してください。gp3 ボリュームタイプを使用するドメインと、ボリュームサイズが 1,000 GiB を超える gp2 ボリュームを使用するドメインのバーストバランスは 0 のままになります。

関連する統計情報: Minimum、Maximum、Average

インスタンスメトリクス

Amazon OpenSearch Service は、以下のドメイン内の各インスタンスのメトリクスを提供します。また、OpenSearch Service では、これらのインスタンスメトリクスを集約することで、クラスター全体のヘルスへのインサイトを提供します。この動作を確認するには、コンソールで [サンプル数] 統計を使用します。以下のテーブルの各メトリクスには、ノードクラスターに関連する統計を含みます。

重要

Elasticsearch のバージョンが異なる場合、_index API への呼び出しの処理にも異なるスレッドプールが使用されます。Elasticsearch 1.5 および 2.3 は、インデックス作成スレッドプールを使用します。Elasticsearch 5.x、6.0、および 6.2 はバルクスレッドプールを使用します。OpenSearch および Elasticsearch 6.3 以降では書き込みスレッドプールを使用します。現在、OpenSearch Service コンソールにはバルクスレッドプールのグラフは含まれていません。

GET _cluster/settings?include_defaults=true を使用して、クラスターのスレッドプールとキューサイズを確認します。

メトリクス 説明
IndexingLatency

ノード内のすべてのインデックス作成オペレーションにかかった合計時間 (ミリ秒) の、N 分と (N-1) 分の差。

関連するノードの統計: Average

関連するクラスターの統計: Average、Maximum

IndexingRate

1 分あたりのインデックス作成オペレーションの数。2 つのドキュメントを追加し、2 つのカウントを 4 つのオペレーションとして更新する _bulk API への 1 回の呼び出し。これは 1 つ以上のノードに分散する可能性があります。そのインデックスに 1 つ以上のレプリカがある場合、クラスター内の他のノードにも合計 4 つのインデックス作成オペレーションが記録されます。ドキュメントの削除はこのメトリクスに対してカウントされません。

関連するノードの統計: Average

関連するクラスターの統計: Average、Maximum、Sum

SearchLatency

ノード内のすべての検索にかかった合計時間 (ミリ秒) の、N 分と (N-1) 分の差。

関連するノードの統計: Average

関連するクラスターの統計: Average、Maximum

SearchRate

データノードのすべてのシャードに対する 1 分あたりの検索リクエストの総数。_search API への 1 回の呼び出しに対して、さまざまなシャードから結果が返される可能性があります。これらのシャードのうちの 5 つが 1 つのノードにある場合、クライアントが 1 つのリクエストしか行っていない場合でも、ノードはこのメトリクスについて 5 を報告します。

関連するノードの統計: Average

関連するクラスターの統計: Average、Maximum、Sum

SegmentCount

データノードでのセグメントの数。セグメントの数が多いほど、各検索にかかる時間が長くなります。OpenSearch では、小さなセグメントを大きなセグメントにマージすることがあります。

関連するノードの統計: Maximum、Average

関連するクラスターの統計: Sum、Maximum、Average

SysMemoryUtilization

インスタンスが使用中のメモリの割合。このメトリクスの高い値は正常であり、通常はクラスターに問題はありません。潜在的なパフォーマンスおよび安定性の問題の指標については、「JVMMemoryPressure メトリクス」を参照してください。

関連するノードの統計: Minimum、Maximum、Average

関連するクラスターの統計: Minimum、Maximum、Average

JVMGCYoungCollectionCount

「新世代」ガベージコレクションが実行された回数。実行数が大量になり、かつ増え続けることは、通常のクラスター操作の一部です。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

JVMGCYoungCollectionTime

クラスターで「新世代」ガベージコレクションの実行にかかった時間 (ミリ秒)。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

JVMGCOldCollectionCount

「旧世代」ガベージコレクションが実行された回数。十分なリソースがあるクラスターでは、この回数は少ないままですが、まれに増加します。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

JVMGCOldCollectionTime

クラスターで「旧世代」ガベージコレクションの実行にかかった時間 (ミリ秒)。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

OpenSearchDashboardsConcurrentConnections

OpenSearch Dashboards へのアクティブな同時接続の数。この数が一貫して増加する場合は、クラスターのスケーリングを検討してください。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

OpenSearchDashboardsHealthyNode

個別の OpenSearch Dashboards ノードのヘルスチェック。値 1 は正常な動作を示します。値 0 は Dashboards がアクセス不可であることを示します。

関連するノードの統計: Minimum

関連するクラスターの統計: Minimum、Maximum、Average

OpenSearchDashboardsHeapTotal

OpenSearch Dashboards に割り当てられたヒープメモリの容量 (MiB)。EC2 インスタンスタイプが異なると、正確なメモリ割り当てに影響する可能性があります。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

OpenSearchDashboardsHeapUsed

OpenSearch Dashboards で使用されるヒープメモリの絶対容量 (MiB)。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

OpenSearchDashboardsHeapUtilization

OpenSearch Dashboards で使用される使用可能なヒープメモリの最大パーセンテージ。この値が 80% を超えて増加する場合は、クラスターのスケーリングを検討してください。

関連するノードの統計: Maximum

関連するクラスターの統計: Minimum、Maximum、Average

OpenSearchDashboardsOS1MinuteLoad

OpenSearch Dashboards の 1 分の CPU ロードの平均。CPU ロードは、理想的には 1.00 未満にとどまるはずです。一時的なスパイクは問題ありませんが、このメトリクスが一貫して 1.00 を超える場合は、インスタンスタイプのサイズを増やすことをお勧めします。

関連するノードの統計: Average

関連するクラスターの統計: Average、Maximum

OpenSearchDashboardsRequestTotal

OpenSearch Dashboards に対して行われた HTTP リクエストの合計数。システムの速度が遅い、または Dashboards リクエストの数が多い場合は、インスタンスタイプのサイズを増やすことを検討してください。

関連するノードの統計: Sum

関連するクラスターの統計: Sum

OpenSearchDashboardsResponseTimesMaxInMillis

OpenSearch Dashboards がリクエストに応答するのに必要な最大時間 (ミリ秒)。リクエストで結果が返ってくるために一貫して時間がかかる場合は、インスタンスタイプのサイズを増やすことを検討してください。

関連するノードの統計: Maximum

関連するクラスターの統計: Maximum、Average

SearchTaskCancelled

コーディネーターノードのキャンセル数。

関連するノードの統計: Sum

関連するクラスターの統計: Sum

SearchShardTaskCancelled

データノードのキャンセル数。

関連するノードの統計: Sum

関連するクラスターの統計: Sum、

ThreadpoolForce_mergeQueue

強制マージスレッドプールでキューに入っているタスクの数。キューのサイズが一貫して大きい場合は、クラスターのスケーリングを検討してください。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

ThreadpoolForce_mergeRejected

強制マージスレッドプールで拒否されたタスクの数。この数が増え続ける場合は、クラスターのスケーリングを検討してください。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum

ThreadpoolForce_mergeThreads

強制マージスレッドプールのサイズ。

関連するノードの統計: Maximum

関連するクラスターの統計: Average、Sum

ThreadpoolIndexQueue

インデックス作成スレッドプールでキューに入っているタスクの数。キューのサイズが一貫して大きい場合は、クラスターのスケーリングを検討してください。インデックスキューの最大サイズは 200 です。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

ThreadpoolIndexRejected

インデックス作成スレッドプールで拒否されたタスクの数。この数が増え続ける場合は、クラスターのスケーリングを検討してください。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum

ThreadpoolIndexThreads

インデックス作成スレッドプールのサイズ。

関連するノードの統計: Maximum

関連するクラスターの統計: Average、Sum

ThreadpoolSearchQueue

検索スレッドプールでキューに入っているタスクの数。キューのサイズが一貫して大きい場合は、クラスターのスケーリングを検討してください。検索キューの最大サイズは 1,000 です。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

ThreadpoolSearchRejected

検索スレッドプールで拒否されたタスクの数。この数が増え続ける場合は、クラスターのスケーリングを検討してください。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum

ThreadpoolSearchThreads

検索スレッドプールのサイズ。

関連するノードの統計: Maximum

関連するクラスターの統計: Average、Sum

Threadpoolsql-workerQueue

SQL 検索スレッドプールでキューに入っているタスクの数。キューのサイズが一貫して大きい場合は、クラスターのスケーリングを検討してください。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

Threadpoolsql-workerRejected

SQL 検索スレッドプールで拒否されたタスクの数。この数が増え続ける場合は、クラスターのスケーリングを検討してください。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum

Threadpoolsql-workerThreads

SQL 検索スレッドプールのサイズ。

関連するノードの統計: Maximum

関連するクラスターの統計: Average、Sum

ThreadpoolBulkQueue

バルクスレッドプールでキューに入っているタスクの数。キューのサイズが一貫して大きい場合は、クラスターのスケーリングを検討してください。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

ThreadpoolBulkRejected

バルクスレッドプールで拒否されたタスクの数。この数が増え続ける場合は、クラスターのスケーリングを検討してください。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum

ThreadpoolBulkThreads

バルクスレッドプールのサイズ。

関連するノードの統計: Maximum

関連するクラスターの統計: Average、Sum

ThreadpoolWriteThreads

書き込みスレッドプールのサイズ。

関連するノードの統計: Maximum

関連するクラスターの統計: Average、Sum

ThreadpoolWriteQueue

書き込みスレッドプールでキューに入っているタスクの数。

関連するノードの統計: Maximum

関連するクラスターの統計: Average、Sum

ThreadpoolWriteRejected

書き込みスレッドプールで拒否されたタスクの数。

関連するノードの統計: Maximum

関連するクラスターの統計: Average、Sum

注記

バージョン 7.1 では、デフォルトの書き込みキューのサイズが 200 から 10000 に増加したため、このメトリクスは OpenSearch Service からの拒否の唯一の指標ではなくなりました。CoordinatingWriteRejectedPrimaryWriteRejected、および ReplicaWriteRejected メトリクスを使用して、バージョン 7.1 以降での拒否をモニタリングします。

CoordinatingWriteRejected

最後の OpenSearch Service プロセスのスタートアップ以降のインデックス作成のプレッシャーにより調整ノードで発生した拒否の総数。

関連するノードの統計: Maximum

関連するクラスターの統計: Average、Sum

このメトリクスは、バージョン 7.1 以降で使用できます。

PrimaryWriteRejected

最後の OpenSearch Service プロセスのスタートアップ以降のインデックス作成のプレッシャーによりプライマリシャードで発生した拒否の総数。

関連するノードの統計: Maximum

関連するクラスターの統計: Average、Sum

このメトリクスは、バージョン 7.1 以降で使用できます。

ReplicaWriteRejected

最後の OpenSearch Service プロセスのスタートアップ以降のインデックス作成のプレッシャーによりレプリカシャードで発生した拒否の合計数。

関連するノードの統計: Maximum

関連するクラスターの統計: Average、Sum

このメトリクスは、バージョン 7.1 以降で使用できます。

UltraWarm メトリクス

Amazon OpenSearch Service は、以下の UltraWarm ノードのメトリクスを提供します。

メトリクス 説明
WarmCPUUtilization

クラスター内の UltraWarm ノードの CPU 使用率の割合。Maximum は、CPU 使用率が最も高いノードを示します。Average は、クラスター内のすべての UltraWarm ノードを表します。このメトリクスは、個々の UltraWarm ノードでも利用できます。

関連する統計: Maximum、Average

WarmFreeStorageSpace

ウォームストレージの空き容量 (MiB)。UltraWarm は、接続されたディスクではなく Amazon S3 を使用するため、Sum は関連する唯一の統計情報です。正確な値を取得するには、期間を 1 分のままにしておく必要があります。

関連する統計情報: Sum

WarmSearchableDocuments

クラスター内のすべてのウォームインデックスで検索可能なドキュメントの合計数。正確な値を取得するには、期間を 1 分のままにしておく必要があります。

関連する統計情報: Sum

WarmSearchLatency

UltraWarm 内のすべての検索にかかった合計時間 (ミリ秒) の、N 分と (N-1) 分の差。

関連するノードの統計: Average

関連するクラスターの統計: Average、Maximum

WarmSearchRate

UltraWarm ノードのすべてのシャードに対する 1 分あたりの検索リクエストの総数。_search API への 1 回の呼び出しに対して、さまざまなシャードから結果が返される可能性があります。これらのシャードのうちの 5 つが 1 つのノードにある場合、クライアントが 1 つのリクエストしか行っていない場合でも、ノードはこのメトリクスについて 5 を報告します。

関連するノードの統計: Average

関連するクラスターの統計: Average、Maximum、Sum

WarmStorageSpaceUtilization

クラスターで使用中のウォームストレージスペースの合計容量 (MiB)。

関連する統計: Maximum

HotStorageSpaceUtilization

クラスターで使用しているホットストレージの合計容量。

関連する統計: Maximum

WarmSysMemoryUtilization

使用中のウォームノードのメモリの割合。

関連する統計: Maximum

HotToWarmMigrationQueueSize

現在、ホットストレージからウォームトストレージへの移行を待機しているインデックスの数。

関連する統計: Maximum

WarmToHotMigrationQueueSize

現在、ウォームストレージからホットストレージへの移行を待機しているインデックスの数。

関連する統計: Maximum

HotToWarmMigrationFailureCount

失敗したホットからウォームへの移行の合計数。

関連する統計情報: Sum

HotToWarmMigrationForceMergeLatency

移行プロセスの強制マージステージの平均レイテンシー。この段階が一貫して時間がかかりすぎる場合は、index.ultrawarm.migration.force_merge.max_num_segments を増やすことを検討してください。

関連する統計: Average

HotToWarmMigrationSnapshotLatency

移行プロセスのスナップショットステージの平均レイテンシー。この段階が一貫して時間がかかりすぎる場合は、シャードが適切にサイズ設定され、クラスター全体に分散されていることを確認します。

関連する統計: Average

HotToWarmMigrationProcessingLatency

ホットからウォームへの移行が成功した場合の平均レイテンシーで、キューに費やした時間を含まない。この値は、移行プロセスの強制マージ、スナップショット、およびシャード再配置ステージを完了するのにかかる時間の合計です。

関連する統計: Average

HotToWarmMigrationSuccessCount

ホットからウォームへの移行に成功した合計数。

関連する統計情報: Sum

HotToWarmMigrationSuccessLatency

ホットからウォームへの移行が成功した場合の平均レイテンシーで、キューに費やされた時間を含む。

関連する統計: Average

WarmThreadpoolSearchThreads

UltraWarm 検索スレッドプールのサイズ。

関連するノードの統計: Maximum

関連するクラスターの統計: Average、Sum

WarmThreadpoolSearchRejected

UltraWarm 検索スレッドプールで拒否されたタスクの数。この数が増え続ける場合は、UltraWarm ノードの追加を検討してください。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum

WarmThreadpoolSearchQueue UltraWarm 検索スレッドプールでキューに入っているタスクの数。キューのサイズが一貫して大きい場合は、UltraWarm ノードの追加を検討してください。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

WarmJVMMemoryPressure

UltraWarm ノードで使用する Java ヒープの最大割合。

関連する統計: Maximum

注記

このメトリクスのロジックは、サービスソフトウェア R20220323 で変更されました。詳細については、「リリースノート」を参照してください。

WarmOldGenJVMMemoryPressure

UltraWarm ノードごとに「旧世代」で使用する Java ヒープの最大割合。

関連する統計: Maximum

WarmJVMGCYoungCollectionCount

「新世代」ガベージコレクションが UltraWarm ノードで実行された回数。実行数が大量になり、かつ増え続けることは、通常のクラスター操作の一部です。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

WarmJVMGCYoungCollectionTime

クラスターで「新世代」ガベージコレクションの UltraWarm ノードでの実行にかかった時間 (ミリ秒)。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

WarmJVMGCOldCollectionCount

「旧世代」ガベージコレクションが UltraWarm ノードで実行された回数。十分なリソースがあるクラスターでは、この回数は少ないままですが、まれに増加します。

関連するノードの統計: Maximum

関連するクラスターの統計: Sum、Maximum、Average

コールドストレージのメトリクス

Amazon OpenSearch Service は、以下のコールドストレージのメトリクスを提供します。

メトリクス 説明
ColdStorageSpaceUtilization

クラスターで使用しているコールドストレージの合計容量 (MiB)。

関連する統計情報: Max

ColdToWarmMigrationFailureCount

コールドからウォームへの移行に失敗した移行の合計数。

関連する統計情報: Sum

ColdToWarmMigrationLatency

コールドからウォームへの移行が正常に完了するまでの時間。

関連する統計: Average

ColdToWarmMigrationQueueSize

現在、コールドストレージからウォームストレージへの移行を待機しているインデックスの数。

関連する統計: Maximum

ColdToWarmMigrationSuccessCount

コールドからウォームへの移行に成功した合計数。

関連する統計情報: Sum

WarmToColdMigrationFailureCount

ウォームからコールドへの移行に失敗した合計数。

関連する統計情報: Sum

WarmToColdMigrationLatency

ウォームからコールドへの移行が正常に完了するまでの時間。

関連する統計: Average

WarmToColdMigrationQueueSize

現在、ウォームストレージからコールドストレージへの移行を待機しているインデックスの数。

関連する統計: Maximum

WarmToColdMigrationSuccessCount

ウォームからコールドへの移行に成功した合計数。

関連する統計情報: Sum

OR1 メトリクス

Amazon OpenSearch Service は、OR1 インスタンスについて次のメトリクスを提供します。

メトリクス 説明
RemoteStorageUsedSpace

クラスターで使用中の Amazon S3 スペースの合計容量 (MiB)。

関連する統計情報: Sum

RemoteStorageWriteRejected

リモートストレージとレプリケーションの負荷により、プライマリシャードで拒否されたリクエストの総数。これは、OpenSearch Service のプロセスの最後の起動を起点として計算されます。

関連する統計情報: Sum

アラートメトリクス

Amazon OpenSearch Service は、以下のアラートのメトリクスを提供します。

メトリクス 説明
AlertingDegraded

値 1 は、アラートインデックスが赤であるか、1 つ以上のノードがスケジュールどおりでないことを意味します。値 0 は正常な動作を示します。

関連する統計: Maximum

AlertingIndexExists

値 1 は、.opensearch-alerting-config インデックスが存在することを意味します。値 0 は、そのインデックスが存在しないことを意味します。アラート機能を初めて使用するまで、この値は 0 のままです。

関連する統計: Maximum

AlertingIndexStatus.green

インデックスのヘルス。値 1 は、緑を意味します。値 0 は、インデックスが存在しないか、緑ではないことを意味します。

関連する統計: Maximum

AlertingIndexStatus.red

インデックスのヘルス。値 1 は、赤を意味します。値 0 は、インデックスが存在しないか、赤でないことを意味します。

関連する統計: Maximum

AlertingIndexStatus.yellow

インデックスのヘルス。値 1 は、黄色を意味します。値 0 は、インデックスが存在しないか、黄色でないことを意味します。

関連する統計: Maximum

AlertingNodesNotOnSchedule

値 1 は、一部のジョブがスケジュールどおりに実行されていないことを意味します。値 0 は、すべてのアラートジョブがスケジュールどおりに実行されていることを意味します (またはアラートジョブが存在しないことを意味します)。OpenSearch Service コンソールを確認するか、_nodes/stats リクエストを行って、リソースの使用率が高いノードがあるかどうかを確認します。

関連する統計: Maximum

AlertingNodesOnSchedule

値 1 は、すべてのアラートジョブがスケジュールどおりに実行されていることを意味します (またはアラートジョブが存在しないことを意味します)。値 0 は、一部のジョブがスケジュールどおりに実行されていないことを意味します。

関連する統計: Maximum

AlertingScheduledJobEnabled

値 1 は、opensearch.scheduled_jobs.enabled クラスター設定が true であることを意味します。値 0 は、その設定が false であり、スケジュールされたジョブが無効であることを意味します。

関連する統計: Maximum

異常検出のメトリクス

Amazon OpenSearch Service は、以下の異常検出のメトリクスを提供します。

メトリクス 説明
ADPluginUnhealthy

値 1 は、異常検出プラグインが正しく動作していないことを意味します。これは、障害の数が多いか、使用しているインデックスの 1 つが赤の状態であるためです。値 0 は、プラグインが想定どおりに動作していることを示します。

関連する統計: Maximum

ADExecuteRequestCount

異常検出のリクエストの数。

関連する統計情報: Sum

ADExecuteFailureCount

異常検出に失敗したリクエストの数。

関連する統計情報: Sum

ADHCExecuteFailureCount

高基数ディテクターの異常検出に失敗したリクエストの数。

関連する統計情報: Sum

ADHCExecuteRequestCount

高基数ディテクターの異常検出のリクエストの数。

関連する統計情報: Sum

ADAnomalyResultsIndexStatusIndexExists

値 1 は、.opensearch-anomaly-results エイリアスが指すインデックスが存在することを意味します。異常検出を初めて使用するまで、この値は 0 のままです。

関連する統計: Maximum

ADAnomalyResultsIndexStatus.red

値 1 は、 .opensearch-anomaly-results エイリアスが指すインデックスが赤の状態であることを意味します。値 0 は、そうでないことを意味します。異常検出を初めて使用するまで、この値は 0 のままです。

関連する統計: Maximum

ADAnomalyDetectorsIndexStatusIndexExists

値 1 は、.opensearch-anomaly-detectors インデックスが存在することを意味します。値 0 は、そのインデックスが存在しないことを意味します。異常検出を初めて使用するまで、この値は 0 のままです。

関連する統計: Maximum

ADAnomalyDetectorsIndexStatus.red

値 1 は、.opensearch-anomaly-detectors インデックスが赤の状態であることを意味します。値 0 は、そうでないことを意味します。異常検出を初めて使用するまで、この値は 0 のままです。

関連する統計: Maximum

ADModelsCheckpointIndexStatusIndexExists

値 1 は、.opensearch-anomaly-checkpoints インデックスが存在することを意味します。値 0 は、そのインデックスが存在しないことを意味します。異常検出を初めて使用するまで、この値は 0 のままです。

関連する統計: Maximum

ADModelsCheckpointIndexStatus.red

値 1 は、.opensearch-anomaly-checkpoints インデックスが赤の状態であることを意味します。値 0 は、そうでないことを意味します。異常検出を初めて使用するまで、この値は 0 のままです。

関連する統計: Maximum

Amazon OpenSearch Service は、以下の非同期検索のメトリクスを提供します。

非同期検索コーディネーターノードの統計 (コーディネーターノードあたり)

メトリクス 説明
AsynchronousSearchSubmissionRate

過去 1 分間に送信された非同期検索の数。

AsynchronousSearchInitializedRate

過去 1 分間に初期化された非同期検索の数。

AsynchronousSearchRunningCurrent

現在実行中の非同期検索の数。

AsynchronousSearchCompletionRate

過去 1 分間に正常に完了した非同期検索の数。

AsynchronousSearchFailureRate

過去 1 分間に完了し、失敗した非同期検索の数。

AsynchronousSearchPersistRate

過去 1 分間に持続した非同期検索の数。

AsynchronousSearchPersistFailedRate

過去 1 分間に持続できなかった非同期検索の数。

AsynchronousSearchRejected

ノードの稼働時間以降に拒否された非同期検索の合計数。

AsynchronousSearchCancelled

ノードの稼働時間以降にキャンセルされた非同期検索の合計数。

AsynchronousSearchMaxRunningTime

過去 1 分間にノードで実行されている非同期検索の最長時間。

非同期検索クラスター統計

メトリクス 説明
AsynchronousSearchStoreHealth

過去 1 分間に持続したインデックス (赤/赤以外) 内のストアのヘルス。

AsynchronousSearchStoreSize

過去 1 分間のすべてのシャードのシステムインデックスのサイズ。

AsynchronousSearchStoredResponseCount

過去 1 分間にシステムインデックスに保存されたレスポンスの数。

Auto-Tune メトリクス

Amazon OpenSearch Service は、Auto-Tune に以下のメトリクスを提供します。

メトリクス 説明
AutoTuneChangesHistoryHeapSize

ヒープサイズチューニング値の MiB 単位の変更履歴。

AutoTuneChangesHistoryJVMYoungGenArgs

JVM YongGen 引数の変更履歴。

AutoTuneFailed

Auto-Tune の変更が失敗したかどうかを示すブール値。

AutoTuneSucceeded

Auto-Tune の変更が成功したかどうかを示すブール値。

AutoTuneValue 中断を伴わない変更のキュー変更履歴 (カウント) とキャッシュチューニング変更履歴 (MiB 単位)。

Multi-AZ with Standby メトリクス

Amazon OpenSearch Service は、Multi-AZ with Standby で次のメトリクスを提供します。

アクティブなアベイラビリティーゾーンにおけるデータノードのノードレベルメトリクス

メトリクス 説明
CPUUtilization クラスター内のデータノードの CPU 使用率の割合。Maximum は、CPU 使用率が最も高いノードを示します。Average は、クラスター内のすべてのノードを表します。このメトリクスは、個別のノードでも利用できます。
FreeStorageSpace

クラスター内のデータノードの空き領域。Sum はクラスターの合計空き容量を示しますが、正確な値を得るには期間を 1 分にする必要があります。MinimumMaximum は、それぞれ空き領域が最も少ないノードと最も多いノードを示します。このメトリクスは、個別のノードでも利用できます。OpenSearch Service は、このメトリクスが 0 に達したときに ClusterBlockException をスローします。復旧するには、インデックスを削除する、より大きなインスタンスを追加する、既存のインスタンスに EBS ベースのストレージを追加する、のいずれかを実行する必要があります。詳細については、使用可能なストレージ領域の不足 を参照してください。

OpenSearch Service コンソールには、この値が GiB 単位で表示されます。Amazon CloudWatch コンソールには、この値が MiB 単位で表示されます。

JVMMemoryPressure クラスター内のすべてのデータノードで使用する Java ヒープの最大パーセンテージ。OpenSearch Service は、インスタンスの RAM の半分を Java ヒープ (32 GiB のヒープサイズまで) に使用します。インスタンスは最大 64 GiB の RAM まで垂直スケーリングでき、それ以上はインスタンスを追加することで水平方向にスケーリングできます。「Amazon OpenSearch Service の推奨 CloudWatch アラーム」を参照してください。
SysMemoryUtilization インスタンスが使用中のメモリの割合。このメトリクスの高い値は正常であり、通常はクラスターに問題はありません。潜在的なパフォーマンスおよび安定性の問題の指標については、「JVMMemoryPressure メトリクス」を参照してください。
IndexingLatency

ノード内のすべてのインデックス作成オペレーションにかかった合計時間 (ミリ秒) の、N 分と (N-1) 分の差。

IndexingRate 1 分あたりのインデックス作成オペレーションの数。
SearchLatency

ノード内のすべての検索にかかった合計時間 (ミリ秒) の、N 分と (N-1) 分の差。

SearchRate データノードのすべてのシャードに対する 1 分あたりの検索リクエストの総数。
ThreadpoolSearchQueue 検索スレッドプールでキューに入っているタスクの数。キューのサイズが一貫して大きい場合は、クラスターのスケーリングを検討してください。検索キューの最大サイズは 1,000 です。
ThreadpoolWriteQueue 書き込みスレッドプールでキューに入っているタスクの数。
ThreadpoolSearchRejected

検索スレッドプールで拒否されたタスクの数。この数が増え続ける場合は、クラスターのスケーリングを検討してください。

ThreadpoolWriteRejected 書き込みスレッドプールで拒否されたタスクの数。

アクティブなアベイラビリティーゾーンにおけるクラスターのクラスターレベルメトリクス

メトリクス 説明
DataNodes アクティブシャードとスタンバイシャードの合計数。
DataNodesShards.active アクティブなプライマリとレプリカの両方のシャードの合計数。
DataNodesShards.unassigned

クラスターのノードに割り当てられていないシャードの数。

DataNodesShards.initializing 初期化中のシャードの数。
DataNodesShards.relocating 再配置中のシャードの数。

アベイラビリティーゾーンのローテーションメトリクス

ActiveReads.Availability-Zone = 1 の場合、ゾーンはアクティブです。ActiveReads.Availability-Zone = 0 の場合、ゾーンはスタンバイ状態です。

ポイントインタイムメトリクス

Amazon OpenSearch Service は、ポイントインタイム (PIT) 検索で次のメトリクスを提供します。

PIT コーディネーターノードの統計 (コーディネーターノードあたり)

メトリクス 説明
CurrentPointInTime ノード内のアクティブな PIT 検索コンテキストの数。
TotalPointInTime ノードのアップタイム以降の、期限切れの PIT 検索コンテキストの数。
AvgPointInTimeAliveTime ノードのアップタイム以降の、PIT 検索コンテキストの平均キープアライブ数。
HasActivePointInTime 値が 1 の場合、アクティブな PIT コンテキストがノードのアップタイム以降に存在していることを示します。値が 0 の場合は存在していません。
HasUsedPointInTime 値が 1 の場合、期限切れの PIT コンテキストがノードのアップタイム以降に存在していることを示します。値が 0 の場合は存在していません。

SQL メトリクス

Amazon OpenSearch Service は、以下の SQL サポートのメトリクスを提供します。

メトリクス 説明
SQLFailedRequestCountByCusErr

クライアントの問題により失敗した _sql API へのリクエストの数。例えば、IndexNotFoundException により、リクエストが HTTP ステータスコード 400 を返す場合があります。

関連する統計情報: Sum

SQLFailedRequestCountBySysErr

サーバーの問題または機能の制限により失敗した _sql API へのリクエストの数。例えば、VerificationException により、リクエストが HTTP ステータスコード 503 を返す場合があります。

関連する統計情報: Sum

SQLRequestCount

_sql API へのリクエストの数。

関連する統計情報: Sum

SQLDefaultCursorRequestCount

SQLRequestCount に似ていますが、測定対象はページネーションのリクエストのみです。

関連する統計情報: Sum

SQLUnhealthy

値 1 は、特定のリクエストへのレスポンスで、SQL プラグインが 5xx レスポンスコードを返すか、無効なクエリ DSL を OpenSearch に渡すことを示します。他のリクエストは引き続き成功します。値 0 は、最近の障害がないことを示します。値 1 が持続して表示される場合、クライアントがプラグインに対して行っているリクエストのトラブルシューティングを行います。

関連する統計: Maximum

k-NN メトリクス

Amazon OpenSearch Service は、以下の k 最近傍 (k-NN) プラグインのメトリクスを提供します。

メトリクス 説明
KNNCacheCapacityReached

キャッシュ容量に達したかどうかのノード単位のメトリクス。このメトリクスは、おおよその k-NN 検索にのみ関係します。

関連する統計: Maximum

KNNCircuitBreakerTriggered

サーキットブレーカーがトリガーされるかどうかのクラスタ単位のメトリクス。KNNCacheCapacityReached についていずれかのノードが 1 の値を返す場合、この値も 1 を返します。このメトリクスは、おおよその k-NN 検索にのみ関係します。

関連する統計: Maximum

KNNEvictionCount

メモリ制約またはアイドル時間のためにキャッシュから削除されたグラフ数のノード単位のメトリクス。インデックスの削除のために発生した明示的な削除はカウントされません。このメトリクスは、おおよその k-NN 検索にのみ関係します。

関連する統計情報: Sum

KNNGraphIndexErrors

ドキュメントの knn_vector フィールドを、エラーを生成したグラフに追加するリクエストの数のノードごとのメトリクス。

関連する統計情報: Sum

KNNGraphIndexRequests

ドキュメントの knn_vector フィールドを、グラフに追加するリクエストの数のノードごとのメトリクス。

関連する統計情報: Sum

KNNGraphMemoryUsage

現在のキャッシュサイズ (メモリー内のすべてのグラフの合計サイズ) のノードごとのメトリクス (KB)。このメトリクスは、おおよその k-NN 検索にのみ関係します。

関連する統計: Average

KNNGraphQueryErrors

エラーを生成したグラフクエリの数のノード単位のメトリクス。

関連する統計情報: Sum

KNNGraphQueryRequests

グラフクエリの数のノード単位のメトリクス。

関連する統計情報: Sum

KNNHitCount

キャッシュヒットの数のノード単位のメトリクス。ユーザーがすでにメモリにロードされているグラフのクエリを行ったときに、キャッシュヒットが発生します。このメトリクスは、おおよその k-NN 検索にのみ関係します。

関連する統計情報: Sum

KNNLoadExceptionCount

グラフをキャッシュにロードしようとしたときに例外が発生した回数のノード単位のメトリクス。このメトリクスは、おおよその k-NN 検索にのみ関係します。

関連する統計情報: Sum

KNNLoadSuccessCount

プラグインがグラフをキャッシュに正常にロードした回数のノード単位のメトリクス。このメトリクスは、おおよその k-NN 検索にのみ関係します。

関連する統計情報: Sum

KNNMissCount

キャッシュミスの数のノード単位のメトリクス。ユーザーがまだメモリにロードされていないグラフのクエリを行ったときに、キャッシュミスが発生します。このメトリクスは、おおよその k-NN 検索にのみ関係します。

関連する統計情報: Sum

KNNQueryRequests

k-NN プラグインが受信したクエリリクエストの数のノード単位のメトリクス。

関連する統計情報: Sum

KNNScriptCompilationErrors

スクリプトのコンパイル中のエラーの数のノード単位のメトリクス。この統計は、k-NN スコアスクリプト検索にのみ関係します。

関連する統計情報: Sum

KNNScriptCompilations

k-NN スクリプトがコンパイルされた回数のノードごとのメトリクス。通常、この値は 1 または 0 であるはずですが、コンパイルされたスクリプトを含むキャッシュがいっぱいになると、k-NN スクリプトが再コンパイルされる可能性があります。この統計は、k-NN スコアスクリプト検索にのみ関係します。

関連する統計情報: Sum

KNNScriptQueryErrors

スクリプトクエリ中のエラーの数のノード単位のメトリクス。この統計は、k-NN スコアスクリプト検索にのみ関係します。

関連する統計情報: Sum

KNNScriptQueryRequests

スクリプトクエリの合計数のノード単位のメトリクス。この統計は、k-NN スコアスクリプト検索にのみ関係します。

関連する統計情報: Sum

KNNTotalLoadTime

k-NN がグラフをキャッシュにロードするのにかかった時間 (ナノ秒)。このメトリクスは、おおよその k-NN 検索にのみ関係します。

関連する統計情報: Sum

Amazon OpenSearch Service は、以下のクラスター間検索のメトリクスを提供します。

ソースドメインのメトリクス

メトリクス ディメンション 説明
CrossClusterOutboundConnections

ConnectionId

接続されたノードの数。スキップされたドメインが 1 つ以上レスポンスに含まれている場合は、このメトリクスを使用して異常な接続を追跡します。この数が 0 になった場合、その接続は正常ではありません。

CrossClusterOutboundRequests

ConnectionId

ターゲットドメインに送信された検索リクエストの数。ドメインでクラスター間検索リクエストが過負荷になっているかどうかを確認し、このメトリクスのスパイクと JVM/CPU スパイクの関連性を探るために使用します。

ターゲットドメインのメトリクス

メトリクス ディメンション 説明
CrossClusterInboundRequests

ConnectionId

ソースドメインから受信した着信接続リクエストの数。

予期せず接続が切断された場合に CloudWatch アラームを追加します。アラームを作成する手順については、「静的しきい値に基づいて CloudWatch アラームを作成する」を参照してください。

クラスター間レプリケーションメトリクス

Amazon OpenSearch Service は、以下のクラスター間レプリケーションのメトリクスを提供します。

メトリクス 説明
ReplicationRate

1 秒あたりのレプリケーションオペレーションの平均率。このメトリクスは IndexingRate メトリクスに似ています。

LeaderCheckPoint

特定の接続については、すべてのレプリケートインデックスにおけるリーダーチェックポイントの合計値。このメトリクスを使用して、レプリケーションのレイテンシーを測定できます。

FollowerCheckPoint

特定の接続については、すべてのレプリケートインデックスにおけるフォロワーチェックポイントの合計値。このメトリクスを使用して、レプリケーションのレイテンシーを測定できます。

ReplicationNumSyncingIndices

SYNCING のレプリケーションステータスを持つインデックスの数。

ReplicationNumBootstrappingIndices

BOOTSTRAPPING のレプリケーションステータスを持つインデックスの数。

ReplicationNumPausedIndices

PAUSED のレプリケーションステータスを持つインデックスの数。

ReplicationNumFailedIndices

FAILED のレプリケーションステータスを持つインデックスの数。

CrossClusterOutboundReplicationRequests

フォロワードメイン上のレプリケーショントランスポートリクエストの数。トランスポートリクエストは内部的なものであり、レプリケーション API オペレーションが呼び出されるたびに発生します。これらは、フォロワードメインがリーダードメインからの変更をポーリングする際にも発生します。

CrossClusterInboundReplicationRequests

リーダードメイン上のレプリケーショントランスポートリクエストの数。トランスポートリクエストは内部的なものであり、レプリケーション API オペレーションが呼び出されるたびに発生します。

AutoFollowNumSuccessStartReplication

特定の接続のレプリケーションルールによって正常に作成されたフォロワーインデックスの数。

AutoFollowNumFailedStartReplication

一致するパターンがあったときにレプリケーションルールによって作成されなかったフォロワーインデックスの数。この問題は、リモートクラスターのネットワーク上の問題、またはセキュリティ上の問題 (すなわち、関連付けられているロールにレプリケーションを開始する許可がない) が原因となって発生する可能性があります。

AutoFollowLeaderCallFailure

新しいデータをプルするための、フォロワーインデックスからリーダーインデックスへのクエリが失敗したかどうか。1 の値は、直前の 1 分間に 1 つ以上の失敗した呼び出しがあったことを意味します。

Learning to Rank のメトリクス

Amazon OpenSearch Service は、以下の Learning to Rank のメトリクスを提供します。

メトリクス 説明
LTRRequestTotalCount

ランク付けリクエストの合計数。

LTRRequestErrorCount

失敗したリクエストの合計数。

LTRStatus.red

プラグインの実行に必要なインデックスの 1 つが赤であるかどうかを追跡します。

LTRMemoryUsage

プラグインで使用されるメモリの合計。

LTRFeatureMemoryUsageInBytes

Learning to Rank 機能フィールドで使用されるメモリの量 (バイト単位)。

LTRFeaturesetMemoryUsageInBytes

すべての Learning to Rank 機能セットで使用されるメモリの量 (バイト単位)。

LTRModelMemoryUsageInBytes

すべての Learning to Rank モデルで使用されるメモリの量 (バイト単位)。

Piped Processing Language のメトリクス

Amazon OpenSearch Service は、以下の Piped Processing Language のメトリクスを提供します。

メトリクス 説明
PPLFailedRequestCountByCusErr

クライアントの問題により失敗した _ppl API へのリクエストの数。例えば、IndexNotFoundException により、リクエストが HTTP ステータスコード 400 を返す場合があります。

PPLFailedRequestCountBySysErr

サーバーの問題または機能の制限により失敗した _ppl API へのリクエストの数。例えば、VerificationException により、リクエストが HTTP ステータスコード 503 を返す場合があります。

PPLRequestCount

_ppl API へのリクエストの数。