サンプルポイントを追跡するために、別のラベルに値 __replica__ を含める必要がありますか?Kubernetes には独自の cluster ラベルがあり、メトリクスを重複排除していないようです。どうすればこの問題を解決できますか。

Amazon Managed Service for Prometheus の高可用性設定に関する一般的な質問への回答

サンプルポイントを追跡するために、別のラベルに値 replica を含める必要がありますか?

高可用性設定では、Amazon Managed Service for Prometheus は Prometheus インスタンスのクラスターからリーダーを選出することで、データサンプルが重複しないようにします。リーダーレプリカからのデータサンプルの送信が 30 秒間停止した場合、Amazon Managed Service for Prometheus は自動的に別の Prometheus インスタンスをリーダーレプリカに設定し、欠落したデータを含めてデータを新しいリーダーから取り込みます。したがって、答えは「いいえ」であり、推奨もされません。これを行った場合、次のような問題が発生する可能性があります。

PromQL で count のクエリを実行すると、新しいリーダーの選出期間中に、想定よりも高い値が返されることがあります。
新しいリーダーの選出期間中にそのリーダーが active series limits になると、active series の数が増加します。詳細については、「AMP のクォータ」を参照してください。

Kubernetes には独自の cluster ラベルがあり、メトリクスを重複排除していないようです。どうすればこの問題を解決できますか。

新しいメトリクス apiserver_storage_size_bytes が Kubernetes 1.28 で導入され、cluster ラベルが追加されました。この cluster ラベルにより、Amazon Managed Service for Prometheus の重複排除の問題が発生する可能性があります。Kubernetes 1.3 では、ラベル名が storage-cluster_id に変更されています (1.28 と 1.29 の後のパッチでも名前が変更されています)。クラスターが、このメトリクスを cluster ラベル付きで出力している場合、Amazon Managed Service for Prometheus は関連付する時系列を重複排除できません。この問題を回避するには、Kubernetes クラスターを最新のパッチ適用バージョンにアップグレードすることをお勧めします。または、Amazon Managed Service for Prometheus に取り込む前に、apiserver_storage_size_bytes メトリクスの cluster ラベルを再ラベル付けすることもできます。

注記

Kubernetes の変更の詳細については、Kubernetes GitHub プロジェクトの「Rename Label cluster to storage_cluster_id for apiserver_storage_size_bytes metric」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Prometheus コミュニティ Helm チャートによる高可用性データの送信

クロスリージョンでの可用性