よくある質問: 高可用性の構成 - Amazon Managed Service for Prometheus

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

よくある質問: 高可用性の構成

サンプルポイントを追跡するには、値 __replica__ を別のラベルに含める必要がありますか?

高可用性設定では、Amazon Managed Service for Prometheus は Prometheus インスタンスのクラスターからリーダーを選出することで、データサンプルが重複しないようにします。リーダーレプリカからのデータサンプルの送信が 30 秒間停止した場合、Amazon Managed Service for Prometheus は自動的に別の Prometheus インスタンスをリーダーレプリカに設定し、欠落したデータを含めてデータを新しいリーダーから取り込みます。したがって、答えは「いいえ」であり、推奨もされません。 これを行った場合、次のような問題が発生する可能性があります。

  • PromQLcount のクエリを実行すると、新しいリーダーの選出期間中に、想定よりも高い値が返されることがあります。

  • 新しいリーダーの選出期間中にそのリーダーが active series limits になると、active series の数が増加します。詳細については、「AMP のクォータ」を参照してください。

Kubernetes には独自のクラスターラベルがあるように見え、メトリクスを重複排除していません。どうすればこの問題を解決できますか。

Kubernetes 1.28 では、clusterラベル付きの新しいメトリクスが導入されapiserver_storage_size_bytesました。これにより、clusterラベルに依存する Amazon Managed Service for Prometheus の重複排除の問題が発生する可能性があります。Kubernetes 1.3 では、ラベルの名前は に変更されます storage-cluster_id (1.28 および 1.29 の以降のパッチでも名前が変更されます)。クラスターがこのメトリクスを clusterラベルで出力している場合、Amazon Managed Service for Prometheus は関連する時系列を重複排除できません。この問題を回避するために、Kubernetes クラスターをパッチが適用された最新のバージョンにアップグレードすることをお勧めします。または、Amazon Managed Service for Prometheus に取り込む前にapiserver_storage_size_bytes、メトリクスのclusterラベルを再ラベル付けすることもできます。

注記

Kubernetes への変更の詳細については、Kubernetes プロジェクト の「rename Label cluster to storage_cluster_id for apiserver_storage_size_bytes metric」を参照してください。 GitHub