ワークロードリソースをモニタリングする - 信頼性の柱

ワークロードリソースをモニタリングする

ログとメトリクスは、ワークロードの状態についての洞察を得るための強力なツールです。ワークロードは、しきい値を超えたり重大なイベントが発生したりしたときに、ログとメトリクスがモニタリングされて通知が送信されるように構成できます。モニタリングにより、ワークロードは、低パフォーマンスのしきい値を超えたときや障害が発生したときにそれを認識できるため、それに応じて自動的に復旧できます。

モニタリングは、可用性の要件を満たしていることを確認する上で必要不可欠です。障害を効果的に検出するにはモニタリングが欠かせません。最悪の障害モードは「サイレント」障害です。この場合、機能は正常に機能しなくなっていますが、間接的なものを除き、検出する方法がありません。それにいち早く気付くのは、お客様ではなくてその顧客です。問題発生時にアラートを送信するのが、モニタリングの主な目的です。アラートは可能な限りシステムから分離する必要があります。サービスの中断によりアラートの機能が無効化されると、中断が長期化します。

AWS では、アプリケーションを複数のレベルで測定しています。これにより、各リクエスト、すべての依存関係、プロセス内の主要なオペレーションについて、レイテンシー、エラー率、可用性の記録を行っています。また、成功した操作のメトリクスも記録しています。これにより、切迫した問題が発生する前にそれを発見することができます。考慮するのは、平均レイテンシーだけではありません。99.9 パーセンタイルや 99.99 パーセンタイルなど、レイテンシーの外れ値により焦点を当てています。これは、1,000 または 10,000 のうちのたった 1 つのリクエストが遅かった場合でも、エクスペリエンスの満足度が低下するためです。また、平均値は許容できるかもしれませんが、リクエスト 100 件のうちの 1 件に極端なレイテンシーが発生すれば、トラフィックが増加したときに問題化します。

AWS のモニタリングは、次の 4 つの個別のフェーズで構成されています。

  1. 生成 – ワークロードのすべてのコンポーネントをモニタリングする

  2. 集計 – メトリクスを定義して計算する

  3. リアルタイム処理とアラーム – 通知を送信し、応答を自動化する

  4. ストレージと分析