OPS08-BP03 ワークロードメトリクスを収集および分析する - 運用上の優秀性の柱

OPS08-BP03 ワークロードメトリクスを収集および分析する

メトリクスのプロアクティブなレビューを定期的に行うと、傾向を把握し、適切な対応が必要な領域を特定できます。

アプリケーション、ワークロードコンポーネント、サービス、および CloudWatch Logs などのサービスへの API 呼び出しのログデータを集約する必要があります。必要なログコンテンツの観測からメトリクスを生成して、運用アクティビティのパフォーマンスを把握できるようにします。

AWS では、 Amazon DevOps Guru の機械学習機能を使用して、ワークロードのメトリクスを分析し、運用の問題を特定できます。AWS DevOps Guru は、問題を解決しアプリケーションの状態を良好に保つための 対象を定めたプロアクティブな推奨事項を含む 運用の問題に関する通知を提供します。

AWS の責任共有モデルでは、モニタリングの一部が AWS Health Dashboard を通じて提供されます。このダッシュボードは、お客様に影響を与える可能性があるイベントが AWS で発生した場合に、アラートと修正ガイダンスを提供します。ビジネスサポートとエンタープライズサポートのサブスクリプションをご利用のお客様は、 AWS Health API にアクセスすることもでき、イベント管理システムとの統合が可能になります。

AWS では、 ログデータを Amazon S3 に エクスポートしたり、 ログAmazon S3 に直接送信して、 長期保存したりできます。分析のために、 AWS Glueを使用すると、Amazon S3 でログデータを検出して準備し、関連するメタデータを AWSAWS Glue Data Catalog に保存できますAmazon Athena では、AWS Glue とのネイティブな統合により、ログデータを分析し、標準 SQL を使用してクエリを実行できます。Amazon QuickSight などのビジネスインテリジェンスツールを 使用して、 データを可視化、調査、分析することができます。

代替 ソリューション は、 Amazon OpenSearch Service および OpenSearch Dashboards を使用して、複数のアカウントと AWS リージョン にわたる AWS のログを収集、分析、表示することです。

一般的なアンチパターン:

  • あなたは、ネットワーク設計チームから現在のネットワーク帯域幅使用率について尋ねられています。あなたは、現在のメトリクスを提供します。ネットワーク使用率は 35% です。当該チームは、コスト削減手段として回路容量を削減します。あなたのポイントインタイム測定では利用率の傾向が反映されず、接続に関する問題が広がってしまいます。

  • ルーターに障害が発生しました。これまでに、重大ではないメモリエラーがログ記録されていました。その頻度はますます多くなり、ついには完全な障害となりました。あなたは、この傾向に気付かなかったため、ルーターがサービスの中断を引き起こす前に、障害のあるメモリを交換しませんでした。

このベストプラクティスを確立するメリット: ワークロードメトリクスを収集して分析することで、ワークロードの状態を把握し、ワークロードやビジネス成果の達成に影響を与える可能性のある傾向について洞察を得ることができます。

このベストプラクティスが確立されていない場合のリスクレベル:

実装のガイダンス

リソース

関連するドキュメント: