监控 CDN 和 MediaTailor集成的性能 MediaPackage - AWS Elemental MediaTailor

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控 CDN 和 MediaTailor集成的性能 MediaPackage

AWS Elemental MediaTailor 需要进行有效的监控,以保持您的 AWS Elemental MediaPackage 和内容分发网络 (CDN) 集成的最佳性能。本主题提供有关要跟踪的关键指标、要使用的监控工具以及如何设置警报以进行主动问题检测的指导。

在设置监控之前,请确保您的基本集成正常运行。如果您尚未完成基本的内容分发网络集成设置,请从开始 MediaTailor 与 CDN MediaPackage 集成 。如果您需要对通过监控发现的问题进行故障排除,请参阅CDN 集成疑难解答...

关键绩效指标

监控以下基本指标,确保您 MediaPackage 和 CDN 集成的最佳性能:

CDN 性能指标

如需全面的 CDN 性能指标,包括缓存命中率目标、源站请求量监控和响应时间基准,请参阅 CDN 优化指南CDN 和 MediaTailor集成的性能基准中的。

CDN 指标与 EMP 相关的关键注意事项:

EMP 缓存控制标头

验证内容:确保您的 CDN 支持 EMP 的缓存控制标头以实现最佳 TTL 行为

预期行为:根据 EMP 的标头,不同的内容类型应具有不同的缓存持续时间

有关 EMP 缓存优化的详细指南,请参阅优化 CDN 缓存 MediaTailor 和 MediaPackage 内容交付

查询参数的影响

监控内容:跟踪特定于 EMP 的查询参数如何影响缓存效率

优化目标:确保缓存密钥中仅包含必要的 EMP 查询参数

CDN 响应时间

监控内容:跟踪不同内容类型(清单与区段)的响应时间。

目标值

  • 缓存内容:小于 100 毫秒

  • 源站请求:小于 500 毫秒

MediaPackage 性能指标

错误率

监控内容:监控 CDN 和 MediaPackage 端点的 HTTP 错误率。请特别注意 4xx 错误,这可能表明存在配置问题。

关键错误代码

  • 400 错误:通常与清单筛选问题有关

  • 404 错误:可能表示存在路由或配置问题

  • 504 错误:超时问题,尤其是 LL-HLS

请求音量和图案

监控内容:跟踪 MediaPackage 端点的请求模式,以确定使用趋势和容量需求。

值得关注的模式

  • 高峰使用时间

  • 请求的地理分布

  • 内容类型分发(直播与点播)

延迟指标

End-to-end 延迟

监控内容:对于 LL-HLS 实现,监控从内容摄取到观看者播放的 end-to-end延迟。高延迟可能表明 CDN 配置存在问题。

目标值

  • LL-HLS:延迟小于 3 秒 glass-to-glass

  • 常规 HLS:小于 30 秒

清单生成时间

要监控的内容:生成清单所 MediaPackage花费的时间,尤其是在应用筛选的情况下。

目标值:清单生成小于 200 毫秒

监控工具和设置

设置全面的监控工具对于保持最佳性能和在问题影响观看者之前快速识别问题至关重要。如果没有适当的监控,性能下降、缓存效率低下或集成问题可能会被忽视,直到观众体验到较差的播放质量。正确的监控设置可让您全面了解您 MediaPackage 和 CDN 集成的各个方面。

使用以下 AWS 服务和工具来监控您 MediaPackage 和 CDN 的集成:

亚马逊 CloudWatch

Amaz CloudWatch on 通过收集 MediaPackage 和存储来自这两项服务的指标,为监控您和 CDN 的集成奠定了基础。正确的 CloudWatch 配置可确保您拥有识别性能趋势、解决问题和优化集成所需的数据。如果没有 CloudWatch 指标,您将无法了解系统性能,并且可能要等到问题变得严重后才能发现问题。

设置 CloudWatch 监控以收集全面的指标:

  1. MediaPackage 指标:为 MediaPackage 终端节点启用 CloudWatch 指标,以跟踪请求量、错误率和响应时间。

  2. CDN 指标:配置 CloudWatch 为收集 CloudFront 指标,包括缓存命中率、源请求计数和错误率。

  3. 自定义指标:为特定业务创建自定义指标, KPIs 例如观众参与度或内容受欢迎程度。

CloudWatch 仪表板

创建全面的仪表板以可视化您的指标:

  1. 概述控制面板:显示整体系统运行状况的高级指标

  2. CDN 性能控制面板:详细的 CDN 指标,包括缓存性能和地理分布

  3. MediaPackage 性能控制面板: MediaPackage特定指标,包括请求模式和错误率

  4. 延迟控制面板:不同内容类型和地区的 End-to-end延迟指标

日志分析

设置日志分析以进行详细的故障排除:

  1. CDN 访问日志:启用和分析 CDN 访问日志,以了解请求模式并识别问题

  2. MediaPackage CloudWatch 日志:监控 MediaPackage 日志中是否存在错误和性能问题

  3. 日志聚合:使用 Amazon L CloudWatch ogs Insights 或第三方工具分析日志模式

设置警报和通知

警报配置对于主动检测和解决问题至关重要。如果没有适当的警报,问题可能会被忽视,直到它们严重影响观看者体验或导致服务中断。配置良好的警报可帮助您在问题影响观众之前识别和解决问题,并确保您的团队收到需要立即关注的关键问题的通知。

配置主动警报,以便在问题影响查看者之前将其识别出来:

严重警报

为关键问题设置即时警报:

  • 错误率高:当 4xx 或 5xx 错误率在 5 分钟内超过 5% 时发出警报

  • 缓存命中率下降:当清单的缓存命中率低于 70% 或区段的缓存命中率低于 85% 时发出警报

  • 高延迟:延迟超过目标阈值时 end-to-end发出警报

  • 源站请求峰值:当源请求比基准增加超过 50% 时发出警报

警告警报

为可能表明正在出现问题的趋势设置警告提醒:

  • 性能逐渐下降:在 30 分钟内响应时间增加 20% 时发出警报

  • 缓存效率趋势:当缓存命中率显示随时间推移而下降的趋势时发出警报

  • 异常流量模式:提醒请求量或地理分布出现意外变化

使用监控数据进行优化

利用监控数据持续提高性能:

定期绩效评估

  1. 每周回顾:分析每周绩效趋势并确定优化机会

  2. 每月容量规划:使用流量模式规划容量需求和 CDN 优化

  3. 季度架构审查:评估整体架构效率并确定需要改进的领域

常见的优化操作

根据监控数据,考虑以下优化操作:

  • 缓存策略调整:根据实际内容更新模式修改 TTL 值。有关详细的 TTL 优化指南,请参阅针对 CDN 和 MediaTailor集成的缓存优化

  • 地理优化:在流量大的地区添加 CDN 边缘站点

  • 查询参数优化:移除片段缓存中不必要的查询参数

  • Origin shield 配置:在起源请求量高的区域实施原点盾牌

有关特定于的详细监控指南 MediaPackage,请参阅 MediaPackage 用户指南 MediaPackage中的监控