文件系统性能问题排查 - FSx适用于 Windows 文件服务器的亚马逊

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

文件系统性能问题排查

FSx适用于 Windows File Server 的文件系统的性能取决于多个因素,包括您驱动到文件系统的流量、配置文件系统的方式,以及已启用的功能(例如重复数据删除或影子副本)消耗的资源。有关了解文件系统性能的更多信息,请参阅FSx用于 Windows 文件服务器的性能

如何确定文件系统的吞吐量和IOPS限制?

要查看文件系统的吞吐量和IOPS限制,请参阅基于预配置吞吐量容量的性能级别的表

网络 I/O 和磁盘 I/O 有什么区别? 为什么我的网络 I/O 与磁盘 I/O 不同?

Amazon FSx 文件系统包括一个或多个文件服务器,它们通过网络向访问文件系统的客户端提供数据。这是网络 I/O。文件服务器使用快速内存缓存来增强最常访问数据的性能。文件服务器还会将流量推送到托管文件系统数据的存储卷。这是磁盘 I/O。下图说明了 Amazon FSx 文件系统的网络和磁盘 I/O。

FSx适用于 Windows 文件服务器架构,显示文件服务器和存储卷性能指标的关系及其对文件系统性能的影响。

有关更多信息,请参阅 使用 Amazon 进行监控 CloudWatch

为什么我的CPU或内存使用率很高,即使我的网络 I/O 很低?

文件服务器CPU和内存使用量不仅取决于您驱动的网络流量,还取决于您在文件系统上启用的功能。如何配置和安排这些功能可能会影响CPU内存利用率。

正在进行的重复数据删除作业可能会消耗内存。您可以修改重复数据删除作业的配置,以降低内存需求。例如,您可以将优化限制为针对特定文件类型或文件夹运行,或者设置优化的最小文件大小和期限。我们还建议将重复数据删除作业配置为在文件系统负载最小的空闲期间运行。有关更多信息,请参阅 通过重复数据删除降低存储成本

如果您启用了基于访问权限的枚举,则在最终用户查看或列出文件共享时,或者在存储扩展任务的优化阶段,您可能会看到CPU利用率很高。有关更多信息,请参阅《Microsoft 存储文档》中的对命名空间启用基于访问的枚举

什么是突增? 我的文件系统使用了多少突增? 突增点数用完时会发生什么?

基于文件的工作负载通常处于尖峰状态,其特点是短暂而密集的高 I/O 周期,且两次突增之间有空闲时间。为了支持这些类型的工作负载,除了文件系统可以维持的基准速度外,Amazon 还FSx提供了在一段时间内突增至更高速度的功能,用于网络 I/O 和磁盘 I/O 操作。

Amazon FSx 使用 I/O 积分机制来分配吞吐量,并IOPS根据平均利用率——当文件系统的吞吐量和IOPS使用量低于其基准限制时,文件系统会累积积积分,并且可以在需要时使用这些积分突破基准限制(不超过突发限制)。有关文件系统的突增限制和持续时间的更多信息,请参阅 FSx用于 Windows 文件服务器的性能

我在监控和性能页面上看到一条警告,我需要更改文件系统的配置吗?

监控和性能页面出现警告,指明最近的工作负载需求何时接近或超过资源限制,具体取决于您的文件系统配置方式。这并不一定意味着您需要更改配置,但如果不采取建议的措施,您的文件系统可能无法满足您的工作负载需求。

如果导致警告的工作负载并不典型,并且您预计它不会持续,那么不采取任何措施但同时密切监控未来的利用率可能是安全的。但是,如果导致警告的工作负载是典型的,并且您预计它会持续甚至加剧,我们建议您按照建议的操作来提高文件服务器性能(通过增加吞吐容量)或提高存储卷性能(通过增加存储容量或从存储切换HDD到SSD存储)。

注意

某些文件系统事件可能会消耗磁盘 I/O 性能资源,并可能触发性能警告。例如:

  • 存储容量扩展的优化阶段会增加磁盘吞吐量,如 增加存储容量并提升文件系统性能 中所述

  • 对于多可用区文件系统,吞吐能力扩展、硬件更换或可用区中断等事件会导致自动失效转移和失效自动恢复事件。在此期间发生的任何数据更改都需要在主文件服务器和辅助文件服务器之间进行同步,Windows Server 运行的数据同步作业可能会消耗磁盘 I/O 资源。有关更多信息,请参阅 正在管理 Windows 文件服务器文件系统的吞吐容量 FSx

我的指标暂时丢失,我应该担心吗?

在文件系统维护、基础设施组件更换以及可用区不可用时,单可用区文件系统会出现不可用情况。在这段时间内,指标将不可用。

在多可用区部署中,Amazon FSx 会自动在不同的可用区域预置和维护备用文件服务器。如果发生文件系统维护或计划外服务中断,Amazon FSx 会自动故障转移到辅助文件服务器,这样您无需手动干预即可继续访问数据。在您的文件系统进行失效转移和失效自动恢复的短时间内,指标可能暂时不可用。