可用性与持久性:单可用区和多可用区文件系统 - FSx适用于 Windows 文件服务器的亚马逊

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

可用性与持久性:单可用区和多可用区文件系统

Amazon FSx for Windows 文件服务器提供两种文件系统部署类型:单可用区和多可用区。以下各节提供的信息可帮助您为工作负载选择正确的部署类型。有关该服务的可用性SLA(服务等级协议)的信息,请参阅 Amazon FSx 服务等级协议

单可用区文件系统由单个 Windows 文件服务器实例和单个可用区(AZ)内的一组存储卷组成。对于单可用区文件系统,在大多数情况下,数据会自动复制,以保护其免受单个组件故障的影响。Amazon 会FSx持续监控硬件故障,并通过更换故障基础设施组件自动从故障事件中恢复。在这些故障恢复事件期间,以及在为文件系统配置的维护时段内进行计划的文件系统维护期间,单可用区文件系统处于离线状态,时间通常不到 20 分钟。对于单可用区文件系统,在极少数情况下,文件系统故障可能无法恢复,例如由于多个组件故障,或者由于单个文件服务器的非正常故障导致文件系统处于不一致状态,在这种情况下,您可以从最新的备份中恢复文件系统。

多可用区文件系统由分布在两个AZs(首选可用区和备用可用区)的 Windows 文件服务器组成的高可用性群集组成,利用了 Windows Server 故障转移群集 (WSFC) 技术,两者各有一组存储卷。AZs数据在每个单独的可用区内以及两个AZs可用区之间同步复制。相对于单可用区部署,多可用区部署通过进一步跨可用区复制数据来提高耐久性AZs,并通过自动故障转移到备用可用区来提高计划内系统维护和计划外服务中断期间的可用性。这样您可以继续访问数据,并有助于保护您的数据免受实例故障和可用区中断的影响。

选择单可用区或多可用区文件系统部署类型

鉴于多可用区文件系统提供的高可用性和持久性模型,我们建议将多可用区文件系统用于大多数生产工作负载。单可用区部署旨在为测试和开发工作负载、某些在应用程序层内置复制功能且不需要额外存储级冗余的生产工作负载,以及具有宽松可用性和恢复点目标 () 需求的生产工作负载,以及具有宽松可用性和恢复点目标 () 需求的生产工作负载而设计。RPO在计划内的文件系统维护或计划外服务中断的情况下,可用性和RPO需求宽松的工作负载可以容忍可用性暂时丧失 20 分钟,在极少数情况下,还会出现自最近一次备份以来的数据更新丢失。

我们还建议您查看文件系统的可用性模型,并确保在文件系统维护、吞吐量容量更改和计划外服务中断等事件期间,您的工作负载能够适应您选择的部署类型的预期恢复行为。

按部署类型划分的功能支持

下表汇总了 Windows 文件服务器文件系统部署类型所支持的功能:FSx

Deployment type(部署类型) SSD存储 HDD存储 DFS命名空间 DFS复制 自定义DNS名称 CA 共享
单可用区 1
单可用区 2 ✓*
多可用区 ✓*
注意

* 虽然您可以在单可用区 2 文件系统上创建持续可用 (CA) 共享,但对于SQL服务器 HA 部署,您应该在多可用区文件系统上使用 CA 共享。

适用于 Windows 文件服务器FSx的故障转移流程

出现以下情况时,多可用区文件系统会自动从首选文件服务器失效转移到备用文件服务器:

  • 可用区发生中断。

  • 首选文件服务器不可用。

  • 首选文件服务器进行计划内维护。

从一台文件服务器失效转移到另一台文件服务器时,新的活动文件服务器会自动开始处理所有文件系统的读取和写入请求。当首选子网中的资源可用时,Amazon FSx 会自动故障恢复到首选子网中的首选文件服务器。从在活动文件服务器上检测到故障到将备用文件服务器提升为活动状态,失效转移通常会在 30 秒内完成。原始多可用区配置的失效自动恢复也会在不到 30 秒的时间内完成,并且只有在首选子网中的文件服务器完全恢复后才会发生。

在您的文件系统进行故障切换和回切的短时间内,I/O 可能会暂停,Amazon CloudWatch 指标可能暂时不可用。

对于多可用区文件系统,如果在失效转移和失效自动恢复期间有持续的流量,则在此期间所做的任何数据更改都需要在文件服务器之间同步。对于写入密集型和密集型工作负载,此过程可能需要长达数小时IOPS的时间。我们建议在文件系统负载较小时测试失效转移对应用程序的影响。

Windows 客户端上的失效转移经验

从一台文件服务器失效转移到另一台文件服务器时,新的活动文件服务器会自动开始处理所有文件系统的读取和写入请求。首选子网中的资源可用后,Amazon FSx 会自动故障恢复到首选子网中的首选文件服务器。由于文件系统的DNS名称保持不变,因此故障转移对于 Windows 应用程序是透明的,这些应用程序无需手动干预即可恢复文件系统的操作。从在活动文件服务器上检测到故障到将备用文件服务器提升为活动状态,失效转移通常会在 30 秒内完成。原始多可用区配置的失效自动恢复也会在不到 30 秒的时间内完成,并且只有在首选子网中的文件服务器完全恢复后才会发生。

Linux 客户端的失效转移经验

Linux 客户机不支持DNS基于自动的故障转移。因此,在失效转移期间,它们不会自动连接到备用文件服务器。在多可用区文件系统失效自动恢复到首选子网中的文件服务器之后,它们将自动恢复文件系统的操作。

在文件系统上测试失效转移

您可以通过修改多可用区文件系统的吞吐能力来测试其失效转移。当您修改文件系统的吞吐容量时,Amazon 会FSx切换文件系统的文件服务器。当 Amazon 首先FSx替换首选服务器文件服务器时,多可用区文件系统会自动故障转移到辅助服务器。然后,文件系统会自动故障恢复到新的主服务器,Amazon 会FSx替换辅助文件服务器。

您可以在 Amazon FSx 控制台、和中监控吞吐量容量更新请求的CLI进度API。成功完成更新后,您的文件系统已失效转移到辅助服务器,并将失效自动恢复到主服务器。有关修改文件系统的吞吐能力和监控请求进度的更多信息,请参阅正在管理 Windows 文件服务器文件系统的吞吐容量 FSx

使用单可用区和多可用区文件系统资源

子网

当您创建时VPC,它会跨越该区域的所有可用区 (AZs)。可用区是被设计为可以隔离其他可用区的故障的不同位置。创建后VPC,您可以在每个可用区中添加一个或多个子网。默认情况下VPC,每个可用区都有一个子网。每个子网都必须完全位于一个可用区之内,不能跨越多个可用区。创建单可用区 Amazon FSx 文件系统时,需要为该文件系统指定单个子网。您选择的子网将定义您创建的文件系统中的可用区。

创建多可用区文件系统时需要指定两个子网,分别用于首选文件服务器和备用文件服务器。您选择的两个子网必须位于同一 AWS 区域内的不同可用区中。

对于AWS 应用程序内,我们建议您在与首选文件服务器相同的可用区中启动客户端,以最大限度地减少延迟。

文件系统弹性网络接口

当您创建亚马逊FSx文件系统时,亚马逊FSx会在您与文件系统关联的亚马逊虚拟私有云 (VPC) 中预配置一个或多个弹性网络接口。网络接口允许您的客户端与FSx适用于 Windows 文件服务器的文件系统进行通信。尽管网络接口属于您的账户FSx,但仍被视为在 Amazon 的服务范围内VPC。多可用区文件系统有两个弹性网络接口,每个文件服务器一个。单可用区文件系统只有一个弹性网络接口。

警告

您不得修改或删除与您的文件系统关联的弹性网络接口。修改或删除网络接口可能会导致您VPC和您的文件系统之间的连接永久中断。

下表汇总了 Windows 文件服务器文件系统部署类型的子网、elastic n FSx etwork interface 和 IP 地址资源:

文件系统部署类型 子网的数量 弹性网络接口的数量 IP 地址数
单可用区 2 1 1 2
单可用区 1 1 1 1
多可用区 2 2 4

创建文件系统后,在删除文件系统之前,其 IP 地址不会更改。

重要

Amazon FSx 不支持从公共互联网访问文件系统,也不支持将文件系统暴露给公共 Internet。如果弹性 IP 地址(可从 Internet 访问的公有 IP 地址)附加到文件系统的弹性网络接口,Amazon FSx 会自动将其分离。