开启 SAS 的注意事项 AWS - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

开启 SAS 的注意事项 AWS

SAS 背景

  • SAS 永久数据文件空间 (SASDATA)

    • 存储永久数据以进行 SAS 开发和生成的 SAS 输出文件

    • 大量读取,但写回去的内容不那么广泛

  • SAS 工作数据文件空间 (SASWORK)

    • 为 SAS 工作提供临时工作空间

    • 用于执行单线程 SAS 过程的工作存储活动

  • SAS 实用程序数据文件空间 (UTILLOC)

    • 与用于多线程 SAS 程序的 SASWORK 空间类型相同

    • 默认情况下,作为子目录放置在 SASWORK 下

  • 在 RAID 0 配置中条带化在一起的内部固态 (SSD) 设备重启或重新启动后,存储空间不会持续存在。我们建议您使用具有高带宽、低延迟和顺序 I/O 的非易失性存储器 express (NVMe) 临时设备的实例。这些实例非常适合存储临时 SAS 数据(SASWORK 和 UTILLOC)。

SAS 共享文件系统(SAS 网格需要)

  • AWS 使用rwseclabel和装lazystatfs载选项设置 Lustre 文件系统。这些不是 SAS Grid 的推荐装载选项,因此您必须 FSx 为 Lustre 文件系统卸载这些选项,然后使用参数重新装载它们。flock

  • 您无法扩展 Lustre 文件系统的大小。要调整大小,请创建一个更大的 Lustre 文件系统,并将数据从旧系统复制到新系统。

  • 对 FSx 于 Lustre 永久性文件系统,在单个可用区内复制数据以提高持久性。它不会跨 AWS 可用区复制。

  • 我们建议您使用 Amazon S3 存储选项与 SAS Grid 和 FSx Lustre 一起使用。有关更多信息,请参阅 AWS 文档中的将数据存储库与 FSx for Lustre 配合使用

  • 有关跨区域和可用AWS 区域的服务可用性,请参阅 AWS 区域表。另请查看 Amazon S3 同区域复制 (SRR) 或跨区域复制 (CRR),了解数据复制需求对高可用性的影响。

SAS 网格服务器层实例类型

SAS Grid 服务器 CPUs 需要快速处理数据。建议:

  • 每个物理内核至少有 8 GB 的物理 RAM,并具有强大的 I/O 吞吐量(特别是对于 SASWORK 和 SAS UTILLOC)。

  • I3 实例 — Amazon EC2 I3 实例针对高交易、低延迟工作负载进行了存储优化。这些实例包括 NVMe 基于 SSD 的实例,这些实例针对高随机 I/O 性能、高顺序读取吞吐量和高 IOPS 进行了存储优化。由于 SASWORK 和 SAS UTILLOC 的条带 NVMe 固态硬盘具有很高的内部 I/O 带宽,因此您应将环境配置为明确使用 NVMe基于固态硬盘的本地驱动器而不是 Amazon EBS 卷。

  • i3en 实例 — 该系列提供在 A EC2 mazon 上经过存储优化的 NVMe 固态硬盘实例,并通过 ENA 增强联网,可实现高达 100 Gbps 的网络带宽。

  • M5n 实例:M5 系列提供了计算、内存和网络的平衡。M5n 实例非常适合需要提高网络吞吐量和数据包速率性能的应用程序。

  • SAS 工作负载的特征是以大型、顺序 I/O 请求为主,数据量很大。建议您预先确定您的 SAS 使用模式。这将指导各个底层文件系统的最佳架构和设置及其各自的物理 I/O 配置。

    • 查询、报告和轻量统计作业通常表现良好,每个物理 CPU 内核的 I/O 速率为每秒 100 MiB。

    • 高级分析和繁重的统计任务可能需要每个物理 CPU 内核每秒 150 MiB 的容量。

    • 总体而言,建议每个物理 CPU 内核的最低 I/O 吞吐率为每秒 100-125 MiB。

SAS 网格中间层和元数据服务器层实例类型

这些服务器不需要计算密集型资源或强大的 I/O 吞吐量。与 SAS 计算层相比,它们需要访问更多的内存。建议:

  • 每个物理内核至少有 24 GB 的物理 RAM 或 8 GB 的物理 RAM,以较大者为准。

  • R5 或 R5d 实例:这些实例适用于内存密集型应用程序,例如内存缓存、中型内存数据库和实时大数据分析。

SAS 网格的高可用性和灾难恢复

灾难恢复计划对于任何关键业务系统都很重要,包括运行 SAS 情报平台和 SAS 解决方案的生产系统。

灾难恢复与高可用性不同。尽管这两个概念都与业务连续性有关,但高可用性是指提供不间断的运营连续性。相比之下,灾难恢复涉及一定程度的停机时间,通常以小时或天为单位。