Windows 加速计算实例 - Amazon Elastic Compute Cloud

Windows 加速计算实例

加速计算实例使用硬件加速器或协处理器来执行一些功能,如浮点数计算、图形处理或数据模式匹配,比在 CPU 上运行的软件更有效。这些实例能在计算密集型工作负载上提供更高的并行度,以实现更高的吞吐量。

如果您需要高处理能力,您可以从使用加速计算实例中获益,这些实例可让您访问基于硬件的计算加速器,如图形处理单元 (GPU)、。

GPU 实例

基于 GPU 的实例能让您访问具有数千个计算内核的 NVIDIA GPU。您可以通过这些实例利用 CUDA 或开放计算语言 (OpenCL) 并行计算框架,为科学、工程和渲染应用程序加速。还可以将这些实例用于图形应用程序,包括游戏流式处理、3-D 应用流式处理和其他图形工作负载。

如果您的应用程序需要少量额外的图形加速,但更适合具有不同计算、内存或存储规格的实例类型,请改为使用 Elastic Graphics 加速器。有关更多信息,请参阅Amazon Elastic Graphics

G5 实例

G5 实例使用 NVIDIA A10G GPU,为图形密集型应用程序(例如远程工作站、视频渲染和云游戏)和应用程序的深度学习模型(例如自然语言处理、计算机视觉和推荐引擎)提供高性能。这些实例配备多达 8 个 NVIDIA A10G GPU、第二代 AMD EPY 处理器,和高达 100Gbps 的网络带宽,以及高达 7.6TB 的本地 NVMe SSD 存储。

有关更多信息,请参阅 Amazon EC2 G5 实例

G4ad 和 G4dn 实例

G4ad 实例使用 AMD Radeon Pro V520 GPU 和第 2 代 AMD EPYC 处理器,非常适合使用 OpenGL、DirectX 和 Vulkan 等行业标准 API 的图形应用程序,例如远程图形工作站、游戏流和渲染。它们提供多达 4 个 AMD Radeon Pro V520 GPU、64 个 vCPU、25 Gbps 网络和 2.4 TB 本地基于 NVME 的 SSD 存储。

G4dn 实例使用 NVIDIA Tesla GPU,并为使用 CUDA 或机器学习框架的通用 GPU 计算以及使用 DirectX 或 OpenGL 的图形应用程序提供经济高效的高性能平台。这些实例提供高带宽网络、强大的半精度和单精度浮点功能以及 INT8 和 INT4 精度。每个 GPU 具有 16 GiB GDDR6 内存,从而使 G4dn 实例非常适合机器学习推理、视频转码以及图形应用程序,例如,远程图形工作站和云中的游戏流。

有关更多信息,请参阅 Amazon EC2 G4 实例

G4dn 实例支持 NVIDIA GRID 虚拟工作站。有关更多信息,请参阅 NVIDIA Marketplace 产品

G3 实例

这些实例使用 NVIDIA Tesla M60 GPU,为使用 DirectX 或 OpenGL 的图形应用程序提供经济高效的高性能平台。G3 实例还提供 NVIDIA GRID 虚拟工作站功能 (如 4 个分辨率高达 4096x2160 的监视器) 以及 NVIDIA GRID 虚拟应用程序。G3 实例非常适合一些应用程序,例如,3D 可视化、图形密集型远程工作站、3D 渲染、视频编码、虚拟现实以及其他需要大量并行处理能力的服务器端图形工作负载。

有关更多信息,请参阅 Amazon EC2 G3 实例

G3 实例支持 NVIDIA GRID 虚拟工作站和 NVIDIA GRID 虚拟应用程序。要激活任一功能,请参阅激活 NVIDIA GRID 虚拟应用程序

G2 实例

这些实例使用 NVIDIA GRID K520 GPU,并为使用 DirectX 或 OpenGL 的图形应用程序提供经济高效的高性能平台。NVIDIA GRID GPU 还支持 NVIDIA 的快速捕获和编码 API 操作。示例应用程序包括视频创建服务、3D 可视化、流图形密集型应用程序,以及其他服务器端图形工作负载。

P4de 实例提供 NVIDIA 80GB-A100s GPU

P3 实例

这些实例使用 NVIDIA Tesla V100 GPU,可用于使用 CUDA 或 OpenCL 编程模型或通过机器学习框架进行的通用 GPU 计算。P3 实例提供了高带宽网络、强大的半精度\单精度\双精度浮点功能以及每 GPU 最高 32 GiB 内存,非常适合用于深度学习、计算流体动力学、计算金融、地震分析、分子建模、基因组学、渲染和其他服务器端 GPU 计算工作负载。Tesla V100 GPU 不支持图形模式。

有关更多信息,请参阅 Amazon EC2 P3 实例

P3 实例支持 NVIDIA NVLink 对等传输。有关更多信息,请参阅 NVIDIA NVLink

P2 实例

P2 实例使用 NVIDIA Tesla GPU K80 和适用于使用 CUDA 和 OpenCL 编程模型的通用 GPU 计算设计。P2 实例提供了高带宽网络、强大的单双精度浮点功能以及每个 GPU 12 GiB 的内存,非常适合深度学习、图形数据库、高性能数据库、计算流体动力学、计算金融、地震分析、分子建模、基因组学、渲染和其他服务器端 GPU 计算工作负载。

P2 实例支持 NVIDIA GPUDirect 对等传输。有关更多信息,请参阅 NVIDIA GPUDirect

硬件规格

以下是加速计算实例的硬件规格摘要。虚拟中央处理单元(vCPU)表示分配给虚拟机(VM)的物理 CPU 的一部分。对于 x86 实例,每个内核有两个 vCPU。对于 Graviton 实例,每个内核有一个 vCPU。

实例类型 默认 vCPU 内存 (GiB) 加速器
g2.2xlarge 8 15 1
g2.8xlarge 32 60 4
g3s.xlarge 4 30.5 1
g3.4xlarge 16 122 1
g3.8xlarge 32 244 2
g3.16xlarge 64 488 4
g4ad.xlarge 4 16 1
g4ad.2xlarge 8 32 1
g4ad.4xlarge 16 64 1
g4ad.8xlarge 32 128 2
g4ad.16xlarge 64 256 4
g4dn.xlarge 4 16 1
g4dn.2xlarge 8 32 1
g4dn.4xlarge 16 64 1
g4dn.8xlarge 32 128 1
g4dn.12xlarge 48 192 4
g4dn.16xlarge 64 256 1
g4dn.metal 96 384 8
g5.xlarge 4 16 1
g5.2xlarge 8 32 1
g5.4xlarge 16 64 1
g5.8xlarge 32 128 1
g5.12xlarge 48 192 4
g5.16xlarge 64 256 1
g5.24xlarge 96 384 4
g5.48xlarge 192 768 8
p2.xlarge 4 61 1
p2.8xlarge 32 488 8
p2.16xlarge 64 732 16
p3.2xlarge 8 61 1
p3.8xlarge 32 244 4
p3.16xlarge 64 488 8
p3dn.24xlarge 96 768 8

加速计算实例使用以下处理器。

AMD 处理器

  • 第二代 AMD EPYC 处理器(AMD EPYC 7R32):G4ad、G5

英特尔处理器

  • 英特尔至强可扩展处理器 (Broadwell E5-2686 v4):G3、P2、P3

  • 英特尔至强可扩展处理器(Skylake 8175):P3dn

  • 第二代英特尔至强可扩展处理器(Cascade Lake P-8259CL):VT1

  • 第二代英特尔至强可扩展处理器(Cascade Lake P-8259L):G4dn

有关更多信息,请参阅 Amazon EC2 实例类型

实例性能

通过 EBS 优化的实例,您可以消除 Amazon EBS I/O 与 实例的其他网络流量之间的争用,从而使 EBS 卷持续获得高性能。有些加速计算实例在默认情况下会进行 EBS 优化,这不会产生额外的费用。有关更多信息,请参阅Amazon EBS 优化的实例

网络性能

您可以为受支持的实例类型启用增强联网,以提供更低的延迟、更低的网络抖动和更高的每秒数据包数 (PPS) 性能。大多数应用程序并非始终需要较高的网络性能,但较高的带宽有助于其发送或接收数据。有关更多信息,请参阅Windows 上的增强联网

以下是支持增强联网的加速计算实例的网络性能摘要。

实例类型 网络性能 增强联网
及更小 | g3.4xlarge | g3s.xlarge | g4ad.4xlarge 及更小 | g5.2xlarge 及更小 | p3.2xlarge 最高 10Gbps † ENA
g3.8xlarge | p2.8xlarge | p3.8xlarge 10Gbps ENA
g4ad.8xlarge 15 Gbps ENA
g4dn.4xlarge 及更小 | g5.4xlarge 最高 25Gbps † ENA
| g3.16xlarge | g4ad.16xlarge | g5.8xlarge | g5.16xlarge | p2.16xlarge | p3.16xlarge 25 Gbps ENA
g5.12xlarge 40Gbps ENA
g4dn.8xlarge | g4dn.12xlarge | g4dn.16xlarge | g5.24xlarge 50 Gbps ENA
g4dn.metal | g5.48xlarge | p3dn.24xlarge 100 Gbps ENA

† 这些实例具备基准带宽,并且可以使用一种网络输入/输出积分机制,尽可能突破其基准带宽。有关更多信息,请参阅实例网络带宽

实例类型 基准带宽 (Gbps) 突增带宽 (Gbps)
g3.4xlarge 5 10
g3s.xlarge 1.25 10
g4ad.xlarge 2 10
g4ad.2xlarge 4.167 10
g4ad.4xlarge 8.333 10
g4dn.xlarge 5 25
g4dn.2xlarge 10 25
g4dn.4xlarge 20 25
g5.xlarge 2.5 10
g5.2xlarge 5 10
g5.4xlarge 10 25
p3.2xlarge 2.5 10

实例存储卷的 I/O 性能

如果您使用可用于您的实例的、基于 SSD 的所有实例存储卷,则您最高可以获得下表所列的 IOPS(4096 字节的数据块大小)性能(在队列深度饱和时)。否则,您将获得较低的 IOPS 性能。

实例大小 100% 随机读取 IOPS 写入 IOPS
g4ad.xlarge 10,417 8,333
g4ad.2xlarge 20,833 16,667
g4ad.4xlarge 41,667 33,333
g4ad.8xlarge 83,333 66,667
g4ad.16xlarge 166,667 133,333
g5.xlarge 40,625 20,313
g5.2xlarge 40,625 20,313
g5.4xlarge 125,000 62,500
g5.8xlarge 250,000 125,000
g5.12xlarge 312,500 156,250
g5.16xlarge 250,000 125,000
g5.24xlarge 312,500 156,250
g5.48xlarge 625,000 312,500

随着您不断在您的实例的基于 SSD 的实例存储卷中填充数据,您可以达到的写入 IOPS 将不断减少。这是因为,SSD 控制器必须执行额外的工作,即查找可用空间、重写现有数据,以及擦除未使用的空间以使之可供重写。这一垃圾回收过程将导致对 SSD 的内部写入放大影响,这以 SSD 写入操作数相对于用户写入操作数的比率形式来表示。如果写入操作数并非 4096 字节的倍数,或不在 4096 字节这一边界上,则性能的降低会更明显。如果您写入的字节数较少或不在边界上,则 SSD 控制器必须读取周围的数据并在新位置存储结果。这种模式会大大增加写入放大的影响,加长延迟,并显著降低 I/O 性能。

SSD 控制器可以使用多种策略来减少写入放大的影响。其中的一个策略是在 SSD 实例存储中预订空间,以便控制器更高效地管理可用于写入操作的空间。这称为超额配置。为 实例提供的基于 SSD 的实例存储卷不会为超额配置预保留空白间。要减少写入放大问题造成的影响,建议您留出 10% 的卷空间不进行分区,以便 SSD 控制器可使用这部分空间来进行超额配置。虽然这会减少您可使用的存储空间,但可提高性能,即使磁盘容量快用完也是如此。

对于支持 TRIM 的实例存储卷,您可在不再需要已写入的数据时使用 TRIM 命令告知 SSD 控制器此情况。这将为控制器提供更多可用空间,从而可以减少写入放大的影响并提高性能。有关更多信息,请参阅实例存储卷 TRIM 支持

实例功能

加速计算实例的特性汇总如下。

仅限于 EBS NVMe EBS 实例存储 置放群组

G2

SSD

G3

G4ad

NVMe *

G4dn

NVMe *

G5 NVMe *

P2

P3

24xlarge:否

所有其他大小:是

24xlarge:是

所有其他大小:否

24xlarge:NVMe *

* 根设备卷必须是 Amazon EBS 卷。

有关更多信息,请参阅下列内容:

发行说明

  • 您必须使用 HVM AMI 启动实例。

  • 基于 Nitro 系统构建的实例具有以下要求:

    当前 AWS Windows AMI 满足这些要求。

  • 除非安装了 NVIDIA 驱动程序,否则基于 GPU 的实例无法访问 GPU。有关更多信息,请参阅在 Windows 实例上安装 NVIDIA 驱动程序

  • 启动裸机实例会启动基础服务器,包含验证所有硬件和固件组件。这意味着从实例进入运行状态直至在网络上可用需要超过 20 分钟的时间。

  • 对裸机实例附加或分离 EBS 卷或辅助网络接口需要 PCIe 本机 hotplug 支持。

  • 裸机实例使用基于 PCI 的串行设备而不是基于 I/O 端口的串行设备。上游 Linux 内核和最新 Amazon Linux AMI 支持此设备。裸机实例还提供一个 ACPI SPCR 表,使系统能够自动使用基于 PCI 的串行设备。最新 Windows AMI 自动使用基于 PCI 的串行设备。

  • 每个区域仅限 100 个 AFI。

  • 在一个区域中可以启动的实例总数存在限制,某些实例类型还存在其他限制。有关更多信息,请参阅 Amazon EC2 常见问题解答中的我可以在 Amazon EC2 中运行多少个实例?

  • 如果您使用在单 GPU 实例上创建的 Windows AMI 启动多 GPU 实例,则 Windows 不会为所有 GPU 自动安装 NVIDIA 驱动程序。您必须授权新 GPU 硬件的驱动程序安装。通过打开其他设备类别(非活动 GPU 不会出现在显示适配器下),您可以在“设备管理器”中手动更正此设置。对于每个非活动 GPU,请打开上下文 (右键单击) 菜单,选择更新驱动程序软件,然后选择默认自动更新选项。

  • 在使用 Microsoft 远程桌面协议 (RDP) 时,使用 WDDM 驱动程序模型的 GPU 会替换为非加速的远程桌面显示驱动程序。我们建议您使用不同的远程访问工具来访问您的 GPU,例如 Teradici Cloud Access SoftwareNICE Desktop Cloud Visualization (DCV) 或 VNC。还可以使用 AWS Marketplace 中的 GPU AMI 之一,因为它们提供支持 3D 加速的远程访问工具。