Windows 加速運算執行個體 - Amazon Elastic Compute Cloud

Windows 加速運算執行個體

加速運算執行個體會使用硬體加速器或協同處理器來執行某些功能,例如浮點數計算、圖形處理或資料模式匹配,比起在 CPU 上執行的軟體更有效率。這些執行個體可為佔用大量運算的工作負載所需之較高的輸送量,帶來更優良的平行處理。

如果您需要高效處理的功能,使用加速運算執行個體非常有助益,因為其可提供對圖形處理器 (GPU) 等硬體式運算加速器的存取。

GPU 執行個體

GPU 執行個體可讓您存取含數千個運算核心的 NVIDIA GPU。您可以使用這些執行個體,藉由運用 CUDA 或開放運算語言 (OpenCL) 平行運算架構來加速科學、工程和算圖應用程式。您也可以將它們用於圖形應用程式,包括遊戲串流、3D 應用程式串流和其他圖形工作負載。

如果您的應用程式需要少量的額外圖形加速,但比較適合用於含有不同運算、記憶體或儲存規格的執行個體類型,請改用 Elastic Graphics 加速器。如需詳細資訊,請參閱 Amazon Elastic Graphics

G5 執行個體

G5 執行個體使用 NVIDIA A10G GPU,並為圖形密集型應用程式 (例如遠端工作站、視訊轉譯和雲端遊戲) 提供高效能,以及為自然語言處理、電腦視覺和推薦引擎等應用程式提供深度學習模型。這些執行個體配備多達 8 個 NVIDIA A10G GPU、第二代 AMD EPYC 處理器、高達 100 Gbps 的網路頻寬,以及高達 7.6 TB 的本機 NVMe SSD 儲存體。

如需詳細資訊,請參閱 Amazon EC2 G5 執行個體

G4ad 和 G4dn 執行個體

G4ad 執行個體使用 AMD Radeon Pro V520 GPU 和第 2 代 AMD EPYC 處理器,非常適合繪圖應用程式,例如遠端圖形工作站、遊戲串流,以及利用業界標準 API (例如 OpenGL、DirectX 和 Vulkan) 的繪圖應用程式。它們提供高達 4 個 AMD Radeon Pro V520 GPU、64 個 vCPU、25 Gbps 連網,以及 2.4 TB 的本機 NVME SSD 儲存裝置。

G4dn 執行個體使用 NVIDIA Tesla GPU,並提供具成本效益、高效能平台,用於使用 CUDA 或機器學習架構的一般用途 GPU 運算,以及使用 DirectX 或 OpenGL 的圖形應用程式。這些執行個體可提供高頻寬網路,功能強大的半個和單一精確度浮點功能,以及 INT8 和 INT4 精確度。每個 GPU 有 16 GiB 的 GDDR6 記憶體,使得 G4dn 執行個體很適合機器學習推論、影片轉碼和圖形應用程式,例如遠端圖形工作站和雲端中的遊戲串流。

如需詳細資訊,請參閱 Amazon EC2 G4 執行個體

G4dn 執行個體支援 NVIDIA GRID 虛擬工作站。如需詳細資訊,請參閱 NVIDIA Marketplace 產品

G3 執行個體

這些執行個體使用 NVIDIA Tesla M60 GPU,並為使用 DirectX 或 OpenGL 的圖形應用程式提供符合成本效益、高效能的平台。G3 執行個體也提供 NVIDIA GRID 虛擬工作站功能,例如支援四部解析度最高至 4096x2160 的顯示器,以及 NVIDIA GRID 虛擬應用程式。G3 執行個體也非常適合下列應用程式:3D 視覺化、圖形密集型遠端工作站、3D 算圖、視訊編碼和虛擬實境,以及其他需要大量平行處理效能的伺服器端圖形工作負載。

如需詳細資訊,請參閱 Amazon EC2 G3 執行個體

G3 執行個體支援 NVIDIA GRID 虛擬工作站和 NVIDIA GRID 虛擬應用程式。若要啟用上述任一功能,請參閱啟用 NVIDIA GRID 虛擬應用程式

G2 執行個體

這些執行個體使用 NVIDIA GRID K520 GPU,並為使用 DirectX 或 OpenGL 的圖形應用程式提供符合成本效益、高效能的平台。NVIDIA GRID GPU 也支援 NVIDIA 的快速擷取和編碼 API 操作。範例應用程式包括視訊建立服務、3D 視覺化、串流圖形密集型應用程式和其他伺服器端圖形工作負載。

P4de 執行個體提供 NVIDIA 80GB-A100s GPU

P3 執行個體

這些執行個體會使用 NVIDIA Tesla V100 GPU,且專為一般用途 GPU 運算 (利用 CUDA 或 OpenCL 程式設計模型或透過機器學習架構) 而設計。P3 執行個體可提供高頻寬聯網、強大的半精確度、單精確度和雙精確度浮點數功能,以及每 GPU 最多 32 GiB 的記憶體,適用於深度學習、計算流體動力學、計算金融學、地震分析、分子建模、基因體學、算圖和其他伺服器端 GPU 運算工作負載。Tesla V100 GPU 不支援圖形模式。

如需詳細資訊,請參閱 Amazon EC2 P3 執行個體

P3 執行個體支援 NVIDIA NVLink 點對點傳輸。如需詳細資訊,請參閱 NVIDIA NVLink

P2 執行個體

P2 執行個體會使用 NVIDIA Tesla K80 GPU,且專為一般用途 GPU 運算 (利用 CUDA 或 OpenCL 程式設計模型) 而設計。P2 執行個體可提供高頻寬聯網、強大的單精確度和雙精確度浮點數功能,以及每 GPU 12 GiB 的記憶體,適用於深度學習、圖形資料庫、高效能資料庫、計算流體動力學、計算金融學、地震分析、分子建模、基因體學、算圖和其他伺服器端 GPU 運算工作負載。

P2 執行個體支援 NVIDIA GPUDirect 點對點傳輸。如需詳細資訊,請參閱 NVIDIA GPUDirect

硬體規格

以下為加速運算執行個體的硬體規格摘要。虛擬中央處理單元 (vCPU) 代表一部分分配給虛擬機器 (VM) 的實體 CPU。針對 x86 執行個體,每個核心有兩個 vCPU。針對 Graviton 執行個體,每個核心有一個 vCPU。

執行個體類型 預設 vCPU 記憶體 (GiB) 加速器
g2.2xlarge 8 15 1
g2.8xlarge 32 60 4
g3s.xlarge 4 30.5 1
g3.4xlarge 16 122 1
g3.8xlarge 32 244 2
g3.16xlarge 64 488 4
g4ad.xlarge 4 16 1
g4ad.2xlarge 8 32 1
g4ad.4xlarge 16 64 1
g4ad.8xlarge 32 128 2
g4ad.16xlarge 64 256 4
g4dn.xlarge 4 16 1
g4dn.2xlarge 8 32 1
g4dn.4xlarge 16 64 1
g4dn.8xlarge 32 128 1
g4dn.12xlarge 48 192 4
g4dn.16xlarge 64 256 1
g4dn.metal 96 384 8
g5.xlarge 4 16 1
g5.2xlarge 8 32 1
g5.4xlarge 16 64 1
g5.8xlarge 32 128 1
g5.12xlarge 48 192 4
g5.16xlarge 64 256 1
g5.24xlarge 96 384 4
g5.48xlarge 192 768 8
p2.xlarge 4 61 1
p2.8xlarge 32 488 8
p2.16xlarge 64 732 16
p3.2xlarge 8 61 1
p3.8xlarge 32 244 4
p3.16xlarge 64 488 8
p3dn.24xlarge 96 768 8

加速運算執行個體使用以下處理器。

AMD 處理器

  • 第二代 AMD EPYC 處理器 (AMD EPYC 7R32):G4ad、G5

Intel 處理器

  • Intel Xeon 可擴充處理器 (Broadwell E5-2686 v4):G3、P2、P3

  • Intel Xeon 可擴充處理器 (Skylake 8175):P3dn

  • 第二代 Intel Xeon 可擴充處理器 (Cascade Lake 8259CL):VT1

  • 第二代 Intel Xeon 可擴充處理器 (Cascade Lake 8259CL):G4dn

如需詳細資訊,請參閱 Amazon EC2 執行個體類型

執行個體效能

EBS 最佳化執行個體藉由免除 Amazon EBS I/O 和您執行個體的其他網路流量之間的競爭,確保您的 EBS 磁碟區擁有一致的高效能。有些加速運算執行個體預設為 EBS 最佳化,無須額外成本。如需詳細資訊,請參閱 Amazon EBS – 最佳化執行個體

網路效能

您可以在支援的執行個體類型上啟用增強型聯網,以提供較低的延遲、較低的網路抖動,以及較高的每秒封包 (PPS) 效能。大多數的應用程式不會一致需要高度的網路效能,但仍可在傳送或接收資料時,享有可存取增加的頻寬這項優點。如需詳細資訊,請參閱 Windows 上的增強型網路

以下為支援增強聯網之加速運算執行個體的網路效能摘要。

執行個體類型 網路效能 增強型網路
3.125 Gbps ENA
6.25 Gbps ENA
g3.4xlarge | g3s.xlarge | g4ad.4xlarge and smaller | g5.2xlarge 及更小 | p3.2xlarge 最高 10 Gbps † ENA
g3.8xlarge | p2.8xlarge | p3.8xlarge 10 Gbps ENA
g4ad.8xlarge 15 Gbps ENA
g4dn.4xlarge 和更小類型的 | g5.4xlarge 最高 25 Gbps † ENA
g3.16xlarge | g4ad.16xlarge | g5.8xlarge | g5.16xlarge | p2.16xlarge | p3.16xlarge | 25 Gbps ENA
g5.12xlarge 40Gbps ENA
g4dn.8xlarge | g4dn.12xlarge | g4dn.16xlarge | g5.24xlarge 50 Gbps ENA
g4dn.metal | g5.48xlarge | p3dn.24xlarge 100 Gbps ENA

† 這些執行個體具有基準頻寬,並且可使用網路輸入/輸出額度機制,來盡可能實現超越基準頻寬的高載頻寬。如需詳細資訊,請參閱執行個體網路頻寬

執行個體類型 基準頻寬 (Gbps) 高載頻寬 (Gbps)
g3.4xlarge 5 10
g3s.xlarge 1.25 10
g4ad.xlarge 2 10
g4ad.2xlarge 4.167 10
g4ad.4xlarge 8.333 10
g4dn.xlarge 5 25
g4dn.2xlarge 10 25
g4dn.4xlarge 20 25
g5.xlarge 2.5 10
g5.2xlarge 5 10
g5.4xlarge 10 25
p3.2xlarge 2.5 10

Amazon EBS I/O 效能

Amazon EBS 最佳化執行個體使用最佳化組態堆疊,並為 Amazon EBS I/O 提供額外專用容量。此最佳化透過減少 Amazon EBS I/O 與執行個體的其他流量之間的爭用情況,為您的 Amazon EBS 磁碟區提供最佳效能。

如需詳細資訊,請參閱 Amazon EBS – 最佳化執行個體

執行個體儲存體磁碟區 I/O 效能

如果您,並使用您執行個體可用的所有 SSD 執行個體存放區磁碟區,您可以達到下表中的 IOPS (4,096 位元組區塊大小) 效能 (在佇列深度飽和下)。否則,您將得到更低的 IOPS 效能。

執行個體大小 100% 隨機讀取 IOPS 寫入 IOPS
g4ad.xlarge 10,417 8,333
g4ad.2xlarge 20,833 16,667
g4ad.4xlarge 41,667 33,333
g4ad.8xlarge 83,333 66,667
g4ad.16xlarge 166,667 133,333
g5.xlarge 40,625 20,313
g5.2xlarge 40,625 20,313
g5.4xlarge 125,000 62,500
g5.8xlarge 250,000 125,000
g5.12xlarge 312,500 156,250
g5.16xlarge 250,000 125,000
g5.24xlarge 312,500 156,250
g5.48xlarge 625,000 312,500

隨著執行個體的 SSD 執行個體存放區磁碟區越來越滿,可達到的寫入 IOPS 次數將下降。這是因為 SSD 控制器必須執行額外的工作,去尋找可用的空間、重寫現有資料,以及清除未使用的空間以供重寫。這個收集廢棄項目的程序會造成 SSD 的內部寫入放大,也就是 SSD 寫入操作與使用者寫入操作的比例放大。假如寫入操作不是 4,096 位元組的倍數或未符合 4,096 位元組的邊界,效能下降的幅度會更明顯。因為當您寫入少量位元組或未符合的位元組時,SSD 控制器必須讀取週圍的資料並將結果存放到新的位置,此模式會造成寫入放大大幅增加,提高延遲,因而使 I/O 效能巨幅下降。

SSD 控制器利用多項策略來減少寫入放大的影響。其中一項策略,就是在 SSD 執行個體儲存體內保留空間,讓控制器能更有效管理寫入操作可用的空間。此策略稱為過度佈建。提供給執行個體的 SSD 執行個體存放區磁碟區不會保留任何過度佈建的空間。為了減少寫入放大,建議讓 10% 磁碟區保留為未分割,如此 SSD 控制器便不會將其用於過度佈建。這樣做雖然會減少可用的儲存空間,但可提高效能,即使磁碟即將用完所有容量。

使用支援 TRIM 的執行個體存放區磁碟區時,當不再需要已寫入的資料時,可以利用 TRIM 指令來通知 SSD 控制器。這會讓控制器有更多的可用空間能夠使用,可減少寫入放大現象,並提升效能。如需詳細資訊,請參閱 執行個體存放區磁碟區 TRIM 支援

版本備註

  • 您必須使用 HVM AMI 來啟動執行個體。

  • 建置在 Nitro 系統上的執行個體具有以下要求:

    目前的 AWS Windows AMI 符合這些需求。

  • 除非已安裝 NVIDIA 驅動程式,否則 GPU 執行個體無法存取 GPU。如需詳細資訊,請參閱 在 Windows 執行個體上安裝 NVIDIA 驅動程式

  • 啟動裸機執行個體會將基礎伺服器開機,包括驗證所有硬體和韌體元件。這表示從執行個體進入執行中狀態到可在網路上供使用為止,可能需要 20 分鐘。

  • 若要從裸機執行個體連接或卸離 EBS 磁碟區或輔助網路介面,需要 PCIe 原生熱插拔支援。

  • 裸機執行個體使用 PCI 型序列裝置,而非 I/O 連接埠型序列裝置。上游 Linux 核心和最新的 Amazon Linux AMI 支援此裝置。裸機執行個體還提供 ACPI SPCR 資料表,可讓系統自動使用 PCI 型序列裝置。最新的 Windows AMI 會自動使用 PCI 型序列裝置。

  • 每個區域的 AFI 上限為 100。

  • 您在區域內能夠啟動的執行個體總數有所限制,並且某些執行個體類型有額外的限制。如需詳細資訊,請參閱 Amazon EC2 一般常見問答集中的我可以在 Amazon EC2 中執行多少個執行個體

  • 如果您以在單一 GPU 執行個體上建立的 Windows AMI 來啟動多個 GPU 執行個體,Windows 不會自動為所有 GPU 安裝 NVIDIA 驅動程式。您必須授權安裝新的 GPU 硬體驅動程式。您可以開啟 Other (其他) 裝置類別 (Display Adapters (顯示轉接器) 下方不會顯示非作用中的 GPU),在裝置管理員中手動修正這個問題。針對每個非作用中的 GPU,開啟內容選單 (按一下右鍵),選擇 Update Driver Software (更新驅動程式軟體),然後選擇預設的 Automatic Update (自動更新) 選項。

  • 使用 Microsoft 遠端桌面通訊協定 (RDP) 時,系統會將使用 WDDM 驅動程式模型的 GPU 取代為非加速的遠端桌面顯示驅動程式。我們建議您使用不同的遠端存取工具來存取您的 GPU,例如 Teradici Cloud Access SoftwareNICE Desktop Cloud Visualization (DCV) 或 VNC。您也可以從 AWS Marketplace 中使用其中一個 GPU AMI,因其可提供支援 3D 加速的遠端存取工具。