服務受管機群 - AWS 截止日期雲端

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

服務受管機群

服務受管機群 (SMF) 是具有截止日期雲端所提供預設設定的工作者機群。這些預設設定的設計既有效率又符合成本效益。

有些預設設定會限制工作者和任務可以執行的時間量。工作者只能執行七天,而任務只能執行五天。達到限制時,任務或工作者會停止。如果發生這種情況,您可能會失去工作者或任務正在執行的工作。若要避免這種情況,請監控您的工作者和任務,以確保它們不超過最長持續時間限制。若要進一步了解如何監控您的工作者,請參閱 使用截止日期雲端監視器

建立服務受管機群

您可以為服務受管機群選擇 3 種類型的執行個體選項; spot、隨需和 wait-and-save。Spot 執行個體是以折扣價格使用的未預留容量,但可能會因為隨需請求而中斷。隨需執行個體會以秒計價,沒有長期承諾,而且不會中斷。Wait-and-save 提供延遲的任務排程,可降低成本,並可因隨需和 Spot 請求而中斷。

  1. 截止日期雲端主控台,導覽至您要建立機群的陣列。

  2. 選取機群索引標籤,然後選擇建立機群

  3. 輸入機群的名稱

  4. (選用) 輸入描述。明確的描述可協助您快速識別機群的用途。

  5. 選取服務受管機群類型。

  6. 選擇機群的 Spot隨需等待並儲存執行個體市場選項。根據預設,機群會使用 Spot 選項。

  7. 如需機群的服務存取權,請選取現有角色或建立新的角色。服務角色會將登入資料提供給機群中的執行個體,授予他們處理任務的許可,以及授予監視器中的使用者,讓他們可以讀取日誌資訊。

  8. 選擇下一步

  9. 選擇僅限 CPU 執行個體或 GPU 加速執行個體。GPU 加速的執行個體可以更快地處理您的任務,但成本可能更高。

  10. 為您的工作者選取作業系統。您可以保留預設值,Linux或選擇 Windows

  11. (選用) 如果您選取 GPU 加速執行個體,請設定每個執行個體中的 GPUs 數量上限和下限。基於測試目的,您僅限於一個 GPU。若要為您的生產工作負載請求更多 ,請參閱《Service Quotas 使用者指南》中的請求提高配額

  12. 輸入您機群所需的最小和最大 vCPUs

  13. 輸入您機群所需的最小和最大記憶體

  14. (選用) 您可以選擇允許或排除機群中的特定執行個體類型,以確保只有這些執行個體類型用於此機群。

  15. (選用) 設定要擴展機群的執行個體數量上限,以便為佇列中的任務提供容量。建議您將執行個體數量下限保留在 ,0以確保機群在沒有任務排入佇列時發行所有執行個體。

  16. (選用) 您可以指定要連接到此機群中工作者的 Amazon Elastic Block Store (Amazon EBS) gp3 磁碟區大小。如需詳細資訊,請參閱 EBS 使用者指南

  17. 選擇下一步

  18. (選用) 定義自訂工作者功能,定義此機群的功能,可與任務提交時指定的自訂主機功能結合。如果您打算將機群連接到自己的授權伺服器,其中一個範例是特定的授權類型。

  19. 選擇下一步

  20. (選用) 若要將機群與佇列建立關聯,請從下拉式清單中選取佇列。如果使用預設Conda佇列環境設定佇列,您的機群會自動獲得支援合作夥伴 DCC 應用程式和轉譯器的套件。如需提供的套件清單,請參閱 預設Conda佇列環境

  21. 選擇下一步

  22. (選用) 若要將標籤新增至機群,請選擇新增標籤,然後輸入該標籤的索引鍵

  23. 選擇下一步

  24. 檢閱您的機群設定,然後選擇建立機群