Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Informieren Sie sich neben den allgemeinen Angaben Voraussetzungen für die Verwendung von SageMaker HyperPod über die folgenden Anforderungen und Überlegungen zur Orchestrierung von SageMaker HyperPod Clustern mithilfe von Amazon EKS. SageMaker HyperPod
Voraussetzungen
Anmerkung
Bevor Sie einen HyperPod Cluster erstellen, benötigen Sie einen laufenden Amazon EKS-Cluster, der mit VPC konfiguriert und mit Helm installiert wurde.
-
Wenn Sie die SageMaker AI-Konsole verwenden, können Sie auf der Cluster-Konsolenseite einen Amazon HyperPod EKS-Cluster erstellen. Weitere Informationen finden Sie unter Erstellen eines SageMaker HyperPod -Clusters.
-
Wenn Sie AWS CLI verwenden, sollten Sie einen Amazon EKS-Cluster erstellen, bevor Sie einen HyperPod Cluster erstellen, mit dem Sie eine Verbindung herstellen möchten. Weitere Informationen finden Sie unter Erstellen eines Amazon EKS-Clusters im Amazon EKS-Benutzerhandbuch.
Beachten Sie bei der Bereitstellung Ihres Amazon EKS-Clusters Folgendes:
-
Unterstützung der Kubernetes-Version
-
SageMaker HyperPod unterstützt die Kubernetes-Versionen 1.28, 1.29, 1.30 und 1.31.
-
-
Amazon EKS-Cluster-Authentifizierungsmodus
-
Der Authentifizierungsmodus eines Amazon EKS-Clusters, der von unterstützt wird, SageMaker HyperPod sind
API
undAPI_AND_CONFIG_MAP
.
-
-
Netzwerkfunktionen
-
SageMaker HyperPod erfordert das Amazon VPC Container Network Interface (CNI) -Plug-In Version 1.18.3 oder höher.
Anmerkung
AWS Das VPC CNI-Plugin für Kubernetes
ist das einzige CNI, das von unterstützt wird. SageMaker HyperPod -
Der Typ des Subnetzes in Ihrer VPC muss für HyperPod Cluster privat sein.
-
-
IAM-Rollen
-
Stellen Sie sicher, dass die erforderlichen IAM-Rollen für wie im Abschnitt beschrieben eingerichtet HyperPod sind. AWS Identity and Access Management für SageMaker HyperPod
-
-
Amazon EKS-Cluster-Add-Ons
-
Sie können die verschiedenen von Amazon EKS bereitgestellten Add-Ons wie Kube-Proxy, CoreDNS, das Amazon VPC Container Network Interface (CNI) -Plugin, Amazon EKS-Pod-Identität, den GuardDuty Agenten, den Amazon FSx Container Storage Interface (CSI) -Treiber, den Mountpoint for Amazon S3 CSI-Treiber, den Distro for und den AWS Observability Agent weiterhin verwenden. OpenTelemetry CloudWatch
-
Überlegungen zur Konfiguration von SageMaker HyperPod Clustern mit Amazon EKS
-
Sie können zusätzliche EBS-Volumes nicht direkt auf Pods bereitstellen, die auf HyperPod Clusterknoten ausgeführt werden. Stattdessen müssen Sie zusätzliche EBS-Volumes InstanceStorageConfigsfür die Bereitstellung und Bereitstellung auf den HyperPod Knoten nutzen. Es ist wichtig zu beachten, dass Sie zusätzliche EBS-Volumes nur dann neuen Instanzgruppen zuordnen können, wenn Sie einen HyperPod Cluster erstellen oder aktualisieren. Nachdem Sie Instance-Gruppen mit diesen zusätzlichen EBS-Volumes konfiguriert haben, müssen Sie in Ihrer Amazon EKS-Pod-Konfigurationsdatei den lokalen Pfad
festlegen, /opt/sagemaker
um die Volumes ordnungsgemäß in Ihre Amazon EKS-Pods einzubinden. -
Sie können den Amazon EBS CSI (Container Storage Interface) -Controller auf HyperPod Knoten bereitstellen. Der Amazon EBS CSI-Knoten DaemonSet, der das Mounten und Unmounten von EBS-Volumes erleichtert, kann jedoch nur auf Nicht-Instances ausgeführt werden. HyperPod Wenn Sie Instance-Typ-Labels zur Definition von Scheduling-Einschränkungen verwenden, stellen Sie sicher, dass Sie die SageMaker AI ML-Instance-Typen mit dem Präfix verwenden.
ml.
Verwenden Sie beispielsweise für P5-Instances anstelle von.ml.p5.48xlarge
p5.48xlarge
Überlegungen zur Netzwerkkonfiguration für SageMaker HyperPod Cluster mit Amazon EKS
-
Jede HyperPod Cluster-Instance unterstützt ein Elastic Network Interface (ENI). Die maximale Anzahl von Pods pro Instance-Typ finden Sie in der folgenden Tabelle.
Instance-Typ Maximale Anzahl von Pods ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p 5.48x groß 49 ml.trn 1,32 x groß 49 ml.trn1n.32x groß 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml. 5 n. groß 9 ml.c5n.2 x groß 14 ml.c5n.4x groß 29 ml.c5n.9x groß 29 ml.c5n.18x groß 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 ml.g 6.x groß 14 ml.g 6.2 x groß 14 ml.g 6,4 x groß 29 ml.g 6,8 x groß 29 ml.g 6.12x groß 29 ml.g 6.16x groß 49 ml.g 6,24x groß 49 ml.g 6,48 x groß 49 ml.gr 6,4 x groß 29 ml.gr 6,8 x groß 29 ml.g6e.x groß 14 ml.g6e.2 x groß 14 ml.g6e.4x groß 29 ml.g6e.8xgroß 29 ml.g6e.12x groß 29 ml.g6e.16x groß 49 ml. g 6 e 24 x groß 49 ml. g 6 e 48 x groß 49 ml.p5e.48x groß 49 -
Standardmäßig
hostNetwork = true
haben nur Pods Zugriff auf den Amazon EC2 Instance Metadata Service (IMDS). Verwenden Sie die Amazon EKS-Pod-Identität oder die IAM-Rollen für Dienstkonten (IRSA), um den Zugriff auf die AWS Anmeldeinformationen für Pods zu verwalten. -
SageMaker HyperPod Cluster unterstützen derzeit nur IPv4 IP-Adressierung. IPv6 IP-Adressierung wird derzeit nicht unterstützt.
Überlegungen zur Verwendung der HyperPod Cluster-Resilienzfunktionen
-
Die automatische Knotenersetzung wird für CPU-Instanzen nicht unterstützt.
-
Der HyperPod Health Monitoring Agent muss installiert sein, damit die automatische Wiederherstellung des Knotens funktioniert. Der Agent kann mit Helm installiert werden. Weitere Informationen finden Sie unter Installieren Sie Pakete auf dem Amazon EKS-Cluster mit Helm.
-
Der Agent für HyperPod eingehende Integritätsprüfungen und Gesundheitsüberwachung unterstützt GPU- und Trn-Instanzen.
-
SageMaker KI wendet den folgenden Makel auf Knoten an, wenn sie tiefgreifenden Gesundheitschecks unterzogen werden:
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
Anmerkung
Sie können Knoten in Instanzgruppen, die
DeepHealthChecks
aktiviert sind, keine benutzerdefinierten Taints hinzufügen.
Sobald Ihr Amazon EKS-Cluster läuft, konfigurieren Sie Ihren Cluster mit dem Helm-Paketmanager, wie unter beschrieben, Installieren Sie Pakete auf dem Amazon EKS-Cluster mit Helm bevor Sie Ihren HyperPod Cluster erstellen.