Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Erste Schritte mit der Amazon EKS-Unterstützung in SageMaker HyperPod

Fokusmodus
Erste Schritte mit der Amazon EKS-Unterstützung in SageMaker HyperPod - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Informieren Sie sich neben den allgemeinen Angaben Voraussetzungen für die Verwendung von SageMaker HyperPod über die folgenden Anforderungen und Überlegungen zur Orchestrierung von SageMaker HyperPod Clustern mithilfe von Amazon EKS. SageMaker HyperPod

Voraussetzungen

Anmerkung

Bevor Sie einen HyperPod Cluster erstellen, benötigen Sie einen laufenden Amazon EKS-Cluster, der mit VPC konfiguriert und mit Helm installiert wurde.

  • Wenn Sie die SageMaker AI-Konsole verwenden, können Sie auf der Cluster-Konsolenseite einen Amazon HyperPod EKS-Cluster erstellen. Weitere Informationen finden Sie unter Erstellen eines SageMaker HyperPod -Clusters.

  • Wenn Sie AWS CLI verwenden, sollten Sie einen Amazon EKS-Cluster erstellen, bevor Sie einen HyperPod Cluster erstellen, mit dem Sie eine Verbindung herstellen möchten. Weitere Informationen finden Sie unter Erstellen eines Amazon EKS-Clusters im Amazon EKS-Benutzerhandbuch.

Beachten Sie bei der Bereitstellung Ihres Amazon EKS-Clusters Folgendes:

  1. Unterstützung der Kubernetes-Version

    • SageMaker HyperPod unterstützt die Kubernetes-Versionen 1.28, 1.29, 1.30 und 1.31.

  2. Amazon EKS-Cluster-Authentifizierungsmodus

    • Der Authentifizierungsmodus eines Amazon EKS-Clusters, der von unterstützt wird, SageMaker HyperPod sind API undAPI_AND_CONFIG_MAP.

  3. Netzwerkfunktionen

    • SageMaker HyperPod erfordert das Amazon VPC Container Network Interface (CNI) -Plug-In Version 1.18.3 oder höher.

      Anmerkung

      AWS Das VPC CNI-Plugin für Kubernetes ist das einzige CNI, das von unterstützt wird. SageMaker HyperPod

    • Der Typ des Subnetzes in Ihrer VPC muss für HyperPod Cluster privat sein.

  4. IAM-Rollen

  5. Amazon EKS-Cluster-Add-Ons

    • Sie können die verschiedenen von Amazon EKS bereitgestellten Add-Ons wie Kube-Proxy, CoreDNS, das Amazon VPC Container Network Interface (CNI) -Plugin, Amazon EKS-Pod-Identität, den GuardDuty Agenten, den Amazon FSx Container Storage Interface (CSI) -Treiber, den Mountpoint for Amazon S3 CSI-Treiber, den Distro for und den AWS Observability Agent weiterhin verwenden. OpenTelemetry CloudWatch

Überlegungen zur Konfiguration von SageMaker HyperPod Clustern mit Amazon EKS

  • Sie müssen je nach Typ Ihrer Knoten unterschiedliche IAM-Rollen verwenden. Verwenden Sie für HyperPod Knoten eine Rolle, die auf IAM-Rolle für SageMaker HyperPod basiert. Informationen zu Amazon EKS-Knoten finden Sie unter IAM-Rolle für Amazon EKS-Knoten.

  • Sie können zusätzliche EBS-Volumes nicht direkt auf Pods bereitstellen, die auf HyperPod Clusterknoten ausgeführt werden. Stattdessen müssen Sie zusätzliche EBS-Volumes bereitstellen und auf den HyperPod Knoten bereitstellen. InstanceStorageConfigs Es ist wichtig zu beachten, dass Sie zusätzliche EBS-Volumes nur dann neuen Instanzgruppen zuordnen können, wenn Sie einen HyperPod Cluster erstellen oder aktualisieren. Nachdem Sie Instance-Gruppen mit diesen zusätzlichen EBS-Volumes konfiguriert haben, müssen Sie in Ihrer Amazon EKS-Pod-Konfigurationsdatei den lokalen Pfad festlegen, /opt/sagemaker um die Volumes ordnungsgemäß in Ihre Amazon EKS-Pods einzubinden.

  • Sie können den Amazon EBS CSI (Container Storage Interface) -Controller auf HyperPod Knoten bereitstellen. Der Amazon EBS CSI-Knoten DaemonSet, der das Mounten und Unmounten von EBS-Volumes erleichtert, kann jedoch nur auf Nicht-Instances ausgeführt werden. HyperPod

  • Wenn Sie Instance-Typ-Labels zur Definition von Scheduling-Einschränkungen verwenden, stellen Sie sicher, dass Sie die SageMaker AI ML-Instance-Typen mit dem Präfix verwenden. ml. Verwenden Sie beispielsweise für P5-Instances anstelle von. ml.p5.48xlarge p5.48xlarge

Überlegungen zur Netzwerkkonfiguration für SageMaker HyperPod Cluster mit Amazon EKS

  • Jede HyperPod Cluster-Instance unterstützt ein Elastic Network Interface (ENI). Die maximale Anzahl von Pods pro Instance-Typ finden Sie in der folgenden Tabelle.

    Instance-Typ Maximale Anzahl von Pods
    ml.p4d.24xlarge 49
    ml.p4de.24xlarge 49
    ml.p 5.48x groß 49
    ml.trn 1,32 x groß 49
    ml.trn1n.32x groß 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    ml. 5 n. groß 9
    ml.c5n.2 x groß 14
    ml.c5n.4x groß 29
    ml.c5n.9x groß 29
    ml.c5n.18x groß 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
    ml.g 6.x groß 14
    ml.g 6.2 x groß 14
    ml.g 6,4 x groß 29
    ml.g 6,8 x groß 29
    ml.g 6.12x groß 29
    ml.g 6.16x groß 49
    ml.g 6,24x groß 49
    ml.g 6,48 x groß 49
    ml.gr 6,4 x groß 29
    ml.gr 6,8 x groß 29
    ml.g6e.x groß 14
    ml.g6e.2 x groß 14
    ml.g6e.4x groß 29
    ml.g6e.8xgroß 29
    ml.g6e.12x groß 29
    ml.g6e.16x groß 49
    ml. g 6 e 24 x groß 49
    ml. g 6 e 48 x groß 49
    ml.p5e.48x groß 49
  • Standardmäßig hostNetwork = true haben nur Pods Zugriff auf den Amazon EC2 Instance Metadata Service (IMDS). Verwenden Sie die Amazon EKS-Pod-Identität oder die IAM-Rollen für Dienstkonten (IRSA), um den Zugriff auf die AWS Anmeldeinformationen für Pods zu verwalten.

  • EKS-orchestrierte HyperPod Cluster unterstützen duale IP-Adressierungsmodi und ermöglichen so die Konfiguration mit IPv4 oder IPv6 für IPv6 Amazon EKS-Cluster in IPv6 -fähigen VPC- und Subnetzumgebungen. Weitere Informationen finden Sie unter Einrichtung SageMaker HyperPod mit einer benutzerdefinierten Amazon VPC.

Überlegungen zur Verwendung der Cluster-Resilienzfunktionen HyperPod

  • Die automatische Knotenersetzung wird für CPU-Instanzen nicht unterstützt.

  • Der HyperPod Health Monitoring Agent muss installiert sein, damit die automatische Wiederherstellung des Knotens funktioniert. Der Agent kann mit Helm installiert werden. Weitere Informationen finden Sie unter Installieren Sie Pakete auf dem Amazon EKS-Cluster mit Helm.

  • Der Agent für HyperPod eingehende Integritätsprüfungen und Gesundheitsüberwachung unterstützt GPU- und Trn-Instanzen.

  • SageMaker KI wendet den folgenden Makel auf Knoten an, wenn sie tiefgreifenden Gesundheitschecks unterzogen werden:

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    Anmerkung

    Sie können Knoten in Instanzgruppen, die DeepHealthChecks aktiviert sind, keine benutzerdefinierten Taints hinzufügen.

Sobald Ihr Amazon EKS-Cluster läuft, konfigurieren Sie Ihren Cluster mit dem Helm-Paketmanager, wie unter beschrieben, Installieren Sie Pakete auf dem Amazon EKS-Cluster mit Helm bevor Sie Ihren HyperPod Cluster erstellen.

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.