Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Einen HyperPod EKS-Cluster mit eingeschränkter Instanzgruppe (RIG) erstellen
In diesem Thema werden die Schritte zur Erstellung eines Amazon SageMaker HyperPod EKS-Clusters mit einer eingeschränkten Instanzgruppe (RIG) behandelt. Eine RIG-Konfiguration in SageMaker HyperPod EKS-Clustern bietet eine spezielle Umgebung für das Training von Amazon Nova-Modellen. RIG hat die folgenden Einschränkungen:
-
RIG-Workloads werden in einer internetfreien VPC ausgeführt. Alle Ein- und Ausgänge sind streng reguliert.
-
RIG hat Einschränkungen in Bezug auf die Beobachtbarkeit von Kubernetes-Funktionen wie Kubectl Exec und Logs, um eine sichere Umgebung für das Nova-Modelltraining zu gewährleisten.
-
RIG erlaubt nur Nova-Anpassungsbilder, und Jobs, die mit anderen Images ausgeführt werden, werden abgelehnt.
Diese können Sie RIGs bei der Einrichtung von Instanzgruppen in Ihrem HyperPod EKS-Cluster erstellen. Sie können zwar die Größe und Skalierung dieser Ressourcen steuern, aber Sie können nicht direkt auf die Worker-Knoten zugreifen. Diese Architektur stellt sicher, dass auf Nova-Komponenten (Modellgewichte, Prüfpunkte, Trainingsdaten und Code) nur über regulierte Kanäle und ein vom Service verwaltetes Kontosystem zugegriffen werden kann.
Die Anpassung des Nova-Modells SageMaker HyperPod basiert auf einem FSx für Lustre verwalteten Dateisystem, um eine optimale Leistung zu erzielen. Wenn Sie ein RIG erstellen, müssen Sie die Volume-Größe und den Durchsatz für das FSx for Lustre-Dateisystem angeben, das auf allen Worker-Knoten in der Instanzgruppe bereitgestellt wird. FSx for Lustre dient zum Speichern zwischengeschalteter Checkpoints und interner Modellzustände während des verteilten Trainings. Folgen Sie den Anweisungen in der Rezeptur, um eine geeignete Volumengröße und einen geeigneten Durchsatz zu wählen, um eine ausreichende Kapazität und Leistung sicherzustellen. FSx Für Lustre fallen die Nutzungskosten für Sie AWS-Konto an.
Wichtige Hinweise für RIG in HyperPod EKS-Clustern
-
RIG unterstützt nur die Verwendung der Ausführungsrolle für Berechtigungen. Stellen Sie sicher, dass die Ausführungsrolle die erforderlichen IAM-Berechtigungen umfasst, z. B. den Zugriff auf Amazon S3.
-
Wenn Sie Amazon FSx for Lustre und Amazon S3 mit Service-Managed verwenden, stellen Sie sicher, dass Ihr FSx for Lustre-Dateisystem für Ihre Arbeitslast entsprechend dimensioniert ist. Das Trainingsdatenmanifest wird in Amazon S3 hochgeladen, auf das die Ausführungsrolle zugreifen kann.
-
RIG muss speziell für einen neuen SageMaker HyperPod EKS-Cluster erstellt oder aktualisiert werden, der am oder nach dem 16. Juli 2025 erstellt wurde. Cluster, die vor diesem Datum erstellt wurden, enthalten möglicherweise inkompatible Softwareversionen oder Konfigurationen, die von RIG nicht unterstützt werden.
Erstellen Sie einen HyperPod EKS-Cluster mit RIG (Konsole)
Folgen Sie diesen Anweisungen, um mithilfe der HyperPod Konsole einen HyperPod EKS-Cluster mit einem RIG zu erstellen.
Erstellen Sie einen HyperPod EKS-Cluster mit RIG (CLI)
Folgen Sie diesen Anweisungen, um einen HyperPod EKS-Cluster mit einem RIG mithilfe von zu erstellen AWS CLI.