Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SageMaker HyperPod Amazon-Schnellstart
Dieser Schnellstart führt Sie durch die Erstellung Ihres ersten HyperPod Clusters mit Slurm- und Amazon EKS (EKS) -Orchestrierungen. Wählen Sie zunächst die Orchestrierung, die am besten zu Ihren Infrastrukturanforderungen passt. SageMaker HyperPod
In diesem Thema:
Erstellen Sie einen SLURM-orchestrierten Cluster SageMaker HyperPod
Folgen Sie diesen Schritten, um Ihren ersten SageMaker HyperPod Cluster mit Slurm-Orchestrierung zu erstellen.
Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/
. -
Wählen Sie im linken Navigationsbereich HyperPod Clusters und dann Cluster Management aus.
-
Wählen Sie auf der Seite SageMaker HyperPod Cluster die Option HyperPod Cluster erstellen aus.
-
Wählen Sie im Drop-down-Menü HyperPod Cluster erstellen die Option Orchestrated by Slurm aus.
-
Wählen Sie auf der Seite zur Clustererstellung die Option Quick Setup aus. Mit dieser Option können Sie sofort mit den Standardeinstellungen beginnen. SageMaker KI erstellt bei der Erstellung Ihres Clusters neue Ressourcen wie VPC, Subnetze, Sicherheitsgruppen, Amazon S3 S3-Bucket, IAM-Rolle und FSx für Lustre.
-
Geben Sie unter Allgemeine Einstellungen einen Namen für den neuen Cluster an. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.
-
Wählen Sie unter Instanzgruppen die Option Gruppe hinzufügen aus. Jede Instanzgruppe kann anders konfiguriert werden, und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instanzgruppen mit unterschiedlichen Instanztypen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instanzgruppe hinzufügen. Sie können jeweils eine Instanzgruppe hinzufügen. Um mehrere Instanzgruppen zu erstellen, wiederholen Sie den Vorgang für jede Instanzgruppe.
Gehen Sie wie folgt vor, um eine Instanzgruppe hinzuzufügen.
-
Wählen Sie unter Instanzgruppentyp einen Typ für Ihre Instanzgruppe aus. Wählen Sie für diesen Schnellstart Controller (Head) for
my-controller-group
, Login formy-login-group
und Compute (Worker) forworker-group-1
. -
Geben Sie unter Name einen Namen für die Instanzgruppe an. Erstellen Sie für diesen Schnellstart drei Instanzgruppen mit den Namen
my-controller-group
my-login-group
, undworker-group-1
. -
Wählen Sie für die Instanzkapazität entweder On-Demand-Kapazität oder einen Schulungsplan, um Ihre Rechenressourcen zu reservieren.
-
Wählen Sie unter Instanztyp die Instanz für die Instanzgruppe aus. Wählen Sie für diesen Schnellstart
ml.c5.xlarge
fürmy-controller-group
my-login-group
,ml.m5.4xlarge
für undml.trn1.32xlarge
fürworker-group-1
aus.Stellen Sie sicher, dass Sie den Instance-Typ mit ausreichenden Kontingenten in Ihrem Konto wählen, oder fordern Sie zusätzliche Kontingente an, indem Sie den Anweisungen unter SageMaker HyperPod Kontingente folgen.
-
Geben Sie für Instance-Menge eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Geben Sie für diesen Schnellstart 1 für alle drei Gruppen ein.
-
Wählen Sie für Target Availability Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Rechenkapazität entsprechen.
-
Geben Sie für Zusätzliches Speichervolumen pro Instanz (GB) — optional eine Ganzzahl zwischen 1 und 16384 an, um die Größe eines zusätzlichen Elastic Block Store (EBS) -Volumes in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instanz der Instanzgruppe angehängt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume lautet.
/opt/sagemaker
Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den Befehl ausführen.df -h
Durch das Anhängen eines zusätzlichen EBS-Volumes wird stabiler, instanzunabhängiger und unabhängig persistenter Speicher bereitgestellt, wie im Abschnitt Amazon EBS-Volumes im Amazon Elastic Block Store-Benutzerhandbuch beschrieben. -
Wählen Sie Instance-Gruppe hinzufügen.
-
-
Überprüfen Sie unter Standardeinstellungen für die Schnellkonfiguration die Standardeinstellungen. In diesem Abschnitt sind alle Standardeinstellungen für die Clustererstellung aufgeführt, einschließlich aller neuen AWS Ressourcen, die während der Clustererstellung erstellt werden.
-
Wählen Sie Absenden aus.
Weitere Informationen finden Sie unter Erste Schritte mit der SageMaker HyperPod Verwendung der SageMaker KI-Konsole.
Erstellen Sie einen EKS-orchestrierten Cluster SageMaker HyperPod
Gehen Sie wie folgt vor, um Ihren ersten SageMaker HyperPod Cluster mit Amazon EKS-Orchestrierung zu erstellen.
Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/
. -
Wählen Sie im linken Navigationsbereich HyperPod Clusters und dann Cluster Management aus.
-
Wählen Sie auf der Seite SageMaker HyperPod Cluster die Option HyperPod Cluster erstellen aus.
-
Wählen Sie im Drop-down-Menü HyperPod Cluster erstellen die Option Orchestrated by Amazon EKS aus.
-
Wählen Sie auf der Seite zur Clustererstellung die Option Schnellkonfiguration aus. Mit dieser Option können Sie sofort mit den Standardeinstellungen beginnen. SageMaker KI erstellt bei der Erstellung Ihres Clusters neue Ressourcen wie VPC, Subnetze, Sicherheitsgruppen, Amazon S3 S3-Bucket, IAM-Rolle und FSx für Lustre.
-
Geben Sie unter Allgemeine Einstellungen einen Namen für den neuen Cluster an. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.
-
Wählen Sie unter Instanzgruppen die Option Gruppe hinzufügen aus. Jede Instanzgruppe kann anders konfiguriert werden, und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instanzgruppen mit unterschiedlichen Instanztypen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instanzgruppe hinzufügen. Sie können jeweils eine Instanzgruppe hinzufügen. Um mehrere Instanzgruppen zu erstellen, wiederholen Sie den Vorgang für jede Instanzgruppe.
Gehen Sie wie folgt vor, um eine Instanzgruppe hinzuzufügen.
-
Wählen Sie als Instanzgruppentyp Standard oder Eingeschränkte Instanzgruppe (RIG). In der Regel wählen Sie Standard, das eine allgemeine Computerumgebung ohne zusätzliche Sicherheitseinschränkungen bietet. Restricted Instance Group (RIG) ist eine spezialisierte Umgebung für die Anpassung grundlegender Modelle wie Amazon Nova. Weitere Informationen zur Einrichtung von RIG für die Amazon Nova-Modellanpassung finden Sie unterAmazon Nova-Anpassung bei Amazon SageMaker HyperPod.
-
Geben Sie unter Name einen Namen für die Instanzgruppe an.
-
Wählen Sie zum Beispiel Instance-Kapazität entweder On-Demand-Kapazität oder einen Schulungsplan, um Ihre Rechenressourcen zu reservieren.
-
Wählen Sie unter Instanztyp die Instanz für die Instanzgruppe aus. Stellen Sie sicher, dass Sie den Instance-Typ mit ausreichenden Kontingenten in Ihrem Konto wählen, oder fordern Sie zusätzliche Kontingente an, indem Sie unter folgenSageMaker HyperPod Kontingente.
-
Geben Sie für Instance-Menge eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Geben Sie für diesen Schnellstart 1 für alle drei Gruppen ein.
-
Wählen Sie für Target Availability Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Rechenkapazität entsprechen.
-
Geben Sie für Zusätzliches Speichervolumen pro Instanz (GB) — optional eine Ganzzahl zwischen 1 und 16384 an, um die Größe eines zusätzlichen Elastic Block Store (EBS) -Volumes in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instanz der Instanzgruppe angehängt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume lautet.
/opt/sagemaker
Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den Befehl ausführen.df -h
Durch das Anhängen eines zusätzlichen EBS-Volumes wird stabiler, instanzunabhängiger und unabhängig persistenter Speicher bereitgestellt, wie im Abschnitt Amazon EBS-Volumes im Amazon Elastic Block Store-Benutzerhandbuch beschrieben. -
Wählen Sie Ihre Option, z. B. tiefgreifende Gesundheitschecks. Tiefgreifende Integritätsprüfungen überwachen den Zustand der Instances während der Erstellung und nach Softwareupdates und stellen fehlerhafte Instanzen automatisch durch Neustarts oder Austausch wieder her, sofern diese aktiviert sind.
-
Wählen Sie Instanzgruppe hinzufügen.
-
-
Überprüfen Sie unter Standardeinstellungen für die Schnellkonfiguration die Standardeinstellungen. In diesem Abschnitt sind alle Standardeinstellungen für die Clustererstellung aufgeführt, einschließlich aller neuen AWS Ressourcen, die während der Clustererstellung erstellt werden.
-
Wählen Sie Absenden aus.
Weitere Informationen finden Sie unter Erstellen eines SageMaker HyperPod Clusters mit Amazon EKS-Orchestrierung.
Workloads einreichen
Folgen Sie diesen Workshop-Tutorials, um Beispiel-Workloads einzureichen.