Verwenden der Benutzeroberfläche der SageMaker HyperPod Konsole - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden der Benutzeroberfläche der SageMaker HyperPod Konsole

Erstellen Sie Ihren ersten SageMaker HyperPod Cluster mithilfe der SageMaker HyperPod Konsolen-Benutzeroberfläche.

Erstellen Sie Ihren ersten SageMaker HyperPod Cluster mit Slurm

Das folgende Tutorial zeigt, wie Sie einen neuen SageMaker HyperPod Cluster erstellen und ihn mit Slurm über die Benutzeroberfläche der SageMaker Konsole einrichten. Im Anschluss an das Tutorial erstellen Sie einen HyperPod Cluster mit drei Slurm-Knoten, my-controller-groupmy-login-group, und. worker-group-1

  1. Öffnen Sie die SageMaker Amazon-Konsole unter https://console.aws.amazon.com/sagemaker/.

  2. Wählen Sie im linken Navigationsbereich HyperPod Clusters aus.

  3. Wählen Sie auf der Seite SageMaker HyperPod Cluster die Option Cluster erstellen aus.

  4. Geben Sie in Schritt 1: Clustereinstellungen einen Namen für den neuen Cluster an. Überspringen Sie den Abschnitt „Tags“.

  5. Fügen Sie in Schritt 2: Instanzgruppen Instanzgruppen hinzu. Jede Instanzgruppe kann anders konfiguriert werden, und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instanzgruppen mit unterschiedlichen Instanztypen besteht. Damit Lebenszykluskonfigurationsskripte während der Clustererstellung auf der Instanzgruppe ausgeführt werden können, können Sie damit beginnen, die Lebenszyklus-Beispielskripte zu verwenden, die im Awsome Distributed GitHub Training-Repository bereitgestellt werden.

    1. Geben Sie unter Name der Instanzgruppe einen Namen für die Instanzgruppe an. Erstellen Sie für dieses Tutorial drei Instanzgruppen mit den Namen my-controller-groupmy-login-group, undworker-group-1.

    2. Wählen Sie unter Instanztyp auswählen die Instanz für die Instanzgruppe aus. Wählen Sie für dieses Tutorial ml.c5.xlarge für my-controller-groupmy-login-group, ml.m5.4xlarge für und ml.trn1.32xlarge für ausworker-group-1.

      Stellen Sie sicher, dass Sie den Instance-Typ mit ausreichenden Kontingenten in Ihrem Konto wählen, oder fordern Sie zusätzliche Kontingente an, indem Sie unter folgenSageMaker HyperPod Kontingente.

    3. Geben Sie für Menge eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Geben Sie für dieses Tutorial 1 für alle drei Gruppen ein.

    4. Geben Sie für S3-Pfad zu Lifecycle-Skriptdateien den Amazon S3 S3-Pfad ein, in dem Ihre Lifecycle-Skripts gespeichert sind. Wenn Sie nicht über Lebenszyklus-Skripten verfügen, führen Sie die folgenden Teilschritte durch, um die vom SageMaker HyperPod Serviceteam bereitgestellten Basis-Lebenszyklus-Skripten zu verwenden.

      1. Klonen Sie das Awsome Distributed Training Repository GitHub.

        git clone https://github.com/aws-samples/awsome-distributed-training/
      2. Unter 1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-configfinden Sie eine Reihe von grundlegenden Lebenszyklus-Skripten. Weitere Informationen zu den Lebenszyklusskripten finden Sie auch unterBereiten Sie Lifecycle-Skripte für die Einrichtung von Slurm vor SageMaker HyperPod.

      3. Schreiben Sie eine Slurm-Konfigurationsdatei und speichern Sie sie unter. provisioning_params.json Geben Sie in der Datei grundlegende Slurm-Konfigurationsparameter an, um Slurm-Knoten den SageMaker HyperPod Cluster-Instanzgruppen ordnungsgemäß zuzuweisen. Sie provisioning_params.json sollten beispielsweise auf der Grundlage der HyperPod Cluster-Instanzgruppe, die in den vorherigen Schritten 5a, 5b und 5c konfiguriert wurde, wie folgt aussehen.

        { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "my-controller-group", "login_group": "my-login-group", "worker_groups": [ { "instance_group_name": "worker-group-1", "partition_name": "partition-1" } ] }
      4. Laden Sie die Skripts in Ihren Amazon S3 S3-Bucket hoch. Erstellen Sie einen S3-Bucket mit einem Pfad im folgenden Format:s3://sagemaker-<unique-s3-bucket-name>/<lifecycle-script-directory>/src. Sie können diesen Bucket mit der Amazon S3 S3-Konsole erstellen.

        Anmerkung

        Sie sagemaker- müssen dem S3-Bucket-Pfad ein Präfix hinzufügen, da IAM-Rolle für SageMaker HyperPod mit with AmazonSageMakerClusterInstanceRolePolicy nur Prinzipalen auf S3-Buckets mit diesem speziellen Präfix zugreifen können.

    5. Geben Sie für Verzeichnispfad zu Ihrem bei der Erstellung erstellten Lifecycle-Skript unter S3-Pfad zu Lifecycle-Skriptdateien den Dateinamen des Lifecycle-Skripts ein.

    6. Wählen Sie für die IAM-Rolle die IAM-Rolle AmazonSageMakerClusterInstanceRolePolicy aus, die Sie mithilfe des Abschnitts erstellt haben. IAM-Rolle für SageMaker HyperPod

    7. Unter Erweiterte Konfiguration können Sie die folgenden optionalen Konfigurationen einrichten.

      1. (Optional) Geben Sie 1 für Threads pro Kern an, ob Multithreading deaktiviert und 2 Multithreading aktiviert werden soll. Welcher Instance-Typ Multithreading unterstützt, finden Sie in der Referenztabelle mit CPU-Kernen und Threads pro CPU-Kern pro Instance-Typ im Amazon Elastic Compute Cloud-Benutzerhandbuch.

      2. (Optional) Geben Sie für zusätzliche Instance-Speicherkonfigurationen eine Ganzzahl zwischen 1 und 16384 an, um die Größe eines zusätzlichen Elastic Block Store (EBS) -Volumes in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instanz der Instanzgruppe angehängt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume lautet. /opt/sagemaker Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den Befehl ausführen. df -h Durch das Anhängen eines zusätzlichen EBS-Volumes wird stabiler, instanzunabhängiger und unabhängig persistenter Speicher bereitgestellt, wie im Abschnitt Amazon EBS-Volumes im Amazon Elastic Block Store-Benutzerhandbuch beschrieben.

  6. Richten Sie in Schritt 3: Erweiterte Konfiguration die Netzwerkeinstellungen innerhalb, innerhalb und außerhalb des Clusters ein. Wählen Sie Ihre eigene VPC aus, falls Sie bereits eine haben, die SageMaker Zugriff auf Ihre VPC ermöglicht. Wenn Sie noch keine haben, aber eine neue VPC erstellen möchten, folgen Sie den Anweisungen unter Erstellen einer VPC im Amazon Virtual Private Cloud Cloud-Benutzerhandbuch. Sie können es ohne VPC belassen, um die SageMaker Standard-VPC zu verwenden.

  7. Überprüfen Sie in Schritt 4: Überprüfen und Erstellen die Konfiguration, die Sie in Schritt 1 bis 3 festgelegt haben, und schließen Sie das Senden der Anfrage zur Clustererstellung ab.

  8. Der neue Cluster sollte im Hauptbereich der SageMaker HyperPod Konsole unter Cluster angezeigt werden. Sie können den Status überprüfen, der in der Spalte Status angezeigt wird.

  9. Wenn der Status des Clusters den Status erreicht hatInService, können Sie mit der Anmeldung bei den Clusterknoten beginnen. Informationen zum Zugriff auf die Clusterknoten und zum Starten der Ausführung von ML-Workloads finden Sie unterJobs auf SageMaker HyperPod Clustern ausführen.

Löschen Sie den Cluster und bereinigen Sie die Ressourcen

Nachdem Sie die Erstellung eines SageMaker HyperPod Clusters erfolgreich getestet haben, läuft er im InService Status weiter, bis Sie den Cluster löschen. Wir empfehlen, alle Cluster zu löschen, die mithilfe von SageMaker On-Demand-Instances erstellt wurden, wenn sie nicht verwendet werden, um zu vermeiden, dass weitere Servicegebühren aufgrund von On-Demand-Preisen anfallen. In diesem Tutorial haben Sie einen Cluster erstellt, der aus zwei Instanzgruppen besteht. Eine davon verwendet eine C5-Instance. Stellen Sie also sicher, dass Sie den Cluster löschen, indem Sie den Anweisungen unter Löschen Sie einen SageMaker HyperPod Cluster folgen.

Wenn Sie jedoch einen Cluster mit reservierter Rechenkapazität erstellt haben, hat der Status der Cluster keinen Einfluss auf die Serviceabrechnung.

Um die Lebenszyklusskripts aus dem für dieses Tutorial verwendeten S3-Bucket zu bereinigen, wechseln Sie zu dem S3-Bucket, den Sie bei der Clustererstellung verwendet haben, und entfernen Sie die Dateien vollständig.

Wenn Sie die Ausführung von Workloads auf dem Cluster getestet haben, stellen Sie sicher, dass Sie Daten hochgeladen haben oder ob Ihr Job Artefakte in verschiedenen S3-Buckets oder Dateisystemdiensten wie Amazon FSx for Lustre und Amazon Elastic File System gespeichert hat. Um Gebühren zu vermeiden, löschen Sie alle Artefakte und Daten aus dem Speicher- oder Dateisystem.