Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Voraussetzungen für die Verwendung von SageMaker HyperPod
In den folgenden Abschnitten werden die Voraussetzungen beschrieben, bevor Sie damit beginnen SageMaker HyperPod.
Themen
SageMaker HyperPod Kontingente
Sie können SageMaker HyperPod Cluster erstellen, wenn Sie die Kontingente für die Clusternutzung in Ihrem AWS Konto berücksichtigen.
Wichtig
Weitere Informationen zur SageMaker HyperPod Preisgestaltung finden Sie unter SageMaker HyperPod Preisgestaltung Amazon SageMaker AI Pricing
SageMaker HyperPodAmazon-Kontingente anzeigen mit dem AWS Management Console
Suchen Sie nach den Standardwerten und den angewendeten Werten eines Kontingents, das auch als Limit bezeichnet wird, für die Cluster-Nutzung SageMaker HyperPod.
-
Öffnen Sie die Service Quotas -Konsole
. -
Wählen Sie im linken Navigationsbereich AWS services aus.
-
Suchen Sie in der AWS Serviceliste nach Amazon SageMaker AI und wählen Sie es aus.
-
In der Liste der Servicekontingente finden Sie den Namen des Servicekontingents, den angewendeten Wert (falls verfügbar), das AWS Standardkontingent und ob der Kontingentwert anpassbar ist.
-
Geben Sie in der Suchleiste Cluster-Nutzung ein. Hier werden die Kontingente für die Cluster-Nutzung, die angewendeten Kontingente und die Standardkontingente angezeigt.
Beantragen Sie eine Erhöhung des SageMaker HyperPod Amazon-Kontingents mit dem AWS Management Console
Erhöhen Sie Ihre Kontingente auf Konto- oder Ressourcenebene.
-
Um das Kontingent der Instances für die Cluster-Nutzung zu erhöhen, wählen Sie das Kontingent aus, das Sie erhöhen möchten.
-
Wenn das Kontingent anpassbar ist, können Sie eine Erhöhung des Kontingents entweder auf Konto- oder Ressourcenebene beantragen, basierend auf dem Wert, der in der Spalte Einstellbarkeit aufgeführt ist.
-
Geben Sie unter Kontingentwert erhöhen den neuen Wert ein. Der neue Wert muss größer als der aktuelle Wert sein.
-
Wählen Sie Request (Anfrage).
-
Um ausstehende oder kürzlich gelöste Anfragen in der Konsole anzuzeigen, navigieren Sie auf der Detailseite des Dienstes zur Registerkarte Anforderungsverlauf oder wählen Sie im Navigationsbereich Dashboard aus. Wählen Sie für ausstehende Anfragen den Status der Anfrage, um die Anfrage zu öffnen. Der Anfangsstatus einer Anfrage ist Pending (Ausstehend). Nachdem sich der Status in „Kontingent angefordert“ geändert hat, wird die Fallnummer mit angezeigt AWS -Support. Wählen Sie die Fallnummer, um das Ticket für Ihre Anfrage zu öffnen.
Weitere Informationen zur Beantragung einer Kontingenterhöhung im Allgemeinen finden Sie unter Beantragung einer Kontingenterhöhung im AWS Servicekontingents-Benutzerhandbuch.
Einrichtung SageMaker HyperPod mit einer benutzerdefinierten Amazon VPC
Um einen SageMaker HyperPod Cluster mit einer benutzerdefinierten Amazon VPC einzurichten, überprüfen Sie die folgenden Voraussetzungen.
Anmerkung
Die VPC-Konfiguration ist für die Amazon EKS-Orchestrierung obligatorisch. Für die Slurm-Orchestrierung ist das VPC-Setup optional.
-
Überprüfen Sie die Elastic Network Interface (ENI) -Kapazität in Ihrem, AWS-Konto bevor Sie einen SageMaker HyperPod Cluster mit einer benutzerdefinierten VPC erstellen. Das ENI-Limit wird von Amazon kontrolliert EC2 und variiert je nach AWS-Region. SageMaker HyperPod kann nicht automatisch Kontingenterhöhungen beantragen.
So überprüfen Sie Ihr aktuelles ENI-Kontingent:
-
Öffnen Sie die Service Quotas -Konsole
. -
Verwenden Sie im Abschnitt Kontingente verwalten die Dropdownliste AWS Dienste, um nach VPC zu suchen.
-
Wählen Sie, ob Sie die Kontingente von Amazon Virtual Private Cloud (Amazon VPC) anzeigen möchten.
-
Suchen Sie nach der Servicequote, den Netzwerkschnittstellen pro Region oder dem Kontingentcode.
L-DF5E4CA3
Wenn Ihr derzeitiges ENI-Limit für Ihre SageMaker HyperPod Cluster-Anforderungen nicht ausreicht, fordern Sie eine Erhöhung des Kontingents an. Wenn Sie im Voraus eine ausreichende ENI-Kapazität sicherstellen, können Sie Ausfälle bei der Cluster-Bereitstellung vermeiden.
-
-
Wenn Sie eine benutzerdefinierte VPC verwenden, um einen SageMaker HyperPod Cluster mit AWS Ressourcen zu verbinden, geben Sie IDs bei der Clustererstellung den VPC-Namen, die ID AWS-Region, das Subnetz IDs und die Sicherheitsgruppe an.
Anmerkung
Wenn Ihre Amazon VPC und Subnetze auf Cluster- oder Instance-Gruppenebene mithilfe
VPCConfig
desOverrideVPCConfig
Attributs von unterstützen IPv6ClusterInstanceGroupSpecification
, unterscheidet sich die Netzwerkkommunikation je nach Cluster-Orchestrierungsplattform:-
Slurm-orchestrierte Cluster konfigurieren automatisch Knoten mit dualen Adressen IPv6 und IPv4 ermöglichen so eine sofortige Netzwerkkommunikation. IPv6 Neben den Einstellungen ist keine zusätzliche Konfiguration erforderlich.
VPCConfig
IPv6 -
In EKS-orchestrierten Clustern erhalten Knoten eine Dual-Stack-Adressierung, aber Pods können nur verwendet werden, IPv6 wenn der Amazon EKS-Cluster explizit aktiviert ist. IPv6 Sie müssen einen neuen IPv6 Amazon EKS-Cluster erstellen. Bestehende IPv4 Amazon EKS-Cluster können nicht konvertiert werden IPv6. Informationen zur Bereitstellung eines IPv6 Amazon EKS-Clusters finden Sie unter Amazon EKS IPv6 Cluster-Bereitstellung.
Zusätzliche Ressourcen für die IPv6 Konfiguration:
-
Informationen zum Hinzufügen von IPv6 Unterstützung zu Ihrer VPC finden Sie unter IPv6 Support für VPC.
-
Informationen zum Erstellen einer neuen IPv6 -kompatiblen VPC finden Sie im Amazon VPC Creation Guide.
-
Informationen zur Konfiguration SageMaker HyperPod mit einer benutzerdefinierten Amazon VPC finden Sie unter Benutzerdefiniertes Amazon VPC-Setup für. SageMaker HyperPod
-
-
Stellen Sie sicher, dass alle Ressourcen im gleichen AWS-Region Cluster bereitgestellt werden. SageMaker HyperPod Konfigurieren Sie Sicherheitsgruppenregeln, um die Kommunikation zwischen Ressourcen innerhalb der VPC zu ermöglichen. Wenn Sie beispielsweise eine VPC in erstellen
us-west-2
, Subnetze in einer oder mehreren Availability Zones (z. B.us-west-2a
oderus-west-2b
) bereitstellen und eine Sicherheitsgruppe erstellen, die gruppeninternen Datenverkehr ermöglicht.Anmerkung
SageMaker HyperPod unterstützt die Bereitstellung in mehreren Availability Zones. Weitere Informationen finden Sie unter Einrichtung von Clustern über mehrere SageMaker HyperPod AZs.
-
Stellen Sie Amazon Simple Storage Service (Amazon S3) Konnektivität für von VPC bereitgestellte SageMaker HyperPod Instanzgruppen her, indem Sie einen VPC-Endpunkt erstellen. Ohne Internetzugang können Instance-Gruppen keine Lebenszyklus-Skripts, Trainingsdaten oder Modellartefakte speichern oder abrufen. Wir empfehlen Ihnen, eine benutzerdefinierte IAM-Richtlinie zu erstellen, die den Zugriff des Amazon S3 S3-Buckets auf die private VPC einschränkt. Weitere Informationen finden Sie im AWS PrivateLink Handbuch unter Endpoints for Amazon S3.
-
Für HyperPod Cluster, die Elastic Fabric Adapter (EFA) -fähige Instances verwenden, konfigurieren Sie die Sicherheitsgruppe so, dass der gesamte ein- und ausgehende Datenverkehr zur und von der Sicherheitsgruppe selbst zugelassen wird. Vermeiden Sie insbesondere die Verwendung von Regeln
0.0.0.0/0
für ausgehenden Datenverkehr, da dies dazu führen kann, dass die EFA-Zustandsprüfung fehlschlägt. Weitere Informationen zu den Richtlinien zur Vorbereitung von EFA-Sicherheitsgruppen finden Sie unter Schritt 1: Vorbereiten einer EFA-fähigen Sicherheitsgruppe im EC2 Amazon-Benutzerhandbuch.
Einrichtung von Clustern über mehrere SageMaker HyperPod AZs
Sie können Ihre SageMaker HyperPod Cluster für mehrere Availability Zones (AZs) konfigurieren, um die Zuverlässigkeit und Verfügbarkeit zu verbessern.
Anmerkung
Elastic Fabric Adapter (EFA) -Datenverkehr kann AZs oder VPCs nicht überqueren. Dies gilt nicht für normalen IP-Verkehr vom ENA-Gerät einer EFA-Schnittstelle. Weitere Informationen finden Sie unter EFA-Einschränkungen.
-
Standardverhalten
HyperPod stellt alle Clusterinstanzen in einer einzigen Availability Zone bereit. Die VPC-Konfiguration bestimmt die Bereitstellung AZ:
-
Für SLURM-orchestrierte Cluster ist die VPC-Konfiguration optional. Wenn keine VPC-Konfiguration bereitgestellt wird, wird HyperPod standardmäßig ein Subnetz von der Plattform-VPC verwendet.
-
Für EKS-orchestrierte Cluster ist eine VPC-Konfiguration erforderlich.
-
Sowohl für Slurm- als auch für EKS-Orchestratoren HyperPod wählt, sofern
VpcConfig
verfügbar, ein Subnetz aus der Subnetzliste des Anbieters aus.VpcConfig
Alle Instanzgruppen erben die AZ des Subnetzes.
Anmerkung
Sobald Sie einen Cluster erstellt haben, können Sie seine
VpcConfig
Einstellungen nicht mehr ändern.Weitere Informationen VPCs zur Konfiguration von HyperPod Clustern finden Sie im vorherigen Abschnitt,Einrichtung SageMaker HyperPod mit einer benutzerdefinierten Amazon VPC.
-
-
Multi-AZ-Konfiguration
Sie können Ihren HyperPod Cluster für mehrere Cluster einrichten, AZs wenn Sie einen Cluster erstellen oder wenn Sie einem vorhandenen Cluster eine neue Instanzgruppe hinzufügen. Um Multi-AZ-Bereitstellungen zu konfigurieren, können Sie die VPC-Standardeinstellungen des Clusters überschreiben, indem Sie für einzelne Instanzgruppen innerhalb Ihres Clusters unterschiedliche Subnetze und Sicherheitsgruppen angeben, möglicherweise über verschiedene Availability Zones hinweg.
SageMaker HyperPod API-Benutzer können die
OverrideVpcConfig
Eigenschaft innerhalb von verwenden, ClusterInstanceGroupSpecificationwenn sie mit dem oder arbeiten.CreateCluster
UpdateCluster
APIsDas
OverrideVpcConfig
Feld:-
Kann nicht geändert werden, nachdem die Instanzgruppe erstellt wurde.
-
Ist optional. Wenn nicht angegeben,
VpcConfig
wird die Clusterebene als Standard verwendet. -
Kann für Slurm-orchestrierte Cluster nur angegeben werden, wenn die Clusterebene angegeben ist.
VpcConfig
Wenn auf Clusterebene kein angegebenVpcConfig
ist,OverrideVpcConfig
kann es für keine Instanzgruppe verwendet werden. -
Enthält zwei Pflichtfelder:
-
Subnets
- akzeptiert zwischen 1 und 16 Subnetze IDs -
SecurityGroupIds
- akzeptiert zwischen 1 und 5 Sicherheitsgruppen IDs
-
Weitere Informationen zum Erstellen oder Aktualisieren eines SageMaker HyperPod Clusters über die Benutzeroberfläche der SageMaker HyperPod Konsole oder über AWS CLI:
-
Slurm-Orchestrierung: Siehe Betrieb von HyperPod Slurm-orchestrierten Clustern.
-
EKS-Orchestrierung. Siehe Betrieb von HyperPod EKS-orchestrierten Clustern.
-
Anmerkung
Wenn Sie Workloads über mehrere ausführen, sollten Sie sich bewusst sein AZs, dass die Netzwerkkommunikation zwischen AZs diesen zu zusätzlicher Latenz führt. Berücksichtigen Sie diese Auswirkungen bei der Entwicklung latenzempfindlicher Anwendungen.
Einrichtung AWS Systems Manager und Ausführung als für die Cluster-Benutzerzugriffskontrolle
SageMaker HyperPod DLAMIist standardmäßig mit AWS Systems Manager
Anmerkung
Wenn Benutzern Zugriff auf HyperPod Clusterknoten gewährt wird, können sie benutzerverwaltete Software auf den Knoten installieren und ausführen. Stellen Sie sicher, dass Sie das Prinzip der Berechtigungen mit den geringsten Rechten für Benutzer beibehalten.
Aktivieren Sie „Ausführen als“ in Ihrem Konto AWS
Als AWS Kontoadministrator oder Cloud-Administrator können Sie den Zugriff auf SageMaker HyperPod Cluster auf IAM-Rollen- oder Benutzerebene verwalten, indem Sie die Funktion „Ausführen als“ in SSM verwenden. Mit dieser Funktion können Sie jede SSM-Sitzung mit dem Betriebssystembenutzer starten, der der IAM-Rolle oder dem IAM-Benutzer zugeordnet ist.
Um Run As in Ihrem AWS Konto zu aktivieren, folgen Sie den Schritten unter Run As-Unterstützung für verwaltete Linux- und macOS-Nodes aktivieren. Wenn Sie bereits Betriebssystembenutzer in Ihrem Cluster erstellt haben, stellen Sie sicher, dass Sie sie IAM-Rollen oder -Benutzern zuordnen, indem Sie sie wie in Option 2 von Schritt 5 unter So aktivieren Sie „Als ausführen“ für verwaltete Linux- und macOS-Nodes beschrieben taggen.
(Optional) Einrichtung SageMaker HyperPod mit Amazon FSx for Lustre
Um mit der Verwendung SageMaker HyperPod und Zuordnung von Datenpfaden zwischen dem Cluster und Ihrem FSx for Lustre-Dateisystem zu beginnen, wählen Sie einen der AWS-Regionen unterstützten von. SageMaker HyperPod Nachdem AWS-Region Sie die von Ihnen bevorzugte ausgewählt haben, sollten Sie auch festlegen, welche Availability Zone (AZ) Sie verwenden möchten.
Wenn Sie SageMaker HyperPod Rechenknoten an einem AZs anderen Ort als AZs dem verwenden, an dem Ihr FSx for Lustre-Dateisystem eingerichtet ist AWS-Region, kann es zu Kommunikations- und Netzwerkaufwand kommen. Wir empfehlen Ihnen, dieselbe physische AZ wie die für das SageMaker HyperPod Dienstkonto zu verwenden, um AZ-übergreifenden Verkehr zwischen SageMaker HyperPod Clustern und Ihrem FSx for Lustre-Dateisystem zu vermeiden. Stellen Sie außerdem sicher, dass Sie es mit Ihrer VPC konfiguriert haben. Wenn Sie Amazon FSx als Hauptdateisystem für die Speicherung verwenden möchten, müssen Sie SageMaker HyperPod Cluster mit Ihrer VPC konfigurieren.