Instance-Typen für integrierte Algorithmen. - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Instance-Typen für integrierte Algorithmen.

Die meisten SageMaker KI-Algorithmen von Amazon wurden so entwickelt, dass sie GPU-Computing für das Training nutzen. Trotz der höheren Kosten pro Instanz sollten Sie schneller GPUs trainieren, was sie kostengünstiger macht. Ausnahmen sind in diesem Handbuch aufgeführt.

Weitere Informationen zu den unterstützten EC2 Instances finden Sie unter Instanzdetails.

Größe und Art von Daten können einen großen Einfluss darauf haben, welche Hardwarekonfiguration am effektivsten ist. Wenn dasselbe Modell wiederholt trainiert wird, können mit ersten Tests über ein Spektrum an Instance-Typen hinweg Konfigurationen ermittelt werden, die langfristig kostengünstiger sind. Darüber hinaus benötigen Algorithmen, die am effizientesten trainieren, GPUs möglicherweise GPUs keine effiziente Inferenz. Experimentieren Sie, um die kostengünstigste Lösung zu finden. Verwenden Sie Amazon SageMaker Inference Recommender, um eine automatische Instance-Empfehlung zu erhalten oder benutzerdefinierte Auslastungstests durchzuführen.

Weitere Informationen zu SageMaker KI-Hardwarespezifikationen finden Sie unter Amazon SageMaker AI ML-Instanztypen.

UltraServers

UltraServers verbinden Sie mehrere EC2 Amazon-Instances mithilfe einer Accelerator-Verbindung mit niedriger Latenz und hoher Bandbreite. Sie sind darauf ausgelegt, umfangreiche AI/ML Workloads zu bewältigen, die eine erhebliche Rechenleistung erfordern. Weitere Informationen finden Sie auf Amazon EC2 UltraServers. Informationen zu den ersten Schritten UltraServers finden Sie unter Trainingspläne für Ihre Schulungsjobs oder HyperPod -cluster reservieren.

Um mit Amazon SageMaker AI UltraServers zu beginnen, erstellen Sie einen Schulungsplan. Sobald Ihre im Schulungsplan verfügbar UltraServer ist, erstellen Sie einen Schulungsjob mit der AWS Management Console Amazon SageMaker AI-API oder AWS CLI. Denken Sie daran, den UltraServer Instance-Typ, den Sie gekauft haben, im Trainingsplan anzugeben.

An UltraServer kann einen oder mehrere Jobs gleichzeitig ausführen. UltraServers gruppiert Instanzen zusammen, was Ihnen eine gewisse Flexibilität bei der Zuteilung Ihrer UltraServer Kapazität in Ihrer Organisation bietet. Beachten Sie bei der Konfiguration Ihrer Jobs auch die Datenschutzrichtlinien Ihrer Organisation, da Instanzen in einer Instanz auf Daten für einen anderen Job in derselben UltraServer Instanz zugreifen UltraServer können.

Wenn Sie in der auf Hardwarefehler stoßen UltraServer, versucht SageMaker KI automatisch, das Problem zu lösen. Während SageMaker KI das Problem untersucht und behebt, erhalten Sie möglicherweise Benachrichtigungen und Aktionen über AWS Health Ereignisse oder. AWS -Support

Sobald dein Trainingsjob beendet ist, stoppt SageMaker KI die Instanzen, aber sie bleiben in deinem Trainingsplan verfügbar, sofern der Plan noch aktiv ist. Um eine Instanz auch nach Abschluss eines Jobs am UltraServer Laufen zu halten, kannst du verwaltete Warm-Pools verwenden.

Wenn Ihr Trainingsplan über genügend Kapazität verfügt, können Sie Trainingsjobs sogar für mehrere Aufgaben ausführen UltraServers. Standardmäßig umfasst jede UltraServer Instanz 18 Instanzen, die aus 17 Instanzen und einer Ersatzinstanz bestehen. Wenn Sie mehr Instances benötigen, müssen Sie mehr kaufen UltraServers. Wenn Sie einen Schulungsjob erstellen, können Sie UltraServers mithilfe des InstancePlacementConfig Parameters konfigurieren, wie Jobs platziert werden.

Wenn Sie die Stellenvermittlung nicht konfigurieren, SageMaker ordnet KI die Stellen automatisch Ihren Instanzen zu. UltraServer Diese Standardstrategie basiert auf einem Best-Effort-Prinzip, bei dem es darum geht, alle Instanzen in einer einzigen zu besetzen, UltraServer bevor eine andere verwendet wird. UltraServer Wenn Sie beispielsweise 14 Instanzen anfordern und 2 UltraServers in Ihrem Trainingsplan haben, verwendet SageMaker KI alle Instanzen der ersten Instanz. UltraServer Wenn du 20 Instanzen angefordert hast und 2 UltraServers in deinem Trainingsplan hast, verwendet SageMaker KI alle 17 Instanzen in der ersten Instanz UltraServer und dann 3 von der zweiten UltraServer. Instanzen innerhalb einer UltraServer Anwendung kommunizieren, einzelne UltraServers Benutzer verwenden NVLink jedoch den Elastic Fabric Adapter (EFA), was sich auf die Trainingsleistung des Modells auswirken kann.