Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
In Amazon SageMaker Studio können Sie zu einem Ihrer HyperPodCluster in Clustern (unter Compute) navigieren und Ihre Clusterliste einsehen. Die angezeigten Cluster enthalten Informationen wie Aufgaben, Hardwaremetriken, Einstellungen und Metadatendetails. Diese Transparenz kann Ihrem Team helfen, den richtigen Kandidaten für Ihre Workloads vor der Schulung oder Feinabstimmung zu finden. Die folgenden Abschnitte enthalten Informationen zu den einzelnen Informationstypen.
Aufgaben
Amazon SageMaker HyperPod bietet einen Überblick über Ihre Cluster-Aufgaben. Aufgaben sind Operationen oder Jobs, die an den Cluster gesendet werden. Dabei kann es sich um Operationen des maschinellen Lernens wie Training, Durchführung von Experimenten oder Inferenz handeln. Der folgende Abschnitt enthält Informationen zu Ihren HyperPod Cluster-Aufgaben.
In Amazon SageMaker Studio können Sie zu einem Ihrer HyperPodCluster in Clustern (unter Compute) navigieren und die Aufgabeninformationen in Ihrem Cluster anzeigen. Falls Sie Probleme beim Anzeigen von Aufgaben haben, finden Sie weitere Informationen unterFehlerbehebung.
Die Aufgabentabelle umfasst:
Für Slurm-Cluster werden die Aufgaben, die sich derzeit in der Slurm-Job-Scheduler-Warteschlange befinden, in der Tabelle angezeigt. Zu den Informationen, die für jede Aufgabe angezeigt werden, gehören der Name der Aufgabe, der Status, die Job-ID, die Partition, die Laufzeit, die Knoten, die von erstellt wurden, und die Aktionen.
Eine Liste und Details zu vergangenen Jobs erhalten Sie, wenn Sie den sacct
sacct
Befehl wird verwendet, um historische Informationen über Jobs anzuzeigen, die im System abgeschlossen oder abgeschlossen wurden. Er stellt Abrechnungsinformationen bereit, einschließlich der Nutzung von Jobressourcen wie Speicher und Exit-Status.
Standardmäßig können alle Studio-Benutzer alle verfügbaren Slurm-Aufgaben anzeigen, verwalten und mit ihnen interagieren. Informationen zur Beschränkung der sichtbaren Aufgaben auf Studio-Benutzer finden Sie unterBeschränken Sie die Aufgabenansicht in Studio für Slurm-Cluster.
Metriken
Amazon SageMaker HyperPod bietet einen Überblick über Ihre Slurm- oder Amazon EKS-Cluster-Nutzungsmetriken. Im Folgenden finden Sie Informationen zu Ihren HyperPod Cluster-Metriken.
Sie müssen das Amazon EKS-Add-on installieren, um die folgenden Metriken anzeigen zu können. Weitere Informationen finden Sie unter Installieren des Amazon CloudWatch Observability EKS-Add-ons.
In Amazon SageMaker Studio können Sie zu einem Ihrer HyperPodCluster in Clustern (unter Compute) navigieren und die Metrikdetails zu Ihrem Cluster einsehen. Metrics bietet einen umfassenden Überblick über die Metriken zur Cluster-Auslastung, einschließlich Hardware-, Team- und Aufgabenmetriken. Dazu gehören die Verfügbarkeit und Nutzung von Rechenleistung, Teamzuweisung und -auslastung sowie Informationen zur Ausführung und Wartezeit von Aufgaben.
Einstellungen
Amazon SageMaker HyperPod bietet eine Ansicht Ihrer Cluster-Einstellungen. Im Folgenden finden Sie Informationen zu Ihren HyperPod Cluster-Einstellungen.
In Amazon SageMaker Studio können Sie zu einem Ihrer HyperPodCluster in Clustern (unter Compute) navigieren und die Einstellungsinformationen zu Ihrem Cluster einsehen. Die Informationen beinhalten Folgendes:
-
Instanzdetails, einschließlich Instanz-ID, Status, Instanztyp und Instanzgruppe
-
Details zu Instanzgruppen, einschließlich Name, Typ, Anzahl und Recheninformationen der Instanzgruppe
-
Einzelheiten zur Orchestrierung, einschließlich Orchestrator, Version und Zertifizierungsstelle
-
Einzelheiten zur Cluster-Resilienz
-
Sicherheitsdetails, einschließlich Subnetze und Sicherheitsgruppen
Details
Amazon SageMaker HyperPod bietet eine Ansicht Ihrer Cluster-Metadatendetails. Der folgende Abschnitt enthält Informationen darüber, wie Sie Ihre HyperPod Clusterdetails abrufen können.
In Amazon SageMaker Studio können Sie zu einem Ihrer HyperPodCluster in Clustern (unter Compute) navigieren und die Details zu Ihrem Cluster anzeigen. Dazu gehören die Tags, Protokolle und Metadaten.