Hilf mit, diese Seite zu verbessern
Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Wenn Sie zu diesem Benutzerhandbuch beitragen möchten, wählen Sie den GitHub Link Diese Seite bearbeiten auf, der sich im rechten Bereich jeder Seite befindet.
Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Ausführung von Online-Inferenz-Workloads in Echtzeit auf Amazon EKS
Dieser Abschnitt soll Ihnen helfen, Online-Inferenz-Workloads in Echtzeit auf Amazon Elastic Kubernetes Service (EKS) bereitzustellen und zu betreiben. Hier finden Sie Anleitungen zum Aufbau optimierter Cluster mit GPU-beschleunigten Knoten, zur Integration von AWS Services für Speicher und Autoscaling, zur Bereitstellung von Beispielmodellen für die Validierung und zu wichtigen architektonischen Überlegungen wie der Entkopplung von CPU- und GPU-Aufgaben, der Auswahl geeigneter Instance-Typen und der Sicherstellung der Verfügbarkeit von Inferenzendpunkten mit geringer AMIs Latenz.