Echtzeit-Inferenz

Echtzeit-Inferenz ist ideal für Inferenz-Workloads, bei denen interaktive Echtzeitanforderungen mit niedriger Latenz gestellt werden. Sie können Ihr Modell für SageMaker KI-Hosting-Dienste bereitstellen und einen Endpunkt erhalten, der für Inferenzen verwendet werden kann. Diese Endgeräte werden vollständig verwaltet und unterstützen Autoscaling (siehe Automatische Skalierung von Amazon SageMaker AI-Modellen).

Themen

Implementieren Sie Modelle für Inferenz in Echtzeit
Rufen Sie Modelle für Inferenz in Echtzeit auf
Endpunkte
Hosting-Optionen
Automatische Skalierung von Amazon SageMaker AI-Modellen
Instanz-Speichervolumen
Validierung von Modellen in der Produktion
Online-Erklärbarkeit mit Clarify SageMaker
Optimieren Sie Modelle mit Adapter-Inferenzkomponenten

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Beheben Sie Inference Recommender-Fehler

Stellen Sie Modelle bereit