Warum sollten Sie sich für EKS für KI/ML entscheiden?Wichtige Anwendungsfälle Fallstudien Beginnen Sie mit der Nutzung von Machine Learning auf EKS

Hilf mit, diese Seite zu verbessern

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Wenn Sie zu diesem Benutzerhandbuch beitragen möchten, wählen Sie den GitHub Link Diese Seite bearbeiten auf, der sich im rechten Bereich jeder Seite befindet.

Überblick über künstliche Intelligenz (KI) und Machine Learning (ML) auf Amazon EKS

Amazon Elastic Kubernetes Service (EKS) ist eine verwaltete Kubernetes-Plattform, die es Unternehmen ermöglicht, KI- und ML-Workloads (Machine Learning) mit beispielloser Flexibilität und Kontrolle bereitzustellen, zu verwalten und zu skalieren. EKS basiert auf dem Open-Source-Kubernetes-Ökosystem und ermöglicht es Ihnen, Ihr vorhandenes Kubernetes-Fachwissen zu nutzen und sich gleichzeitig nahtlos in Open-Source-Tools und -Services zu integrieren. AWS

Ganz gleich, ob Sie groß angelegte Modelle trainieren, Online-Inferenzen in Echtzeit ausführen oder generative KI-Anwendungen einsetzen, EKS bietet die Leistung, Skalierbarkeit und Kosteneffizienz, die Ihre Projekte erfordern. AI/ML

Warum sollten Sie sich für EKS für KI/ML entscheiden?

EKS ist eine verwaltete Kubernetes-Plattform, mit der Sie komplexe Workloads bereitstellen und verwalten können. AI/ML Sie basiert auf dem Open-Source-Kubernetes-Ökosystem, lässt sich in AWS Dienste integrieren und bietet so die Kontrolle und Skalierbarkeit, die für fortgeschrittene Projekte erforderlich sind. Für Teams, die mit AI/ML Implementierungen noch nicht vertraut sind, werden vorhandene Kubernetes-Fähigkeiten direkt übertragen, was eine effiziente Orchestrierung mehrerer Workloads ermöglicht.

EKS unterstützt alles, von Betriebssystemanpassungen bis hin zur Rechenskalierung, und seine Open-Source-Grundlage fördert technologische Flexibilität, sodass die Wahlmöglichkeiten für future Infrastrukturentscheidungen gewahrt bleiben. Die Plattform bietet die Leistung und die Optimierungsoptionen, die AI/ML Workloads benötigen, und unterstützt Funktionen wie:

Vollständige Clusterkontrolle zur Feinabstimmung von Kosten und Konfigurationen ohne versteckte Abstraktionen
Latenz von weniger als einer Sekunde für Inferenz-Workloads in Echtzeit in der Produktion
Erweiterte Anpassungen wie Multi-Instance- und Multi-Cloud-Strategien GPUs und Tuning auf Betriebssystemebene
Möglichkeit, Workloads mithilfe von EKS als einheitlichem Orchestrator für alle Pipelines zu zentralisieren AI/ML

Wichtige Anwendungsfälle

Amazon EKS bietet eine robuste Plattform für eine Vielzahl von AI/ML Workloads und unterstützt verschiedene Technologien und Bereitstellungsmuster:

(Online-) Inferenz in Echtzeit: EKS ermöglicht mithilfe von Tools wie Triton Inference Server und Amazon EC2 Inf1- und Inf2-Instances sofortige Vorhersagen zu eingehenden Daten TorchServe, z. B. zur Betrugserkennung, mit einer Latenz von weniger als KServeeiner Sekunde. Diese Workloads profitieren von der dynamischen Skalierung mit Karpenter und KEDA und nutzen gleichzeitig Amazon EFS für das modellübergreifende Sharding. Amazon ECR Pull Through Cache (PTC) beschleunigt Modellaktualisierungen, und Bottlerocket-Datenvolumes mit Amazon EBS-optimierten Volumes sorgen für schnellen Datenzugriff.
Allgemeines Modelltraining: Organizations nutzen EKS, um komplexe Modelle mit großen Datensätzen über längere Zeiträume zu trainieren, indem sie die Kubeflow Training Operator (KRO), Ray Serve und Torch Distributed Elastic auf Amazon EC2 P4d- und Amazon Trn1-Instances verwenden. EC2 Diese Workloads werden durch Batch-Planung mit Tools wie Volcano, Yunikorn und Kueue unterstützt. Amazon EFS ermöglicht die gemeinsame Nutzung von Modellprüfpunkten, und Amazon S3 verwaltet Modell import/export mit Lebenszyklusrichtlinien für die Versionsverwaltung.
RAG-Pipelines (Retrieval Augmented Generation): EKS verwaltet Chatbots und ähnliche Anwendungen für den Kundensupport, indem es Abruf- und Generierungsprozesse integriert. Diese Workloads verwenden häufig Tools wie Argo Workflows und Kubeflow für die Orchestrierung, Vektordatenbanken wie Pinecone, Weaviate oder Amazon und stellen Anwendungen Benutzern über den Application Load OpenSearch Balancer Controller (LBC) zur Verfügung. NVIDIA NIM optimiert die GPU-Auslastung, während Prometheus und Grafana die Ressourcennutzung überwachen.
Einsatz generativer KI-Modelle: Unternehmen setzen mithilfe von Ray Serve, vLLM und Triton Inference Server auf Amazon EC2 G5 - und Inferentia-Beschleunigern Dienste zur Erstellung von Inhalten in Echtzeit auf EKS ein, z. B. Text- oder Bildgenerierung. Diese Implementierungen optimieren die Leistung und die Speichernutzung für groß angelegte Modelle. JupyterHubermöglicht iterative Entwicklung, Gradio bietet einfache Weboberflächen und der S3 Mountpoint CSI-Treiber ermöglicht das Mounten von S3-Buckets als Dateisysteme für den Zugriff auf große Modelldateien.
Batch- (Offline-) Inferenz: Organizations verarbeiten große Datenmengen effizient durch geplante Jobs mit AWS Batch oder Volcano. Diese Workloads verwenden häufig Inf1- und EC2 Inf2-Instances für AWS Inferentia-Chips, Amazon EC2 G4dn-Instances für NVIDIA T4 oder c5- und c6i-CPU-Instances GPUs , wodurch die Ressourcennutzung außerhalb der Spitzenzeiten für Analyseaufgaben maximiert wird. Das AWS Neuron SDK und die NVIDIA-GPU-Treiber optimieren die Leistung und ermöglichen gleichzeitig die gemeinsame Nutzung von GPUs. MIG/TS Zu den Speicherlösungen gehören Amazon S3 und Amazon EFS sowie FSx für Lustre mit CSI-Treibern für verschiedene Speicherklassen. Das Modellmanagement nutzt Tools wie Kubeflow Pipelines, Argo Workflows und Ray Cluster, während die Überwachung von Prometheus, Grafana und benutzerdefinierten Modellüberwachungstools übernommen wird.

Fallstudien

Kunden entscheiden sich aus verschiedenen Gründen für Amazon EKS, z. B. um die GPU-Nutzung zu optimieren oder Inferenz-Workloads in Echtzeit mit Latenz unter einer Sekunde auszuführen, wie in den folgenden Fallstudien gezeigt wird. Eine Liste aller Fallstudien für Amazon EKS finden Sie unter AWS Kundenerfolgsgeschichten.

Unitary verarbeitet täglich 26 Millionen Videos mithilfe von KI für die Moderation von Inhalten, was Inferenzen mit hohem Durchsatz und geringer Latenz erfordert, und hat die Startzeiten von Containern um 80% reduziert, sodass bei schwankendem Datenverkehr schnell auf Skalierungsereignisse reagiert werden kann.
Miro, die Plattform für visuelle Zusammenarbeit, die 70 Millionen Benutzer weltweit unterstützt, verzeichnete eine Senkung der Rechenkosten um 80% im Vergleich zu ihren früheren selbstverwalteten Kubernetes-Clustern.
Synthesia, das generative KI-Videoerstellung als Service für Kunden anbietet, um realistische Videos anhand von Textansagen zu erstellen, erzielte eine 30-fache Verbesserung des Durchsatzes beim Training mit ML-Modellen.
Harri , Anbieter von HR-Technologie für das Gastgewerbe, erzielte als Reaktion auf Nachfragespitzen eine um 90% schnellere Skalierung und senkte seine Rechenkosten durch die Migration auf Graviton-Prozessoren um 30%.AWS
Ada Support, ein KI-gestütztes Unternehmen für Kundenservice-Automatisierung, erzielte eine Senkung der Rechenkosten um 15% bei gleichzeitiger Steigerung der Recheneffizienz um 30%.
Snorkel AI, das Unternehmen in die Lage versetzt, Basismodelle und umfangreiche Sprachmodelle zu entwickeln und anzupassen, erzielte durch die Implementierung intelligenter Skalierungsmechanismen für ihre GPU-Ressourcen Kosteneinsparungen von über 40%

Beginnen Sie mit der Nutzung von Machine Learning auf EKS

Um mit der Planung und Nutzung von Plattformen und Workloads für Machine Learning auf EKS in der AWS Cloud zu beginnen, fahren Sie mit dem Ressourcen für den Einstieg in AI/ML Amazon EKS Abschnitt fort.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Knoten

Echtzeit-Inferenz