Ressourcen für den Einstieg in AI/ML Amazon EKS - Amazon EKS

Hilf mit, diese Seite zu verbessern

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Wenn Sie zu diesem Benutzerhandbuch beitragen möchten, wählen Sie den GitHub Link Diese Seite bearbeiten auf, der sich im rechten Bereich jeder Seite befindet.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ressourcen für den Einstieg in AI/ML Amazon EKS

Um in Machine Learning auf EKS einzusteigen, wählen Sie zunächst eines dieser präskriptiven Muster aus, um schnell einen EKS-Cluster sowie ML-Software und -Hardware für die Ausführung von ML-Workloads vorzubereiten.

Workshops

Workshop „Generative KI auf Amazon EKS“

Erfahren Sie, wie Sie mit Large Language Model (LLM) -Anwendungen und Inferenz auf Amazon EKS beginnen können. Erfahren Sie, wie Sie LLM-Workloads in Produktionsqualität bereitstellen und verwalten können. In praktischen Übungen erfahren Sie, wie Sie Amazon EKS zusammen mit AWS Services und Open-Source-Tools nutzen können, um robuste LLM-Lösungen zu entwickeln. Die Workshop-Umgebung bietet die gesamte notwendige Infrastruktur und Tools, sodass Sie sich auf das Lernen und die Implementierung konzentrieren können.

Generative KI auf Amazon EKS mit Neuron

Erfahren Sie, wie Sie mit Large Language Model (LLM) -Anwendungen und Inferenz auf Amazon EKS beginnen können. Erfahren Sie, wie Sie LLM-Workloads in Produktionsqualität bereitstellen und verwalten, erweiterte RAG-Muster mit Vektordatenbanken implementieren und datengestützte LLM-Anwendungen mithilfe von Open-Source-Frameworks erstellen. In praktischen Übungen erfahren Sie, wie Sie Amazon EKS zusammen mit AWS Services und Open-Source-Tools nutzen können, um robuste LLM-Lösungen zu entwickeln. Die Workshop-Umgebung bietet die gesamte notwendige Infrastruktur und Tools, sodass Sie sich auf das Lernen und die Implementierung konzentrieren können.

Bewährte Methoden

Die AI/ML Schwerpunktthemen im Amazon EKS Best Practices-Leitfaden enthalten detaillierte Empfehlungen zu den folgenden Bereichen zur Optimierung Ihrer AI/ML Workloads auf Amazon EKS.

KI/ML-Berechnung und Autoscaling

In diesem Abschnitt werden bewährte Methoden für die Optimierung von AI/ML Rechenleistung und Autoscaling in Amazon EKS beschrieben, wobei der Schwerpunkt auf GPU-Ressourcenmanagement, Knotenstabilität und Anwendungsskalierung liegt. Er bietet Strategien wie die Planung von Workloads mit bekannten Labels und Knotenaffinität, die Verwendung von ML-Kapazitätsblöcken oder On-Demand-Kapazitätsreservierungen und die Implementierung von Knotenzustandsprüfungen mit Tools wie dem EKS Node Monitoring Agent.

KI/ML-Netzwerke

In diesem Abschnitt werden bewährte Methoden für die Optimierung von AI/ML Netzwerken in Amazon EKS zur Verbesserung von Leistung und Skalierbarkeit beschrieben, darunter Strategien wie die Auswahl von Instances mit höherer Netzwerkbandbreite oder Elastic Fabric Adapter (EFA) für verteilte Schulungen, die Installation von Tools wie MPI und NCCL und die Aktivierung der Präfix-Delegierung zur Erhöhung der IP-Adressen und zur Verbesserung der Pod-Startzeiten.

KI/ML-Sicherheit

Dieser Abschnitt konzentriert sich auf die Sicherung der Datenspeicherung und die Einhaltung der Vorschriften für AI/ML Workloads auf Amazon EKS, einschließlich Praktiken wie der Verwendung von Amazon S3 mit AWS Key Management Service (KMS) für die serverseitige Verschlüsselung (SSE-KMS), die Konfiguration von Buckets mit regionalen KMS-Schlüsseln und S3-Bucket-Keys zur Kostensenkung, die Erteilung von IAM-Berechtigungen für KMS-Aktionen wie die Entschlüsselung von EKS-Pods und die Prüfung anhand von Protokollen. AWS CloudTrail

KI/ML-Speicher

Dieser Abschnitt enthält bewährte Methoden für die Optimierung des Speichers in AI/ML Workloads auf Amazon EKS, darunter Methoden wie die Bereitstellung von Modellen mit CSI-Treibern zur Bereitstellung von Diensten wie S3, FSx for Lustre oder EFS als persistente Volumes, die Auswahl von Speicher auf der Grundlage der Workload-Anforderungen (z. B. FSx für Lustre für verteilte Schulungen mit Optionen wie Scratch-SSD oder Persistent-SSD) und die Aktivierung von Funktionen wie Datenkomprimierung und Striping.

KI/ML-Beobachtbarkeit

Dieser Abschnitt konzentriert sich auf die Überwachung und Optimierung der GPU-Auslastung für AI/ML Workloads auf Amazon EKS, um die Effizienz zu verbessern und Kosten zu senken. Dazu gehören Strategien wie die Ausrichtung auf eine hohe GPU-Auslastung mit Tools wie CloudWatch Container Insights und dem DCGM-Exporter von NVIDIA, die in Prometheus und Grafana integriert sind, sowie Metriken, die wir Ihnen empfehlen, für Ihre Workloads zu analysieren. AI/ML

Leistung von KI/ML

Dieser Abschnitt konzentriert sich auf die Verbesserung der Anwendungsskalierung und -leistung für AI/ML Workloads auf Amazon EKS durch Container-Image-Management und Startoptimierung, einschließlich Praktiken wie der Verwendung kleiner, leichter Basis-Images oder AWS Deep Learning Containers mit mehrstufigen Builds, dem Vorladen von Images über EBS-Snapshots oder dem Pre-Pulling in den Runtime-Cache mithilfe von Deployments. DaemonSets

Referenzarchitekturen

In diesen GitHub Repositorys finden Sie Referenzarchitekturen, Beispielcode und Hilfsprogramme zur Implementierung verteilter Schulungen und Inferenzen für AI/ML Workloads auf Amazon EKS und anderen Services. AWS

AWSome Verteilte Schulungen

Dieses Repository bietet eine Sammlung von Best Practices, Referenzarchitekturen, Beispielen für Modellschulungen und Hilfsprogramme für das Training großer Modelle. AWS Es unterstützt verteilte Schulungen mit Amazon EKS, einschließlich CloudFormation Vorlagen für EKS-Cluster, benutzerdefinierte AMI- und Container-Builds, Testfälle für Frameworks wie PyTorch (DDP/FSDP, MegatronLM, NeMo) und JAX sowie Tools für Validierung, Beobachtbarkeit und Leistungsüberwachung wie EFA Prometheus Exporter und Nvidia Nsight Systems.

AWSome Inferenz

Dieses Repository bietet Referenzarchitekturen und Testfälle für die Optimierung von Inferenzlösungen AWS, wobei der Schwerpunkt auf Amazon EKS und beschleunigten EC2 Instances liegt. Es umfasst Infrastruktur-Setups für VPC- und EKS-Cluster, Projekte für Frameworks wie NVIDIA, TensorRT-LLM NIMs, Triton Inference Server und, mit Beispielen für Modelle wie Llama3-8B und Llama RayService 3.1 405B. Bietet Bereitstellungen auf mehreren Knoten mit K8s LeaderWorkerSet, EKS-Autoscaling, Multi-Instance (MIG) und reale Anwendungsfälle wie einen Audio-Bot für ASR, Inferenz und TTS GPUs .

Tutorials

Wenn Sie daran interessiert sind, Plattformen und Frameworks für Machine Learning in EKS einzurichten, schauen Sie sich die in diesem Abschnitt beschriebenen Tutorials an. Diese Tutorials decken alles ab, von Mustern für die optimale Nutzung von GPU-Prozessoren über die Auswahl von Modellierungstools bis hin zur Erstellung von Frameworks für spezielle Branchen.

Erstellen Sie generative KI-Plattformen auf EKS

Führen Sie spezielle generative KI-Frameworks auf EKS aus

Maximieren Sie die NVIDIA-GPU-Leistung für ML auf EKS

Führen Sie Videokodierungs-Workloads auf EKS aus

Beschleunigen Sie das Laden von Bildern für Inferenz-Workloads

Überwachung von ML-Workloads