Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Inferenzoptimierung für SageMaker Amazon-KI-Modelle

Fokusmodus
Inferenzoptimierung für SageMaker Amazon-KI-Modelle - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Mit Amazon SageMaker AI können Sie die Leistung Ihrer generativen KI-Modelle verbessern, indem Sie Techniken zur Inferenzoptimierung anwenden. Durch die Optimierung Ihrer Modelle können Sie ein besseres Preis-Leistungs-Verhältnis für Ihren Anwendungsfall erzielen. Wenn Sie ein Modell optimieren, wählen Sie aus, welche der unterstützten Optimierungstechniken angewendet werden sollen, einschließlich Quantisierung, spekulativer Dekodierung und Kompilierung. Nachdem Ihr Modell optimiert wurde, können Sie eine Evaluierung durchführen, um Leistungskennzahlen für Latenz, Durchsatz und Preis einzusehen.

Für viele Modelle bietet SageMaker KI auch mehrere voroptimierte Versionen, von denen jede auf unterschiedliche Anwendungsanforderungen in Bezug auf Latenz und Durchsatz zugeschnitten ist. Für solche Modelle können Sie eine der optimierten Versionen bereitstellen, ohne das Modell zuerst selbst zu optimieren.

Optimierungstechniken

Amazon SageMaker AI unterstützt die folgenden Optimierungstechniken.

Kompilierung

Durch die Kompilierung wird das Modell für die beste verfügbare Leistung auf dem ausgewählten Hardwaretyp optimiert, ohne dass die Genauigkeit darunter leidet. Sie können die Modellkompilierung anwenden, um LLMs für beschleunigte Hardware wie GPU-Instanzen, AWS Trainium-Instanzen oder AWS Inferentia-Instanzen zu optimieren.

Wenn Sie ein Modell durch Kompilierung optimieren, profitieren Sie von der Kompilierung. ahead-of-time Sie reduzieren die Bereitstellungszeit des Modells und die Latenz für die auto-scaling, da die Modellgewichte nicht just-in-time kompiliert werden müssen, wenn das Modell auf einer neuen Instanz bereitgestellt wird.

Wenn Sie Ihr Modell für eine GPU-Instanz kompilieren möchten, verwendet SageMaker AI die TensorRT-LLM-Bibliothek, um die Kompilierung auszuführen. Wenn Sie Ihr Modell für eine AWS Trainium- oder AWS Inferentia-Instanz kompilieren möchten, verwendet SageMaker AI das Neuron SDK, um die Kompilierung auszuführen. AWS

Quantisierung

Die Quantisierung ist eine Technik zur Reduzierung der Hardwareanforderungen eines Modells, indem ein weniger genauer Datentyp für Gewichtungen und Aktivierungen verwendet wird. Nachdem Sie ein Modell mit Quantisierung optimiert haben, können Sie es auf einer kostengünstigeren und verfügbareren Version hosten. GPUs Das quantisierte Modell ist jedoch möglicherweise weniger genau als das Quellmodell, das Sie optimiert haben.

Die Datenformate, die SageMaker KI für die Quantisierung unterstützt, variieren von Modell zu Modell. Zu den unterstützten Formaten gehören die folgenden:

  • INT4-AWQ — Ein 4-Bit-Datenformat. Bei der aktivierungsorientierten Gewichtsquantisierung (AWQ) handelt es sich um ein effizientes, genaues, niedriges Bit- und nur LLMs gewichtsabhängiges Quantisierungsverfahren.

  • FP8 — 8-Bit-Fließkommazahl (FP8) ist ein Format mit niedriger Genauigkeit für Fließkommazahlen. Es sorgt für ein ausgewogenes Verhältnis zwischen Speichereffizienz und Modellgenauigkeit, indem es Werte mit weniger Bits als das FP16 Standard-Fließkommaformat darstellt.

  • INT8- SmoothQuant — Ein 8-Bit-Datenformat. SmoothQuant ist eine Quantisierungsmethode mit gemischter Genauigkeit, bei der Aktivierungen und Gewichtungen gemeinsam skaliert werden, indem ihre Dynamikbereiche ausgeglichen werden.

Spekulative Dekodierung

Die spekulative Dekodierung ist eine Technik, um den Dekodierungsprozess großer Datenmengen zu beschleunigen. LLMs Sie optimiert Modelle im Hinblick auf die Latenz, ohne die Qualität des generierten Textes zu beeinträchtigen.

Bei dieser Technik wird ein kleineres, aber schnelleres Modell verwendet, das als Entwurfsmodell bezeichnet wird. Das Entwurfsmodell generiert Kandidaten-Token, die dann durch das größere, aber langsamere Zielmodell validiert werden. Bei jeder Iteration generiert das Entwurfsmodell mehrere Kandidaten-Token. Das Zielmodell überprüft die Token, und wenn es feststellt, dass ein bestimmtes Token nicht akzeptabel ist, lehnt es das Token ab und generiert es neu. Das Zielmodell verifiziert also sowohl Token als auch generiert eine kleine Menge davon.

Das Entwurfsmodell ist deutlich schneller als das Zielmodell. Es generiert alle Token schnell und sendet dann stapelweise davon zur Überprüfung an das Zielmodell. Das Zielmodell wertet sie alle parallel aus, was die endgültige Antwort beschleunigt.

SageMaker KI bietet einen vorgefertigten Modellentwurf, den Sie verwenden können, sodass Sie kein eigenes Modell erstellen müssen. Wenn Sie es vorziehen, Ihr eigenes benutzerdefiniertes Entwurfsmodell zu verwenden, unterstützt SageMaker AI auch diese Option.

Schnelles Laden des Modells

Die Technik zum schnellen Laden von Modellen bereitet ein LLM so vor, dass SageMaker KI es schneller auf eine ML-Instanz laden kann.

Um das Modell vorzubereiten, teilt SageMaker KI es im Voraus auf, indem sie es in Teile unterteilt, die sich jeweils auf einer separaten GPU befinden können, um verteilte Inferenzen zu ermöglichen. Außerdem speichert SageMaker KI die Modellgewichte in gleich großen Blöcken, die SageMaker KI gleichzeitig auf die Instanz laden kann.

Wenn SageMaker KI das optimierte Modell auf die Instance lädt, streamt es die Modellgewichte direkt von Amazon S3 auf die GPUs Instance. Durch das Streamen der Gewichte SageMaker überspringt KI mehrere zeitaufwändige Schritte, die normalerweise notwendig sind. Zu diesen Schritten gehören das Herunterladen der Modellartefakte von Amazon S3 auf die Festplatte, das Laden der Modellartefakte in den Host-Speicher und das Sharding des Modells auf dem Host, bevor die Shards schließlich auf den geladen werden. GPUs

Nachdem Sie Ihr Modell für schnelleres Laden optimiert haben, können Sie es schneller auf einem SageMaker KI-Endpunkt bereitstellen. Wenn Sie den Endpunkt für die Verwendung von Auto Scaling konfigurieren, wird er außerdem schneller skaliert, um dem Anstieg des Datenverkehrs Rechnung zu tragen.

Auf dieser Seite

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.