Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Unterstützung fü FlashAttention

Fokusmodus
Unterstützung fü FlashAttention - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Support für FlashAttention ist eine Funktion der Bibliothek, die nur für das verteilte Transformer-Modell gilt, bei dem es sich um ein Transformer-Modell handelt, das smp.DistributedModel()für modellparalleles Training genutzt wird. Diese Funktion ist auch mit Tensor-Parallelität kompatibel.

Die FlashAttentionBibliothek unterstützt nur Modelle, wenn sie auf einen Wert gesetzt attention_head_size ist, der ein Vielfaches von 8 und kleiner als 128 ist. Wenn Sie also einen dezentralen Transformator trainieren und sicherstellen, dass er ordnungsgemäß FlashAttention funktioniert, sollten Sie die Parameter so anpassen, dass die Größe des Aufmerksamkeitskopfs den Anforderungen entspricht. Weitere Informationen finden Sie auch unter Installation und Funktionen im FlashAttention GitHubRepository.

Nehmen wir z. B. an, Sie konfigurieren ein Transformator-Modell mit hidden_width=864 und num_heads=48. Die Kopfgröße von FlashAttention wird berechnet alsattention_head_size = hidden_width / num_heads = 864 / 48 = 18. Um das zu aktivieren FlashAttention, müssen Sie den num_heads Parameter so einstellen 54attention_head_size = hidden_width / num_heads = 864 / 54 = 16, dass das ein Vielfaches von 8 ist.

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.