LLM-Trainingsstabilität: Ist AdamW das richtige Werkzeug?
Neue Forschung hinterfragt die theoretische Zuverlässigkeit von AdamW bei extremem „Heavy-Tailed“-Rauschen, das beim Training großer KI-Modelle häufig auftritt.
TL;DR
- Forscher bezweifeln, ob AdamW, das Standardwerkzeug zum Trainieren von KI, theoretisch für das „Heavy-Tailed“-Rauschen moderner LLM-Pretrainings geeignet ist.
- Neue vorzeichenbasierte Optimizer wie Lion und Muon könnten mehr Stabilität bieten, indem sie extreme Datenausschläge bewältigen, die traditionelle mathematische Methoden verwirren.
Hintergrund
Um eine KI zu trainieren, zeigst du ihr Daten, berechnest den Fehler und passt die internen Gewichte des Modells an, um diesen Fehler zu verringern. Dieser Vorgang wird von einem Algorithmus gesteuert, dem Optimizer. Seit Jahren ist AdamW die dominierende Wahl. Fast jedes große Large Language Model (LLM) wurde damit trainiert. AdamW basiert jedoch auf der Annahme, dass Fehler einer vorhersehbaren „Normalverteilung“ folgen. In der Realität sind Trainingsdaten chaotisch und enthalten oft extreme Ausreißer – was Mathematiker als Heavy-Tailed-Rauschen bezeichnen.
Was passiert ist
Eine neue theoretische Untersuchung zeigt eine wachsende Kluft zwischen der Art, wie wir KI trainieren, und dem Grund, warum es tatsächlich funktioniert [^1]. AdamW (Adam mit Decoupled Weight Decay) wurde eingeführt, um Probleme älterer Optimizer bei der Regularisierung zu beheben [^2]. Es wurde zum Industriestandard, weil es in empirischen Tests überzeugte. Die meisten mathematischen Beweise für AdamW setzen jedoch ein „Finite-Variance“-Regime voraus. Das bedeutet, man erwartet, dass das Rauschen oder die Fehler während des Trainings in einem berechenbaren Bereich bleiben – ähnlich einer Glockenkurve, in der extreme Ausreißer statistisch fast unmöglich sind.
Das Problem: Empirische Daten aus massivem LLM-Pretraining zeigen, dass stochastisches Gradientenrauschen – das „Rauschen“ im Lernprozess – typischerweise Heavy-Tailed ist [^3]. In einer Heavy-Tailed-Verteilung sind extreme Ereignisse oder „Schocks“ viel wahrscheinlicher, als ein Standardmodell vorhersagen würde. Wenn ein Optimizer wie AdamW auf einen dieser massiven Datenausschläge trifft, kann seine interne Mathematik instabil werden. AdamW berechnet den gleitenden Durchschnitt der Gradienten und ihrer Quadrate. Ein einzelner massiver Ausreißer kann diesen Durchschnitt so stark verzerren, dass das Modell „vergisst“, was es gelernt hat, oder einen katastrophalen Loss Spike erlebt, bei dem die Fehlerrate ins Unendliche schießt.
Forscher untersuchen nun alternative „vorzeichenbasierte“ Optimizer wie Lion und Muon. Im Gegensatz zu AdamW, das die Größe des Gradienten (wie groß der Fehler ist) betrachtet, achten vorzeichenbasierte Optimizer primär auf die Richtung des Fehlers [^1]. Das macht sie von Natur aus resistenter gegen Ausreißer. Wenn ein Datenpunkt 100-mal größer ist als normal, behandelt ihn ein vorzeichenbasierter Optimizer genauso wie einen Punkt, der nur 2-mal größer ist, solange sie in dieselbe Richtung zeigen. Neuere Arbeiten deuten darauf hin, dass diese Methoden unter Heavy-Tailed-Bedingungen eine bessere Performance erzielen, was den theoretischen Thron von AdamW gefährdet. Der Kernpunkt ist, ob die „adaptive“ Natur von AdamW – genau das, was ihn berühmt gemacht hat – eigentlich ein Nachteil ist, wenn die Trainingsdaten so chaotisch sind wie das moderne Internet.
Warum es wichtig ist
Wenn das mathematische Fundament unseres beliebtesten Optimizers wackelig ist, wird unsere Fähigkeit, KI zu skalieren, eher durch teures Ausprobieren als durch technische Präzision begrenzt. Das Training eines Frontier-Modells kostet zig Millionen Dollar an Strom und Hardware-Zeit. Wenn ein Trainingslauf auf halbem Weg abstürzt, weil der Optimizer einen Heavy-Tailed-Ausschlag nicht verkraftet hat, ist das eine enorme Ressourcenverschwendung. Die Theorie hinter diesen Fehlern zu verstehen, ermöglicht es Ingenieuren, widerstandsfähigere Systeme zu bauen, die während des monatelangen Trainingsprozesses keine ständige menschliche Überwachung erfordern. Das ist kein rein theoretisches Problem; Loss Spikes sind ein bekanntes Kopfzerbrechen für KI-Labore bei Google, Meta und OpenAI.
Darüber hinaus könnte dieser Wechsel zu vorzeichenbasierten Optimizern zu effizienteren Modellen führen. Wenn wir Optimizer nutzen, die mathematisch auf das tatsächliche Rauschen in Web-Daten abgestimmt sind, können wir mit weniger Hardware höhere Intelligenzstufen erreichen. Diese Demokratisierung der Trainingseffizienz ist entscheidend für kleinere Organisationen, die es sich nicht leisten können, einen fehlgeschlagenen Lauf neu zu starten. Es verwandelt KI von einer Kunstform des „Vibe-basierten“ Tunings in einen exakten Zweig der statistischen Ingenieurswissenschaft. Durch die Abkehr von AdamW hin zu Methoden, die Rauschen eleganter handhaben, kann die Branche den CO2-Fußabdruck des KI-Trainings reduzieren und gleichzeitig die Zuverlässigkeit der Modelle erhöhen.
Ein Beispiel aus der Praxis
Stell dir vor, du bringst einem Schüler bei, einen Basketball zu werfen. Meistens sind die Fehlwürfe klein – er trifft den vorderen Ring oder das Brett. Du nutzt eine Standard-Korrekturmethode (wie AdamW), um ihm kleine Anpassungen zu geben. Aber plötzlich erfasst ein Windstoß den Ball und er fliegt bis auf den Parkplatz. Wenn du die Logik von AdamW anwendest, betrachtest du die Größe des Fehlwurfs und sagst dem Schüler: „Du hast um 15 Meter daneben geworfen, also ziel das nächste Mal 15 Meter in die entgegengesetzte Richtung.“ Diese massive Überkorrektur ruiniert seine Technik und er vergisst, wie man wirft.
Ein vorzeichenbasierter Optimizer wie Lion würde stattdessen sagen: „Du hast zu weit links geworfen. Ziel beim nächsten Mal einfach etwas weiter nach rechts.“ Er ignoriert die Tatsache, dass der Ball 15 Meter weit weg flog; ihn interessiert nur, dass die Richtung falsch war. Indem er den extremen Ausreißer ignoriert, bleibt der Schüler auf Kurs.
Passende Produkte
Wir empfehlen diesen Text, da er die mathematischen Grundlagen für die Optimierungsprobleme und Heavy-Tailed-Rauschszenarien liefert, die in der Forschung diskutiert werden.
Optimization for Machine Learning
★★★★ 4.4