KI13. Juni 2026·4 Min. Lesezeit

Direct Divergence: Ein stabilerer Weg für das LLM-Training

Neue Forschung schlägt vor, das Standard-Ratio-Clipping durch Direct Divergence Regularization zu ersetzen, um Instabilität und Veraltungsprobleme beim Reinforcement Learning zu lösen.

TL;DR

Forscher haben eine neue Methode entwickelt, um den Reinforcement-Learning-Prozess für KI zu stabilisieren. Das verhindert, dass Modelle bei intensiven Trainings-Updates inkohärent werden.
Der Ansatz behebt einen grundlegenden Fehler darin, wie KI aus Feedback lernt. Das könnte die massiven Rechenkosten senken, die für den Bau zuverlässiger Modelle nötig sind.

Hintergrund

Large Language Models wie GPT-4 entstehen nicht einfach aus Rohdaten; sie durchlaufen eine Verfeinerungsphase namens Reinforcement Learning from Human Feedback (RLHF). In dieser Phase lernt das Modell, welche Antworten hilfreich und welche schädlich sind. Dieser Prozess ist jedoch bekanntermaßen fragil. Wenn das Modell seine interne Logik basierend auf ein paar Rückmeldungen zu schnell ändert, kann seine Gesamtleistung einbrechen. Um das zu verhindern, nutzen Forscher „Trust Regions“, um Updates klein und kontrolliert zu halten. So bleibt das Modell funktionsfähig, während es neue Verhaltensweisen lernt.

Was passiert ist

Eine neue Studie von Forschern auf arXiv hat einen bedeutenden Engpass dabei identifiziert, wie wir diese Trust Regions aktuell verwalten [^1]. Die meisten modernen LLMs werden mit Algorithmen wie Proximal Policy Optimization (PPO) oder Group Relative Policy Optimization (GRPO) trainiert. Diese Algorithmen verlassen sich auf eine Technik namens „Ratio-Clipping“. Wenn das Modell aus einem Datenpunkt lernt, vergleicht der Algorithmus sein neues Verhalten mit dem alten. Wenn die Änderung – ausgedrückt als Verhältnis (Ratio) – zu groß ist, „clippt“ der Algorithmus sie und zwingt das Modell, in einer Sicherheitszone zu bleiben [^2].

Die Forscher fanden heraus, dass dieses Ratio-Clipping ein schlechter Ersatzwert für tatsächliche Stabilität ist, besonders in „Off-Policy“-Szenarien. In Hochgeschwindigkeits-Trainingsumgebungen gerät das Modell, das die Daten generiert, oft aus dem Takt mit dem Modell, das aktualisiert wird. Das ist als Policy-Staleness bekannt. Wenn die Modelle divergieren, spiegelt die in PPO verwendete Importance Ratio nicht mehr genau wider, wie stark sich das Modell tatsächlich verändert hat. Das kann dazu führen, dass das Modell entweder wertvolles Feedback ignoriert oder sprunghafte, destruktive Updates macht, die seine bisherigen Fähigkeiten ruinieren und das Training komplett scheitern lassen.

Um dies zu lösen, führt die Studie eine Direct Divergence Regularization-Methode ein. Anstatt sich auf ein mathematisches Verhältnis zu verlassen, das verzerrt werden kann, misst das neue Framework den Abstand zwischen dem alten und dem neuen Modell ganzheitlicher. Indem sie überdachten, wie wir diese Leitplanken durchsetzen, zeigten die Forscher, dass Modelle stabil bleiben können, selbst wenn die Daten, aus denen sie lernten, deutlich veraltet waren. Dies ermöglicht aggressivere Trainingspläne, ohne das Risiko, dass das Modell seine Fähigkeit verliert, Anweisungen zu folgen oder kohärenten Text zu generieren [^1].

Warum es wichtig ist

Diese Forschung adressiert eines der teuersten Probleme in der KI-Entwicklung: Trainingsfehler. Aktuell kann ein groß angelegter Trainingslauf, wenn er instabil wird, Millionen von Dollar an Strom und Hardwarezeit verschwenden. Indem sie den Reinforcement-Learning-Prozess robuster machen, können Entwickler Modelle mit weniger manuellem Tuning weiter vorantreiben. Wir bewegen uns weg von einem Engineering, bei dem Forscher Wochen damit verbringen, die richtigen Werte zu erraten, hin zu einem vorhersehbareren und mathematisch fundierteren Framework für KI-Verbesserungen. Diese Effizienz ist lebenswichtig, da Modelle in Größe und Komplexität weiter wachsen.

Darüber hinaus ist dieser Wandel entscheidend für die Demokratisierung der KI. Wenn das Training stabiler und weniger empfindlich gegenüber spezifischen Einstellungen wird, können kleinere Forschungslabore mit weniger Ressourcen große Modelle erfolgreich feintunen. Es ebnet auch den Weg für Continuous Learning, bei dem Modelle in Echtzeit aktualisiert werden, wenn neue Daten eingehen. Ohne die stabilen Trust Regions, die diese neue Forschung bietet, würden solche kontinuierlichen Updates wahrscheinlich dazu führen, dass die Modellleistung wild schwankt oder mit der Zeit abbaut, was sie für Produktionsumgebungen unbrauchbar macht [^2].

Schließlich führt ein stabileres Training direkt zu sichereren Modellen. Wenn ein Modell mit instabilen Methoden trainiert wird, kann es Edge-Case-Verhalten entwickeln – unerwartet unhöfliche oder unsinnige Antworten, die beim Testen nicht aufgefallen sind. Ein kontrollierterer Reinforcement-Learning-Prozess stellt sicher, dass das Modellverhalten innerhalb der beabsichtigten Grenzen bleibt, was es für sensible Anwendungen zuverlässiger macht. Indem wir sicherstellen, dass das Modell nicht zu weit von seinem sicheren Zustand abdriftet, können wir KI mit größerem Vertrauen in ihre langfristige Stabilität und ihr Alignment mit menschlichen Werten einsetzen.

Ein Beispiel aus der Praxis

Stell dir vor, du bringst einem Profikoch bei, ein neues, komplexes Fusion-Gericht zu kochen. Du gibst dem Koch am Montag 50 Rezepte zum Ausprobieren. Während der Koch übt, verbringst du Dienstag und Mittwoch damit, seine Ergebnisse zu analysieren. Bis Donnerstag bist du bereit, Feedback zu geben. Zu diesem Zeitpunkt hat der Koch jedoch schon weitere 100 Mal geübt und seine Technik leicht verändert. Im alten System könnte dein Feedback verwirrend sein, weil es darauf basiert, was der Koch am Montag getan hat, nicht auf dem, was er jetzt tut. Die alte „Clipping“-Methode würde den Koch einfach daran hindern, irgendetwas zu stark zu verändern. Das verhindert ein Desaster, stoppt ihn aber auch dabei, sich wirklich zu verbessern. Die neue Methode erlaubt es dir, genau zu sehen, wie sich die Technik des Kochs von Montag unterscheidet. Sie passt dein Feedback so an, dass der Koch immer noch aus den Fehlern vom Montag lernen kann, ohne durch den Zeitverlauf verwirrt zu werden.

Passende Produkte

Dieser Grundlagentext vermittelt die Kernprinzipien von Reinforcement Learning und Trust Regions, die die Forscher nun für Large Language Models verfeinern.

WerbungAmazon

Reinforcement Learning: An Introduction

★★★★★ 4.8

$80.00View on Amazon →