inferwire
/
KI·5 Min. Lesezeit

KI-Agenten: Das "Free Lunch"-Prinzip beim Post-Training

Forscher haben einen "Progress Advantage" im Reinforcement Learning entdeckt. Er erlaubt KI-Agenten, eigene Schritte ohne teures menschliches Feedback zu bewerten.

TL;DR

  • Ein neues Forschungspapier zeigt, dass Reinforcement Learning (RL) Post-Training automatisch Daten generiert, mit denen die einzelnen Schritte eines KI-Agenten bewertet werden können.
  • Dieser "Progress Advantage" macht teures menschliches Labeling überflüssig. Autonome Agenten werden so zuverlässiger und effizienter bei komplexen Aufgaben.

Hintergrund

In der aktuellen KI-Landschaft gibt es einen großen Unterschied zwischen einem Standard-Chatbot und einem KI-Agenten. Ein Chatbot sagt das nächste Wort in einem Satz voraus; ein Agent sagt die nächste Aktion in einer Sequenz voraus, etwa das Klicken eines Buttons, das Schreiben einer Datei oder das Ausführen einer Suche. Das Training dieser Agenten ist extrem schwierig. Wir können zwar am Ende einer Aufgabe leicht feststellen, ob ein Agent erfolgreich war oder nicht (ein "Outcome Reward"), aber es ist viel schwerer zu sagen, welcher spezifische Schritt in einem 50-stufigen Prozess der Fehler war. Das ist als Credit Assignment Problem bekannt. Um dies zu lösen, nutzen Forscher traditionell Process Reward Models (PRMs). Diese erfordern, dass Menschen jeden einzelnen Schritt der KI manuell bewerten – ein Prozess, der teuer, langsam und für komplexe digitale Umgebungen kaum skalierbar ist [^2].

Was passiert ist

Neue Forschungsergebnisse haben einen "vernachlässigten Free Lunch" identifiziert, der in den Standard-Pipelines für Reinforcement Learning (RL) existiert, die bereits zur Feinabstimmung großer Sprachmodelle genutzt werden [^1]. Wenn eine KI mit RL trainiert wird, lernt sie eine interne "Value Function", die schätzt, wie viel Belohnung sie aus ihrem aktuellen Zustand erwartet. Die Forscher entdeckten: Betrachtet man die Differenz zwischen dem Wert eines Zustands vor und nach einer Aktion – eine Metrik, die sie Progress Advantage (PA) nennen –, lässt sich effektiv ein hochwertiges Process Reward Model ohne menschliches Eingreifen erstellen.

Dieser Progress Advantage fungiert als dichtes Signal, das dem Modell genau sagt, wie viel Fortschritt es mit der letzten Aktion in Richtung des Endziels gemacht hat. Wenn ein Agent beispielsweise ein bestimmtes Paar Schuhe kaufen soll und erfolgreich zur Checkout-Seite navigiert, steigt das PA-Signal an. Klickt er stattdessen auf eine zufällige Anzeige, sinkt das PA-Signal. Da diese Informationen bereits während der Standard-RL-Post-Training-Phase generiert werden, stellen sie eine riesige, ungenutzte Ressource zur Verbesserung des agentischen Verhaltens dar. Die Forscher fanden heraus, dass sie die Erfolgsraten bei Benchmarks wie WebShop und ALFWorld deutlich steigern konnten, indem sie das PA-Signal nutzten, um das "Denken" des Modells zu steuern – indem sie es mehrere mögliche nächste Schritte simulieren ließen und den mit dem höchsten PA auswählten [^1].

Im Gegensatz zu früheren Versuchen der Verifizierung auf Schrittebene, die oft auf "Monte Carlo"-Schätzungen basierten und zu langsam für den Echtzeiteinsatz waren, ist der Progress Advantage recheneffizient. Er nutzt das interne Verständnis des Modells für die Schwierigkeit der Aufgabe. Die Studie zeigt, dass Modelle, die diese "kostenlosen" Daten nutzen, viel größere Modelle übertreffen können, die sich nur auf finale Outcome Rewards verlassen. Das deutet darauf hin, dass der Flaschenhals für fähige KI-Agenten nicht nur die Modellgröße war, sondern die Granularität des Feedbacks während der Trainings- und Ausführungsphasen.

Warum es wichtig ist

Diese Entdeckung ist bedeutend, weil sie die primäre Kostenbarriere bei der Entwicklung fortschrittlicher KI-Agenten adressiert. Menschliche Annotation ist der teuerste Teil der KI-Lieferkette. Wenn wir "Schritt-für-Schritt"-Intelligenz aus den bereits vorhandenen Daten extrahieren können, wird die Geschwindigkeit, mit der wir zuverlässige autonome Assistenten einsetzen können, dramatisch steigen. Für Prosumer und Unternehmen bedeutet das Agenten, die seltener in "Endlosschleifen" stecken bleiben oder irreversible Fehler machen, wie das Löschen des falschen Ordners bei einer komplexen Dateiorganisation.

Darüber hinaus bietet der Progress Advantage einen Weg zu sichererer KI. Wenn ein Agent seinen eigenen Fortschritt quantifizieren kann, kann er auch erkennen, wenn er sich von einem Ziel entfernt oder in einen riskanten Zustand gerät. Dieses interne "GPS" ermöglicht es dem System, anzuhalten und um menschliche Hilfe zu bitten, bevor es einen kritischen Fehler macht. Während wir uns von KI, die nur mit uns spricht, hin zu KI bewegen, die in unserem Namen in der realen Welt handelt, ist diese Fähigkeit zur Selbstevaluation in jeder Millisekunde einer Operation eine unverzichtbare Voraussetzung für Vertrauen und Sicherheit. Es bringt die Branche näher an eine "Set and Forget"-Automatisierung, die tatsächlich funktioniert [^2].

Schließlich unterstreicht diese Forschung einen Wandel in der Sichtweise auf das Modelltraining. Sie legt nahe, dass die "Post-Training"-Phase – in der ein Modell nach seiner Entstehung verfeinert wird – viel informationsreicher ist als bisher angenommen. Wenn wir die mathematischen Signale, die bereits in unseren Trainingsalgorithmen vorhanden sind, klug interpretieren, können wir Durchbrüche in der Leistungsfähigkeit erzielen, ohne größere, stromhungrigere Rechenzentren bauen zu müssen. Es ist ein Gewinn für die Effizienz und ein Fahrplan für die nächste Generation digitaler Arbeit.

Ein Beispiel aus der Praxis

Stell dir vor, du bittest einen KI-Agenten: "Finde einen Flug nach Tokio unter 900 $ und buche ein Hotel in der Nähe der Shibuya Station."

Ohne ein Progress Advantage-Signal verbringt der Agent vielleicht zwanzig Minuten damit, Flugoptionen zu prüfen, wählt eine aus und stellt dann fest, dass die Hotelpreise in dieser Gegend zu hoch sind, was die gesamte Aufgabe scheitern lässt. Er erfährt erst ganz am Ende, dass er gescheitert ist.

Mit dem Progress Advantage bewertet der Agent jeden Klick. Wenn er einen Flug für 850 $ findet, steigt sein interner "Fortschrittsmesser". Wenn er das Hotel prüft und einen Preis von 400 $ pro Nacht sieht, erkennt er, dass der Flug zwar ein Erfolg war, der gesamte "Fortschritt" in Richtung des Budgetziels aber tatsächlich gesunken ist. Er entscheidet sofort, zurückzugehen und nach einem günstigeren Flug oder einem anderen Hotelstandort zu suchen. Er wartet nicht bis zum Ende des Prozesses, um zu merken, dass der Plan scheitert; er "spürt" den mangelnden Fortschritt bei jedem Schritt und passt seine Strategie in Echtzeit an, genau wie ein Mensch es tun würde.

Passende Produkte

Wir empfehlen diesen Klassiker, weil er die "Advantage Functions" und "Value Estimations" erklärt, die das mathematische Rückgrat der Progress Advantage-Entdeckung bilden.

WerbungAmazon

Reinforcement Learning: An Introduction

★★★★★ 4.8

Quellen

  1. [1]arXiv — Neglected Free Lunch from Post-training: Progress Advantage for LLM Agents
  2. [2]OpenAI — Let's Verify Step by Step