inferwire
/
KI·4 Min. Lesezeit

Claw-Eval-Live: AI-Agenten gegen dynamische Workflows testen

Claw-Eval-Live ist ein neuer dynamischer Benchmark, der AI-Agenten an realen Software-Aufgaben testet, um das Problem der Datenkontamination in statischen Tests zu lösen.

TL;DR

  • Claw-Eval-Live ist ein dynamischer Benchmark, der AI-Agenten an realen, sich entwickelnden Software-Aufgaben statt an statischen, auswendig gelernten Datensätzen testet.
  • Das System verifiziert die tatsächliche Ausführung in Live-Umgebungen. So wird sichergestellt, dass Agenten sich an UI-Änderungen und API-Updates anpassen, statt nur Antworten zu raten.

Hintergrund

Die meisten AI-Benchmarks sind statische Momentaufnahmen. Sobald ein Test veröffentlicht wird, landet er unweigerlich in den Trainingsdaten des nächsten Modells. Das führt zu „Datenkontamination“, bei der Modelle Antworten auswendig lernen, anstatt echte Problemlösungsfähigkeiten zu entwickeln. Für AI-Agenten – Modelle, die Tools nutzen und mehrstufige Workflows abschließen – ist das ein kritischer Fehler. Wenn ein Benchmark einen Agenten bittet, einen Flug auf einer Website-Version von 2022 zu buchen, beweist das nicht, dass der Agent mit dem heutigen Internet zurechtkommt.

Was passiert ist

Forscher haben Claw-Eval-Live veröffentlicht, einen Benchmark zur Evaluierung von Agenten in einer „Live“-Umgebung, die die Dynamik moderner Software widerspiegelt[^1]. Im Gegensatz zu herkömmlichen Benchmarks, die ein Modell basierend auf seinem finalen Text-Output bewerten, überwacht Claw-Eval-Live die Zwischenschritte eines Agenten. Es prüft, ob der Agent korrekt mit APIs interagiert, UI-Änderungen navigiert und mit unvorhersehbaren Latenzen oder Fehlern umgeht, die in realen Business-Services üblich sind. Dieser „Execution-first“-Ansatz stellt sicher, dass ein Agent die Arbeit tatsächlich erledigt, anstatt nur das wahrscheinliche Ergebnis basierend auf Mustern in seinen Trainingsdaten zu erraten.

Das Framework führt das Konzept der „evolving workflows“ ein. In Unternehmen ändern Tools ständig ihre Oberflächen und APIs ihre Anforderungen. Claw-Eval-Live simuliert dies durch Perturbationen – leichte Variationen der Umgebung – während der Testphase. Wenn ein Agent auf ein starres Skript oder einen auswendig gelernten Pfad angewiesen ist, wird er scheitern. Besitzt er echtes Denkvermögen, kann er sich an eine neue Button-Position oder ein geändertes Datenfeld anpassen. Dies adressiert eine wichtige Erkenntnis aktueller Branchenberichte, die hervorheben, wie schnell statische Benchmarks veralten, da Modelle mit ihren Inhalten trainiert werden[^2]. Durch das Testen gegen ein bewegliches Ziel liefert der Benchmark ein viel genaueres Bild davon, wie ein Agent in einer Produktionsumgebung abschneiden wird.

Technisch gesehen operiert Claw-Eval-Live auf drei Ebenen: Software-Tools, Business-Services und lokale Workspaces. Es nutzt eine Verifizierungs-Engine, die den Zustand der Umgebung abfragt, nachdem der Agent seine Aufgabe beendet hat. Wenn die Aufgabe beispielsweise lautete, „das Projektbudget in der internen Datenbank des Unternehmens zu aktualisieren“, fragt der Benchmark nicht nur den Agenten, ob er fertig ist. Er inspiziert direkt die Datenbank, um zu bestätigen, dass die Werte korrekt geändert wurden. Diese Strenge ist notwendig, da Large Language Models berüchtigt dafür sind, Erfolg zu „halluzinieren“ – also selbstbewusst zu behaupten, eine Aufgabe sei abgeschlossen, obwohl keine Aktion ausgeführt wurde. Durch die Erdung der Evaluierung im digitalen Zustand des Systems haben die Forscher eine Hürde geschaffen, die nicht allein durch geschickte Sprache umgangen werden kann.

Warum es wichtig ist

Diese Entwicklung markiert einen bedeutenden Übergang von einfachen Chatbots zu nützlichen Agenten. Im Unternehmenseinsatz ist eine Erfolgsquote von 90 % bei einem statischen Test bedeutungslos, wenn das Modell in dem Moment versagt, in dem ein Software-Update ausgerollt wird. Claw-Eval-Live bietet eine ehrlichere Metrik für Zuverlässigkeit. Es zwingt Entwickler dazu, Agenten zu bauen, die Veränderungen durchdenken können, statt solche, die lediglich Muster aus ihren Trainingssets imitieren. Für dich als Prosumer bedeutet das, dass AI-Assistenten in naher Zukunft robuster und weniger anfällig für die Sprödigkeit aktueller Modelle sein werden. Der Fokus verschiebt sich davon, wie gut ein Modell reden kann, hin zu dem, was es tatsächlich leisten kann.

Zudem verdeutlicht dieser Benchmark das wachsende Problem der Evaluierungssättigung. Da Modelle wie GPT-4 und Claude 3.5 Sonnet bei älteren Tests wie MMLU oder HumanEval Höchstwerte erreichen, benötigen Forscher schwierigere, dynamischere Hürden. Indem die Umgebung zum Test wird und nicht die Frage, schafft Claw-Eval-Live einen Benchmark, der nicht einfach durch mehr Rechenleistung oder mehr Trainingsdaten gelöst werden kann. Er erfordert eine fundamentale Verbesserung der Art und Weise, wie Agenten die Welt wahrnehmen und mit ihr interagieren. Dies bewegt die Branche in Richtung Agentic AI, die wirklich als digitaler Mitarbeiter fungieren kann und fähig ist, die ungeskriptete Realität eines modernen Büros zu bewältigen.

Ein Beispiel aus der Praxis

Stell dir vor, du nutzt einen AI-Agenten, um das Inventar deines kleinen Unternehmens zu verwalten. Jeden Freitag loggt er sich im Portal deines Lieferanten ein, prüft Warnungen zu niedrigen Beständen und erstellt eine Bestellung in deiner Buchhaltungssoftware. Eines Morgens aktualisiert der Lieferant seine Website und verschiebt den Reiter „Bestellverlauf“ in ein neues Menü „Konten“. Eine Standard-AI könnte scheitern, weil sie das alte Layout aus ihren Trainingsdaten kennt und in einer Schleife versucht, einen Button zu klicken, der nicht mehr existiert. Bei einem Agenten, der mit Claw-Eval-Live trainiert und getestet wurde, folgt das Modell nicht einfach einer Karte; es nutzt sein Denkvermögen, um die Änderung zu erkennen. Es bemerkt, dass der Reiter verschoben wurde, findet die neue Stelle und schließt die Bestellung trotzdem ab. Du merkst gar nicht, dass es ein Problem gab, und deine Ware kommt pünktlich an.

Passende Produkte

Wir empfehlen dieses Lehrbuch, da es die Kernprinzipien intelligenter Agenten definiert, die in dynamischen Umgebungen wahrnehmen und handeln müssen – genau die Herausforderung, die Claw-Eval-Live misst.

WerbungAmazon

Artificial Intelligence: A Modern Approach

★★★★★ 4.6

Quellen

  1. [1]arXiv — Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
  2. [2]Stanford HAI — 2024 AI Index Report