KI24. Juni 2026·6 Min. Lesezeit

KI-Bewerter bewerten: Fehler bei Daten-Agenten korrigieren

Neue Forschung zeigt Mängel bei der Evaluation von KI-Daten-Agenten auf: Automatisierte Bewerter interpretieren korrekte Ergebnisse oft fälschlicherweise als Fehler.

TL;DR

Forscher haben erhebliche Zuverlässigkeitslücken beim Einsatz von KI zur Bewertung von Datenanalyse-Agenten identifiziert. Sie fanden heraus, dass „Grading-Artefakte“ oft die tatsächliche Leistung des Systems verschleiern.
Die Studie schlägt ein neues Framework vor, um zwischen echten Agenten-Fehlern und Mängeln im Evaluationsprozess zu unterscheiden. Das sorgt für genauere Metriken bei autonomen Daten-Tools.

Hintergrund

Datenanalyse besteht nicht mehr nur daraus, eine einzelne Berechnung auszuführen. In der aktuellen Ära der „agentischen“ KI bekommt ein System einen Rohdatensatz und ein Ziel vorgegeben, wie zum Beispiel „finde die Korrelation zwischen Wetter und Verkaufszahlen“. Um dies zu erreichen, muss der Agent eine Sequenz komplexer Schritte durchlaufen: Daten bereinigen, passende statistische Modelle auswählen, Python- oder R-Code schreiben und ausführen und schließlich die Ergebnisse in natürlicher Sprache interpretieren. Traditionelle Evaluationsmethoden, die normalerweise nach einer einzelnen Zeichenfolge oder Zahl in einem Chatfenster suchen, sind für diesen mehrstufigen Workflow ungeeignet. Da diese Agenten in Unternehmensumgebungen immer häufiger zum Einsatz kommen, setzt die Branche auf „automatisierte Bewerter“ – oft leistungsstärkere Sprachmodelle –, um die Arbeit des Agenten zu überprüfen. Wenn jedoch der Bewerter selbst fehleranfällig ist, wird der gesamte Entwicklungszyklus der KI kompromittiert. Entwickler jagen dann Geistern hinterher, beheben Fehler, die gar nicht existieren, oder ignorieren subtile mathematische Mängel, die das automatisierte System übersehen hat.

Was passiert ist

Ein Forschungsteam hat kürzlich eine detaillierte Untersuchung zur Zuverlässigkeit dieser automatisierten Bewertungssysteme veröffentlicht und sich dabei speziell auf deren Fähigkeit konzentriert, agentische Datenanalysen zu beurteilen [^1]. Sie fanden heraus, dass die Bewertung eines Agenten sich grundlegend von der Bewertung eines Standard-Chatbots unterscheidet. Ein Agent liefert „reiche Outputs“, die nicht nur eine finale Antwort, sondern auch die dazwischenliegenden Code-Blöcke und die verbalen Diagnosen enthalten, die seine Argumentation erklären. Die Forscher entdeckten, dass automatisierte Bewerter häufig unter „Grading-Artefakten“ leiden. Dies sind Fälle, in denen der Bewerter die Antwort eines Agenten als falsch markiert, weil er das Format missversteht, den Code nicht korrekt ausführt oder starr an einer Ground-Truth-Antwort festhält, die zwar mathematisch äquivalent, aber anders formuliert sein könnte.

Die Studie nutzte einen Datensatz komplexer Datenanalyse-Aufgaben und verglich die Leistung verschiedener agentischer Konfigurationen. Durch die manuelle Überprüfung tausender bewerteter Antworten identifizierte das Team ein wiederkehrendes Problem: „echte Unstimmigkeit“ versus „Grading-Artefakte“. Eine echte Unstimmigkeit tritt auf, wenn der Agent tatsächlich einen mathematischen Fehler macht oder eine fehlerhafte Logik verwendet. Ein Grading-Artefakt hingegen ist ein Versagen des Evaluationssystems selbst. Wenn ein Agent beispielsweise einen Prozentsatz als „0,85“ berechnet und die Ground Truth „85 %“ lautet, könnte ein naiver automatisierter Bewerter dies als Fehler markieren. Die Forscher fanden heraus, dass diese Artefakte überraschend häufig vorkommen und dazu führen können, dass Entwickler Wochen damit verbringen, einen Agenten zu verfeinern, der eigentlich nie kaputt war.

Um dies zu beheben, entwickelten die Forscher eine strengere Taxonomie für die Bewertung. Sie betonten die Notwendigkeit für Bewerter, den „Prozess“ ebenso wie das „Ergebnis“ zu beurteilen. Dazu gehört die Prüfung, ob der vom Agenten geschriebene Code idiomatisch ist, ob die gewählten statistischen Tests für die Datenverteilung angemessen sind und ob die finale Interpretation mit der numerischen Ausgabe übereinstimmt. Die Studie hob auch das „LLM-as-a-judge“-Phänomen hervor, bei dem ein Modell wie GPT-4 verwendet wird, um ein kleineres Modell zu bewerten [^2]. Obwohl dies schneller ist als eine menschliche Überprüfung, warnten die Forscher, dass Bewerter oft Biases zeigen, wie etwa die Bevorzugung längerer, wortreicherer Erklärungen, selbst wenn diese subtile Ungenauigkeiten enthalten. Dieser „Verbosity-Bias“ kann einen Bewerter dazu verleiten, zu glauben, ein Modell sei fähiger, als es tatsächlich ist. Durch die Bereitstellung von „Hinweisen“ oder Zwischenschritten der Ground Truth konnten die Forscher die Rate der Grading-Artefakte erheblich senken und den Evaluationsprozess deutlich repräsentativer für den realen Nutzen machen [^1].

Warum es wichtig ist

Diese Forschung ist ein entscheidender Schritt zur Professionalisierung der KI-Entwicklung. In der Anfangszeit der Large Language Models war eine „Vibes-basierte“ Evaluation – bei der ein Entwickler einfach ein paar Antworten liest und entscheidet, ob sie gut aussehen – die Norm. Da wir uns in Richtung autonomer Agenten bewegen, die sensible Finanz- oder Betriebsdaten verarbeiten, ist dies nicht mehr akzeptabel. Wir brauchen hochpräzise, wiederholbare Metriken. Wenn unser „Lineal“ (der Bewerter) ständig seine Definition eines Zentimeters ändert, können wir keine zuverlässige „Brücke“ (den Agenten) bauen. Durch die Quantifizierung der Fehlerarten, die Bewerter machen, ermöglicht diese Studie es KI-Ingenieuren, bessere Test-Suites zu erstellen, die ein klares Signal für Verbesserungen liefern. Sie führt die Branche weg von anekdotischen Beweisen hin zu einer Wissenschaft der Messung, oder Metrologie, für künstliche Intelligenz.

Darüber hinaus hat die Unterscheidung zwischen Artefakten und echten Fehlern massive Auswirkungen auf die KI-Sicherheit und Governance. Wenn eine Regulierungsbehörde ein automatisiertes Tool verwendet, um den KI-Agenten eines Unternehmens zu prüfen, muss sie sicher sein, dass die Prüfungsergebnisse korrekt sind. Ein „Falsch-positiv“ für einen Fehler könnte zu unnötigen Geldstrafen oder Produktrückrufen führen, während ein „Falsch-negativ“ eine gefährliche Schwachstelle in der Produktion belassen könnte. Diese Forschung legt nahe, dass wir bei hochriskanten agentischen Systemen den Menschen noch nicht vollständig aus dem Prozess entfernen können. Stattdessen müssen wir diese Erkenntnisse nutzen, um hybride Evaluationssysteme aufzubauen, bei denen die KI den Großteil der Arbeit erledigt, aber mehrdeutige Fälle für die Überprüfung durch menschliche Experten markiert. Dies stellt sicher, dass die Geschwindigkeit der KI-Entwicklung unsere Fähigkeit, ihre Sicherheit zu verifizieren, nicht überholt [^2].

Schließlich hilft diese Studie dabei, die „Black Box“ der agentischen Argumentation zu entmystifizieren. Indem wir Bewerter zwingen, sich den Zwischencode und die verbalen Diagnosen anzusehen, gewinnen wir ein besseres Verständnis dafür, wie diese Modelle tatsächlich Probleme lösen. Die Diskussion verschiebt sich von „kennt die KI die Antwort?“ hin zu „versteht die KI die Methodik?“. Dieser Wandel ist essenziell für die Entwicklung von KI, die nicht nur eine korrekt aussehende Zahl liefert, sondern tatsächlich eine fundierte, vertretbare Analyse der ihr vorgelegten Daten durchführt. Da Agenten immer stärker in unsere täglichen Workflows integriert werden, wird die Fähigkeit, ihrer Analyse – und den Systemen, die diese Analyse verifizieren – zu vertrauen, der entscheidende Faktor für ihre breite Akzeptanz sein.

Ein Beispiel aus der Praxis

Angenommen, eine Einzelhandelskette nutzt einen KI-Agenten, um zu bestimmen, welche Filialen für ein Feiertagswochenende zusätzliches Inventar erhalten sollen. Der Agent analysiert historische Verkaufszahlen, lokale Wettervorhersagen und aktuelle Lagerbestände. Er schreibt ein Skript, das 12 Filialen im pazifischen Nordwesten als hochprioritär identifiziert, da ein Sturm erwartet wird, der die Käufer in die Läden treibt. Der Agent gibt eine Liste von Filial-IDs und einen Absatz aus, der seine Argumentation erklärt. Ein automatisierter Bewerter wird dann damit beauftragt, dies zu verifizieren. Der Bewerter gleicht die Liste mit einer „perfekten“, von Menschen erstellten Liste ab. Die menschliche Liste wurde jedoch eine Stunde früher erstellt und berücksichtigte eine plötzliche Änderung der Wettervorhersage nicht. Der Agent liegt tatsächlich richtiger als die Ground Truth. Ein Standard-Bewerter würde den Agenten als „fehlgeschlagen“ markieren, da die IDs nicht übereinstimmen. Wenn man die Lehren aus dieser Forschung befolgt, würde das System stattdessen erkennen, dass die Argumentation des Agenten fundiert war, und so verhindern, dass die Einzelhandelskette eine überlegene Empfehlung ignoriert.

Passende Produkte

Wir empfehlen dieses Buch, um dir dabei zu helfen, die grundlegende Coding- und Statistik-Logik zu verstehen, die agentische Systeme zu automatisieren versuchen und die Bewerter evaluieren müssen.

WerbungAmazon

Data Science from Scratch: First Principles with Python

★★★★★ 4.6

$34.99View on Amazon →