KI23. Apr. 2026·4 Min. Lesezeit

KI-Agenten bauen eigene Teams zur Suche nach Software-Bugs

Neue Forschung zeigt, wie LLM-Agenten spezialisierte Harnesses synthetisieren, um tiefe Sicherheitslücken zu finden, die menschlichen Prüfern jahrzehntelang entgangen sind.

TL;DR

KI-Agenten finden jetzt Sicherheitslücken, die Menschen jahrzehntelang übersehen haben, indem sie ein neues „Multi-Agent-Harness“ zur Koordination spezialisierter Rollen nutzen.
Dieses Framework automatisiert die komplexe Vernetzung von KI-Modellen und ermöglicht es ihnen, Code ohne manuelles Eingreifen zu erstellen, zu instrumentieren und zu prüfen.

Hintergrund

Das Finden von Sicherheitslücken in komplexer Software ist eine mühsame, manuelle Aufgabe. Seit Jahrzehnten verlässt sich die Branche auf „Fuzzing“ – eine Technik, bei der ein Programm mit zufälligen Daten bombardiert wird, um einen Absturz zu provozieren. Fuzzing ist zwar effektiv, aber ein „dummer“ Prozess; es versteht die Logik des Codes nicht, den es testet. Large Language Models (LLMs) haben dies geändert, indem sie Maschinen befähigen, Quellcode zu „lesen“ und darüber nachzudenken. Diese Logik auf riesige Projekte mit Millionen von Zeilen zu skalieren, bleibt jedoch eine große Herausforderung.

Was passiert ist

Neue Forschungsergebnisse zeigen eine Methode zur automatischen Synthese von „Multi-Agent-Harnesses“ für die Entdeckung von Schwachstellen[^1]. In diesem Kontext ist ein Harness die wesentliche Software-Infrastruktur, die definiert, wie verschiedene KI-Agenten interagieren. Anstatt sich auf eine einzige, monolithische KI zu verlassen, zerlegt dieser Ansatz das Problem in spezialisierte Rollen. Ein Agent könnte für die Untersuchung der Dateistruktur zuständig sein, ein anderer für das Schreiben von Testfällen und ein dritter für die Analyse der Ergebnisse eines Absturzes. Das Harness fungiert als Bindegewebe und legt fest, welche Tools jeder Agent aufrufen kann und wie sie Informationen untereinander weitergeben.

Die Kerninnovation ist die Automatisierung dieser Harness-Erstellung. Bisher musste ein menschlicher Sicherheitsforscher die Interaktionen zwischen diesen Agenten für jedes neue Softwareprojekt manuell skripten. Das war ein fehleranfälliger und zeitaufwendiger Prozess. Das neue Framework ermöglicht es einem LLM, das Build-System und die Verzeichnisstruktur der Zielsoftware zu analysieren, um automatisch ein maßgeschneidertes Harness zu generieren. Dies erlaubt es dem KI-Team, den Code zu „instrumentieren“ – also spezialisierte Sensoren einzufügen, um die Speichernutzung und den Logikfluss zu verfolgen –, ohne dass ein menschlicher Architekt die Umgebung einrichten muss[^1]. Durch die Automatisierung des Setups kann das System auf eine Vielzahl von „Source-available“-Zielen angewendet werden, bei denen der Analyst vollen Zugriff auf den zugrunde liegenden Code hat.

Diese Multi-Agent-Strategie spiegelt den Workflow von Elite-Sicherheitsfirmen wider. In einem professionellen Audit werden Aufgaben verteilt: Ein Ingenieur konzentriert sich vielleicht auf das Netzwerkprotokoll, während ein anderer die Datenbankschnittstelle untersucht. Das synthetisierte Harness stellt sicher, dass diese KI-Agenten mit ähnlicher Disziplin arbeiten. Wenn zum Beispiel ein „Fuzzer-Writer“-Agent Code produziert, der nicht kompiliert werden kann, leitet das Harness diesen Fehler automatisch an einen „Fixer“-Agenten weiter. Dieser Agent repariert die Syntax und gibt sie an die Pipeline zurück. Diese geschlossene Iterationsschleife ermöglicht es der KI, tief in die Logik der Software vorzudringen und Bereiche zu erreichen, die herkömmliche automatisierte Tools oft übersehen. Indem programmatische Aktionen – wie das Ausführen eines Debuggers oder das Ändern einer Build-Datei – als diskrete Schritte in einer logischen Kette behandelt werden, behält das Framework über den gesamten Entdeckungsprozess hinweg einen konsistenten Zustand bei[^2].

Warum es wichtig ist

Die Bedeutung dieser Entwicklung liegt im Übergang von „KI als Feature“ zu „KI als Belegschaft“. Traditionelle Sicherheitssoftware ist statisch; sie kann nur Muster erkennen, für die sie spezifisch programmiert wurde. LLMs sind dynamisch und fähig zu logischem Denken, leiden aber oft unter faktischen Fehlern oder verlieren den Kontext bei großen Engineering-Projekten. Ein synthetisiertes Harness bietet die notwendigen Leitplanken. Es zwingt die KI, innerhalb einer starren, logischen Struktur zu arbeiten, und kombiniert die rohe Intelligenz eines Sprachmodells mit der systematischen Strenge eines professionellen Engineering-Workflows.

Dieser Wandel verändert die Ökonomie der Cybersecurity drastisch. Die meisten Organisationen können es sich nicht leisten, ein Team von erstklassigen Sicherheitsforschern für ein sechsmonatiges Deep-Dive-Audit ihres proprietären Codes einzustellen. Automatisierte Harnesses ermöglichen den Einsatz eines „Teams“ von Agenten zum Preis von Strom und API-Tokens. Dies beendet effektiv die Ära der „Security through obscurity“. Wenn eine KI eine Schwachstelle, die seit zwanzig Jahren in einer Codebasis existiert, an einem einzigen Nachmittag identifizieren kann, ist die einzige praktikable Verteidigung die Einführung schnellerer Patch-Zyklen und grundlegend sichererer Codierungspraktiken. Das „Dilemma des Verteidigers“ – bei dem ein Angreifer nur eine Lücke finden muss, während der Verteidiger alle schließen muss – verschärft sich weiter, da sich die Geschwindigkeit der Angriffsentdeckung beschleunigt.

Ein Beispiel aus der Praxis

Stell dir einen Softwareentwickler namens Alex vor, der eine alternde Open-Source-Bibliothek für Finanztransaktionen pflegt. Die Bibliothek umfasst 400.000 Zeilen komplexen C++-Codes. Alex vermutet einen subtilen Speicherfehler, verfügt aber nicht über das Sicherheitstraining, um ihn manuell zu finden. Alex setzt ein Multi-Agent-Harness ein. Der „Architect“-Agent kartiert das Projekt und identifiziert das Entschlüsselungsmodul als risikoreich. Er synthetisiert ein Harness, das einen „Test-Generator“ mit einem „Monitor“-Agenten verbindet. Der Generator füttert das Modul mit fehlerhaften Paketen, während der Monitor auf Speicherfehler achtet. Innerhalb einer Stunde entdeckt der „Analyst“-Agent einen Buffer Overflow, der seit 2012 verborgen war. Er identifiziert die genaue Zeile und schlägt einen Fix vor. Alex prüft den Patch und mergt ihn, noch bevor er seinen Morgenkaffee ausgetrunken hat.

Passende Produkte

Wir empfehlen diesen Text als definitiven Leitfaden für die manuellen Audit-Prozesse, die Multi-Agent-Harnesses nun automatisieren sollen.

WerbungAmazon

The Art of Software Security Assessment: Identifying and Preventing Software Vulnerabilities

★★★★★ 4.7

$65.00View on Amazon →