OMIBench: KI-Tests mit Multi-Image-Logik auf Olympiade-Niveau
Der neue Benchmark OMIBench zeigt, dass selbst fortschrittliche Vision-Language-Modelle bei komplexen Multi-Image-Aufgaben scheitern, wie sie in akademischen Wettbewerben auf hohem Niveau üblich sind.
TL;DR
- OMIBench ist ein neues Framework, das KI bei komplexen Problemen auf Olympiade-Niveau testet, die die gleichzeitige Analyse mehrerer zusammenhängender Bilder erfordern.
- Aktuelle Vision-Language-Modelle glänzen bei Einzelbild-Aufgaben, zeigen aber deutliche Leistungseinbußen, wenn sie Logik über mehrere visuelle Kontexte hinweg synthetisieren müssen.
Hintergrund
Large Vision-Language Models (LVLMs) wie GPT-4o oder Claude 3.5 Sonnet sind mittlerweile sehr gut darin, einzelne Fotos zu beschreiben oder einfache Matheaufgaben aus einem Screenshot zu lösen. Menschliches Denken beinhaltet jedoch oft den Vergleich mehrerer Diagramme, Tabellen oder geometrischer Zustände, um zu einem Schluss zu kommen. Bisher konzentrierten sich die meisten KI-Benchmarks auf „ein Bild, eine Antwort“-Szenarien. OMIBench verschiebt die Messlatte auf Olympiade-Niveau – Mathematik- und Wissenschaftswettbewerbe, bei denen mehrstufige Multi-Image-Logik der Standard für Spitzenleistungen ist.
Was passiert ist
Forscher haben OMIBench eingeführt, um eine kritische Lücke in der Messung künstlicher Intelligenz zu schließen. Während bestehende Benchmarks wie MMMU oder MathVista allgemeines Wissen testen, verlangen sie vom Modell selten, komplexe räumliche oder logische Beziehungen zwischen separaten visuellen Eingaben zu halten[^1]. OMIBench enthält über 1.000 Probleme aus Elite-Wettbewerben wie der Internationalen Mathematik-Olympiade (IMO) und der Internationalen Physik-Olympiade. Diese Aufgaben wurden gezielt ausgewählt, weil sie nicht durch das Betrachten eines einzelnen Bildes gelöst werden können; sie erfordern tiefes Multi-Image-Reasoning.
In Tests zeigten selbst die fähigsten Modelle eine „Reasoning-Lücke“. Wenn sie mit einem Geometrieproblem konfrontiert wurden, das über drei separate Diagramme verteilt war, die verschiedene Phasen eines Beweises zeigten, halluzinierten die Modelle oft Verbindungen oder schafften es nicht, eine einzelne Variable über die Bilder hinweg zu verfolgen. Der Benchmark verwendet eine „Chain-of-Visual-Thought“-Metrik, um zu prüfen, ob die KI die logische Brücke zwischen Bild A und Bild B erklären kann. Die Ergebnisse deuten darauf hin, dass Modelle zwar besser darin werden, einzelne Objekte zu identifizieren, aber immer noch Schwierigkeiten mit dem abstrakten Denken haben, das erforderlich ist, um visuelle Beweise zu einer schlüssigen Erzählung zu verknüpfen[^1]. Dies spiegelt die Schwierigkeiten spezialisierter Systeme wie AlphaGeometry wider, die eine Mischung aus neuronalen Netzen und symbolischer Logik benötigten, um ähnliche Geometrieaufgaben auf Olympiade-Niveau zu bewältigen[^2].
Die technische Architektur von OMIBench nutzt zudem eine bekannte Schwäche aktueller Transformer-Modelle aus: das Management des Context Window für visuelle Token. Wenn mehrere hochauflösende Bilder in ein Modell eingespeist werden, steigt die Anzahl der visuellen Token exponentiell an. Dies führt oft zu „Attention Drift“, wobei das Modell das aktuellste Bild priorisiert und die feinen Details des ersten verliert. Durch die Standardisierung dieser schwierigen Multi-Image-Aufgaben haben die Forscher einen Stresstest für die nächste Generation multimodaler Architekturen geschaffen. Dies zwingt Entwickler dazu, über einfaches Image-to-Text-Captioning hinauszuschauen und sich echter visueller Synthese zuzuwenden, bei der das Modell einen stabilen internen Zustand über mehrere verschiedene Blickwinkel oder Datendiagramme hinweg beibehält.
Warum es wichtig ist
Dieser Benchmark ist von Bedeutung, weil er widerspiegelt, wie Menschen ihre Augen tatsächlich nutzen, um Probleme zu lösen. Ein Arzt schaut sich nicht nur ein Röntgenbild an; er vergleicht eine Serie von Scans über die Zeit, um das Wachstum eines Tumors oder die Heilung eines Knochens zu verfolgen. Ein Ingenieur vergleicht einen Bauplan mit einem Foto der Baustelle und einem Belastungstest-Diagramm. Wenn KI ein nützlicher Partner in der wissenschaftlichen Forschung oder im komplexen Ingenieurwesen werden soll, muss sie die Fähigkeit meistern, Informationen aus mehreren visuellen Quellen zu synthetisieren, ohne den logischen Faden zu verlieren. Das Scheitern aktueller Modelle bei OMIBench deutet darauf hin, dass wir noch weit von einer KI entfernt sind, die eigenständig hochgradig professionelle Audits oder wissenschaftliche Peer-Reviews durchführen kann.
Darüber hinaus unterstreicht OMIBench das Plateau der aktuellen Scaling Laws. Das bloße Hinzufügen von mehr Daten oder mehr Parametern hat das Problem des abstrakten Denkens auf hohem Niveau noch nicht gelöst. Wir sehen, dass ein Modell klug genug sein kann, um ein Jura-Examen zu bestehen, aber blind genug, um an einer Geometrieaufgabe aus der Oberstufe zu scheitern, die das Hin- und Herwechseln zwischen zwei Seiten mit Diagrammen erfordert. Dies deutet darauf hin, dass der nächste Durchbruch in der KI nicht nur in besserem Sehen oder besserer Sprache liegen wird, sondern in einem robusteren Weltmodell. Dieses Weltmodell muss eine stabile interne Repräsentation eines Problems aufrechterhalten, unabhängig davon, wie viele Bilder zu seiner Beschreibung verwendet werden. Diese logische Konsistenz ist die primäre Barriere zwischen aktuellen Assistenten und echter künstlicher Intelligenz (AGI).
Ein Beispiel aus der Praxis
Stell dir einen Maschinenbauingenieur namens David vor, der versucht, einen Fehler an einer Brücke zu diagnostizieren. Er hat drei Bilder: ein 3D-CAD-Modell des ursprünglichen Entwurfs, ein hochauflösendes Drohnenfoto eines rissigen Stützpfeilers und eine thermische Heatmap, die während der Hauptverkehrszeit aufgenommen wurde. David muss wissen, ob die Wärmeausdehnung den spezifischen Riss verursacht, der auf dem Foto zu sehen ist, basierend auf den CAD-Vorgaben.
Eine Standard-KI von heute würde vielleicht den Riss beschreiben oder die CAD-Zeichnung separat erklären. Nach dem OMIBench-Standard muss die KI jedoch erkennen, dass der Belastungspunkt im CAD-Modell exakt mit der Wärmesignatur in der Heatmap und dem physischen Schaden auf dem Foto übereinstimmt. Sie muss schlussfolgern: „Die Dehnungsfuge in Bild 1 ist blockiert, weshalb wir den 45-Grad-Spannungsriss in Bild 2 sehen, der dem 120-Grad-Hitzepeak in Bild 3 entspricht.“ Diese Ebene der bildübergreifenden Synthese ist die Olympiade-Hürde, die KI nehmen muss.
Passende Produkte
Wir empfehlen diesen Klassiker, weil er die grundlegende Verbindung zwischen Wahrnehmung und Logik untersucht, die KI-Forscher derzeit mit Benchmarks wie OMIBench zu replizieren versuchen.
Visual Thinking
★★★★★ 4.6