inferwire
/
KI·4 Min. Lesezeit

Granulare KI: Modelle durch Submodul-Ersatz verkleinern

Neue Forschung zeigt, dass der Ersatz spezifischer Subkomponenten eines KI-Modells anstelle ganzer Layer zu einer deutlich besseren Performance bei komprimierten Large Language Models führt.

TL;DR\n* Forscher haben eine Methode vorgestellt, um Large Language Models zu verkleinern, indem sie spezifische Subkomponenten ersetzen, anstatt ganze Architekturschichten (Layer) zu entfernen.\n* Dieser granulare Ansatz ermöglicht eine präzisere Kompression. So bleiben Modelle leistungsfähig, während ihr Speicher- und Rechenbedarf deutlich sinkt.\n\n## Hintergrund\nLarge Language Models (LLMs) wie GPT-4 oder Llama-3 sind rechenintensiv. Um diese Modelle auf Consumer-Hardware auszuführen, nutzen Entwickler Kompressionstechniken. Eine gängige Methode ist das "Pruning" oder der "Ersatz". Dabei werden Teile des Modells als redundant identifiziert und entweder gelöscht oder gegen einfachere mathematische Funktionen ausgetauscht. Traditionell geschah dies auf "Layer"-Ebene – den großen, zusammenhängenden Blöcken der Transformer-Architektur. Einen ganzen Layer zu entfernen, ist jedoch ein grobes Werkzeug, das oft die logischen Fähigkeiten des Modells verschlechtert [^2].\n\n## Was passiert ist\nEine neue Studie mit dem Titel "From Layers to Submodules" legt nahe, dass der aktuelle Ansatz zur Modellkompression viel zu restriktiv ist [^1]. Die meisten bestehenden Methoden folgen zwei starren Regeln: Sie müssen einen kompletten Layer auf einmal ersetzen und sie müssen Layer wählen, die direkt nebeneinander liegen. Die Forscher argumentieren, dass Redundanz in KI-Modellen nicht ordentlich in zusammenhängenden Blöcken organisiert ist. Stattdessen ist sie über kleinere Einheiten verteilt, die sogenannten Submodule.\n\nEin Standard-Transformer-Layer besteht aus zwei primären Submodulen: dem Multi-Head Attention (MHA) Mechanismus, der dem Modell hilft, Beziehungen zwischen Wörtern zu verstehen, und dem Feed-Forward Network (FFN), das die Informationsverarbeitung übernimmt. Wollte man früher ein Modell verkleinern, musste man sowohl MHA als auch FFN eines bestimmten Layers gleichzeitig entfernen. Die neue Forschung zeigt, dass es viel effektiver ist, diese Submodule einzeln zu betrachten. Zum Beispiel könnte ein Modell einen sehr wichtigen Attention-Mechanismus in Layer 5 haben, aber ein hochgradig redundantes Feed-Forward Network im selben Layer. Indem nur das redundante FFN ersetzt wird, behält das Modell die Intelligenz des Attention-Heads und spart dennoch Platz [^1].\n\nDie Forscher testeten dies, indem sie von "Full-Layer-Granularität" zu "Submodul-Granularität" übergingen. Sie fanden heraus, dass die redundantesten Teile eines Modells oft nicht zusammenhängen. Das bedeutet: Anstatt die Layer 10 bis 15 herauszuschneiden, ist es vielleicht besser, den Attention-Head von Layer 2, das FFN von Layer 8 und den Attention-Head von Layer 20 zu entfernen. Mit diesem chirurgischen Ansatz konnten sie Modelle auf eine viel geringere Größe komprimieren und dabei eine höhere Grundgenauigkeit beibehalten als mit herkömmlichen Methoden. Dieser Prozess nutzt ersatzbasierte Kompression, bei der das identifizierte Submodul durch ein kleineres, angepasstes Modul ersetzt wird, das den Output des Originals mit weniger Parametern imitiert. Dies ermöglicht einen reibungslosen Übergang, der den Rest des neuronalen Netzes nicht "schockiert" [^1].\n\n## Warum es wichtig ist\nDer Übergang von der Layer-Ebene zur Submodul-Ebene ist ein bedeutender Wandel in der KI-Optimierung. Da Modelle auf Hunderte Milliarden Parameter anwachsen, wird die grobe Methode, ganze Layer zu entfernen, immer ineffizienter. Es ist der Unterschied zwischen einer Kettensäge und einem Skalpell. Indem wir gezielt Submodule ansprechen, können wir die feinen Nuancen der Logik eines Modells bewahren, die beim aggressiven Pruning oft verloren gehen [^2].\n\nDiese Präzision hat direkte Auswirkungen auf Edge AI – also das Ausführen leistungsstarker Modelle lokal auf Smartphones, Laptops und IoT-Geräten. Wenn wir ein Modell mit 70 Milliarden Parametern auf die Größe eines Modells mit 7 Milliarden Parametern schrumpfen können, ohne seine ausgefeilte Logik zu verlieren, verringern wir den Bedarf an teuren, zentralisierten Cloud-Servern. Das verbessert den Datenschutz, da sensible Informationen das Gerät des Nutzers nie verlassen müssen, und senkt den CO2-Fußabdruck, der durch den massiven Energiebedarf von KI-Rechenzentren entsteht.\n\nDarüber hinaus liefert diese Forschung eine klarere Karte davon, wie KI "denkt". Indem Forscher identifizieren, welche spezifischen Submodule redundant sind, können sie besser verstehen, welche Teile der Transformer-Architektur die Hauptarbeit leisten. Diese Feedbackschleife wird wahrscheinlich beeinflussen, wie die nächste Generation von Modellen von Grund auf trainiert wird. Anstatt massive, einheitliche Layer zu bauen, könnten Ingenieure damit beginnen, Modelle mit unterschiedlichen Submodul-Dichten zu entwerfen. Das führt zu von Natur aus effizienteren Architekturen, die weniger Kompression nach dem Training erfordern.\n\n## Ein Beispiel aus der Praxis\nStell dir vor, du versuchst, einen schweren Rucksack für eine lange Wanderung leichter zu machen. Die alte Art, die Tasche zu "komprimieren", wäre, ganze Kategorien von Gegenständen zu entfernen. Du entscheidest dich vielleicht, deine gesamte Kochausrüstung zurückzulassen. Das macht den Rucksack zwar viel leichter, aber du hast jetzt keine Möglichkeit mehr, Wasser zu kochen oder Essen zu erwärmen – ein erheblicher Verlust an Funktionalität und Sicherheit.\n\nDer Submodul-Weg ist strategischer. Anstatt die gesamte Kochausrüstung wegzuwerfen, schaust du dir einzelne Gegenstände an. Du behältst den leichten Kocher (das wichtige Attention-Submodul), ersetzt aber die schwere gusseiserne Pfanne durch einen kleinen Titantopf (Ersatz eines redundanten Submoduls durch eine angepasste Version). Dann merkst du, dass du zwei identische Taschenlampen in verschiedenen Taschen hast, und entfernst eine. Am Ende ist dein Rucksack genauso leicht, als hättest du das ganze Kochset weggeworfen, aber du hast immer noch alle Funktionen, mit denen du gestartet bist – nur in einer effizienteren, optimierten Form.\n\n## Passende Produkte\n\nWir empfehlen diesen Grundlagentext, da er die wesentlichen mathematischen Definitionen für die Layer und Submodule liefert, die moderne Kompressionstechniken zu optimieren versuchen.\n\n
WerbungAmazon

Deep Learning (Adaptive Computation and Machine Learning series)

★★★★★ 4.8

Quellen

  1. [1]arXiv — From Layers to Submodules: Rethinking Granularity in Replacement-Based LLM Compression
  2. [2]arXiv — ShortGPT: Layers in Large Language Models are More Redundant Than You Think