Forscher bei Google haben einen neuartigen Ansatz für das Training künstlicher Intelligenz vorgestellt, der als „internes Verstärkungslernen“ (internal RL) bezeichnet wird und einen grundlegenden Engpass in aktuellen großen Sprachmodellen (LLMs) umgeht. Diese Technik konzentriert sich auf die Manipulation der internen Funktionsweise von KI-Systemen, anstatt sich auf die traditionelle Methode zur Vorhersage des nächsten Wortes in einer Sequenz zu verlassen. Das Ergebnis: KI-Agenten, die zu komplexen Überlegungen fähig sind, ohne die häufigen Fehler und Ausfälle, mit denen bestehende LLMs zu kämpfen haben.
Das Problem aktueller LLMs: Fehler beim Long-Horizon-Argumentation
Moderne LLMs zeichnen sich durch die Erstellung menschenähnlicher Texte aus, haben jedoch Schwierigkeiten mit Aufgaben, die eine nachhaltige, schrittweise Argumentation erfordern. Dies liegt daran, dass sie das nächste Token (Wort oder Symbol) in einer Sequenz vorhersagen, ein Prozess, der bei der Planung über längere Zeithorizonte exponentiell ineffizient wird. Die Wahrscheinlichkeit, zufällig auf die richtige mehrstufige Lösung zu stoßen, liegt, wie die Forscher ausdrücken, „in der Größenordnung von eins zu einer Million“.
Das Kernproblem besteht darin, dass diese Modelle auf der falschen Ebene nach Lösungen suchen. Der Versuch, komplexe Probleme Stück für Stück zu lösen, ist, als würde man ein Puzzle Stück für Stück zusammensetzen, ohne das Gesamtbild zu betrachten. Dies ist insbesondere dann problematisch, wenn die Belohnungen spärlich sind – der Erfolg also selten ist und die KI während des Lernprozesses wenig Feedback erhält.
Interne RL: Lenkung der „Gedanken“ der KI
Das interne RL von Google geht auf diese Einschränkung ein, indem es einen „Metacontroller“ einführt, der die internen Aktivierungen des Modells – die numerischen Werte, die Informationen innerhalb des Netzwerks darstellen – steuert, anstatt die Ausgabe des Modells direkt zu verändern. Im Wesentlichen versetzt dieser Controller die KI in einen bestimmten, nützlichen Zustand, sodass sie ihr bereits vorhandenes Wissen nutzen kann, um die nachfolgenden Schritte automatisch zu generieren.
Für diesen Ansatz sind keine vom Menschen gekennzeichneten Trainingsdaten erforderlich. Der Metacontroller lernt, indem er vollständige Verhaltenssequenzen analysiert und die Absicht auf hoher Ebene ableitet, die die Aktionen am besten erklärt. Dadurch verlagert sich der Trainingsschwerpunkt von der Token-Vorhersage auf das Erlernen abstrakter Aktionen, die zu einer Lösung führen.
Der Hauptvorteil besteht darin, dass das Modell auf der richtigen Abstraktionsebene untersucht: Es verpflichtet sich zu einem Plan, bevor es sich in Details verliert. Ein Forscher erklärte dies damit, dass KI in die Lage versetzt werde, Logik- und Methodenaufrufe zu strukturieren, ohne die Syntax zu beschädigen, und so Lösungen erforschen könne, ohne Fehler zu machen.
Der Vorteil des eingefrorenen Modells: Warum Pre-Training wichtig ist
Die Forscher testeten zwei Methoden zur Anwendung des Metacontrollers. Überraschenderweise bestand der effektivste Ansatz darin, ein vorab trainiertes LLM „einzufrieren“, was bedeutet, dass seine Kernparameter während des Trainings nicht aktualisiert wurden. Anschließend wurde der Metacontroller darauf trainiert, den internen Zustand dieses eingefrorenen Modells zu steuern. Das gemeinsame Training sowohl des Basismodells als auch des Controllers von Grund auf erwies sich als wirkungslos.
Der Erfolg des eingefrorenen Ansatzes legt nahe, dass komplexe Verhaltensweisen in vorab trainierten LLMs bereits latent vorhanden sind. Die Rolle des Metacontrollers besteht nicht darin, diese Verhaltensweisen von Grund auf aufzubauen, sondern sie strategisch zu aktivieren. Dies impliziert, dass sich die zukünftige KI-Entwicklung möglicherweise weniger auf die Schulung von LLMs von Grund auf als vielmehr auf die Suche nach Möglichkeiten zur Erschließung ihrer verborgenen Fähigkeiten konzentrieren wird.
Praktische Implikationen: Autonome Agenten und darüber hinaus
Die Auswirkungen interner RL sind erheblich. Es bietet einen skalierbaren Weg zur Schaffung autonomer Agenten, die in der Lage sind, komplexe Überlegungen und reale Robotik ohne ständiges menschliches Eingreifen zu bewältigen. Dies könnte Branchen revolutionieren, die auf Automatisierung angewiesen sind, von der Codegenerierung bis hin zur Logistik und Fertigung.
Die Forschung legt auch nahe, dass die Zukunft der KI in „stillen Gedanken“ liegen könnte – internen Denkprozessen, die nicht explizit durch ausführliche Gedankenketten externalisiert werden. Wenn diese internen Mechanismen zuverlässig gesteuert werden können, werden Aufforderungsstrategien möglicherweise weniger kritisch und KI-Systeme werden effizienter und anpassungsfähiger.
Zusammenfassend zeigt der interne RL-Durchbruch von Google einen vielversprechenden Weg zur Entwicklung robusterer und intelligenterer KI-Agenten. Durch die Verlagerung des Schwerpunkts von der Token-Vorhersage auf die interne Zustandsmanipulation hat diese Technik das Potenzial, eine neue Ära autonomer Systeme einzuläuten, die mit beispielloser Effizienz schlussfolgern, planen und sich anpassen können.
