Onderzoekers bij Google hebben een nieuwe benadering van kunstmatige-intelligentietraining onthuld, genaamd ‘internal Reinforcement Learning’ (internal RL), die een fundamenteel knelpunt in de huidige grote taalmodellen (LLM’s) omzeilt. Deze techniek richt zich op het manipuleren van de interne werking van AI-systemen, in plaats van te vertrouwen op de traditionele methode om het volgende woord in een reeks te voorspellen. Het resultaat: AI-agenten die in staat zijn tot complex redeneren zonder de frequente fouten en mislukkingen waar bestaande LLM’s last van hebben.
Het probleem met de huidige LLM’s: fouten bij het redeneren over de lange horizon
Moderne LLM’s blinken uit in het genereren van mensachtige tekst, maar worstelen met taken die langdurig, stapsgewijs redeneren vereisen. Dit komt omdat ze werken door het volgende token (woord of symbool) in een reeks te voorspellen, een proces dat exponentieel inefficiënt wordt bij het plannen over een langere tijdshorizon. De kans dat je willekeurig de juiste meerstapsoplossing tegenkomt, is, zoals de onderzoekers het stellen, ‘in de orde van één op een miljoen’.
Het kernprobleem is dat deze modellen oplossingen zoeken op het verkeerde niveau. Het proberen op te lossen van complexe problemen, stukje voor stukje, is als het puzzelen, stukje voor stukje, zonder naar het grotere geheel te kijken. Dit is vooral problematisch als de beloningen schaars zijn – wat betekent dat succes zeldzaam is en de AI weinig feedback krijgt tijdens het leerproces.
Interne RL: sturen van de ‘gedachten’ van de AI
De interne RL van Google pakt deze beperking aan door een ‘metacontroller’ te introduceren die de interne activeringen van het model aanstuurt (de numerieke waarden die informatie binnen het netwerk vertegenwoordigen) in plaats van de uitvoer van het model rechtstreeks te wijzigen. In wezen duwt deze controller de AI in een specifieke, nuttige staat, waardoor deze zijn reeds bestaande kennis kan gebruiken om de volgende stappen automatisch te genereren.
Deze aanpak vereist geen door mensen gelabelde trainingsgegevens. De metacontroller leert door volledige reeksen gedrag te analyseren en daaruit de intentie op hoog niveau af te leiden die de acties het beste verklaart. Dit verschuift de focus van de training van tokenvoorspelling naar het leren van abstracte acties die tot een oplossing leiden.
Het belangrijkste voordeel is dat het model op het juiste abstractieniveau onderzoekt: het houdt zich aan een plan voordat het in details verdwaalt. Eén onderzoeker legde uit dat dit AI in staat stelt logica en methodeaanroepen te structureren zonder de syntaxis te verbreken, waardoor het oplossingen kan verkennen zonder fouten te maken.
Het voordeel van het Frozen-model: waarom voortraining belangrijk is
De onderzoekers testten twee methoden voor het toepassen van de metacontroller. Verrassend genoeg was de meest effectieve aanpak het ‘bevriezen’ van een vooraf getrainde LLM, wat betekent dat de kernparameters tijdens de training niet werden bijgewerkt. De metacontroller werd vervolgens getraind om de interne toestand van dit bevroren model te sturen. Het volledig opnieuw trainen van zowel het basismodel als de controller bleek niet effectief.
Het succes van de bevroren aanpak suggereert dat complex gedrag al latent aanwezig is binnen vooraf opgeleide LLM’s. De rol van de metacontroller is niet om dit gedrag helemaal opnieuw op te bouwen, maar om ze strategisch te activeren. Dit impliceert dat de toekomstige ontwikkeling van AI zich minder zou kunnen richten op het van de grond af opleiden van LLM’s en meer op het vinden van manieren om hun verborgen capaciteiten te ontsluiten.
Praktische implicaties: autonome agenten en meer
De implicaties van interne RL zijn aanzienlijk. Het biedt een schaalbaar pad naar het creëren van autonome agenten die in staat zijn om met complexe redeneringen en real-world robotica om te gaan zonder constante menselijke tussenkomst. Dit zou een revolutie teweeg kunnen brengen in industrieën die afhankelijk zijn van automatisering, van het genereren van codes tot logistiek en productie.
Het onderzoek suggereert ook dat de toekomst van AI zou kunnen liggen in ‘stille gedachten’ – interne redeneerprocessen die niet expliciet worden geëxternaliseerd via uitgebreide denkketens. Als deze interne mechanismen op betrouwbare wijze kunnen worden aangestuurd, kunnen de aanzetstrategieën minder kritisch worden en zullen AI-systemen efficiënter en aanpasbaarder worden.
Samenvattend laat de interne RL-doorbraak van Google een veelbelovend pad zien in de richting van het bouwen van robuustere en intelligentere AI-agents. Door de focus te verleggen van symbolische voorspelling naar interne staatsmanipulatie, heeft deze techniek het potentieel om een nieuw tijdperk van autonome systemen te ontsluiten die met ongekende efficiëntie kunnen redeneren, plannen en aanpassen.
