Des chercheurs de Google ont dévoilé une nouvelle approche de la formation à l’intelligence artificielle, baptisée « apprentissage par renforcement interne » (RL interne), qui contourne un goulot d’étranglement fondamental dans les grands modèles de langage (LLM) actuels. Cette technique se concentre sur la manipulation du fonctionnement interne des systèmes d’IA, plutôt que de s’appuyer sur la méthode traditionnelle de prédiction du mot suivant dans une séquence. Le résultat : des agents d’IA capables d’effectuer un raisonnement complexe sans les erreurs et échecs fréquents qui affligent les LLM existants.
Le problème avec les LLM actuels : les échecs du raisonnement sur un horizon long
Les LLM modernes excellent dans la génération de textes de type humain, mais ont du mal à réaliser des tâches nécessitant un raisonnement soutenu, étape par étape. En effet, ils fonctionnent en prédisant le prochain jeton (mot ou symbole) dans une séquence, un processus qui devient exponentiellement inefficace lors de la planification sur des horizons temporels plus longs. La probabilité de tomber par hasard sur la bonne solution en plusieurs étapes, comme le disent les chercheurs, est « de l’ordre d’un sur un million ».
Le problème central est que ces modèles recherchent des solutions au mauvais niveau. Essayer de résoudre des problèmes complexes jeton par jeton, c’est comme assembler un puzzle une pièce à la fois sans regarder la situation dans son ensemble. Cela est particulièrement problématique lorsque les récompenses sont rares, ce qui signifie que le succès est rare et que l’IA reçoit peu de retours pendant le processus d’apprentissage.
RL interne : Piloter les “pensées” de l’IA
Le RL interne de Google résout cette limitation en introduisant un « métacontrôleur » qui pilote les activations internes du modèle (les valeurs numériques qui représentent les informations au sein du réseau) plutôt que de modifier directement la sortie du modèle. Essentiellement, ce contrôleur pousse l’IA dans un état spécifique et utile, lui permettant d’exploiter ses connaissances préexistantes pour générer automatiquement les étapes suivantes.
Cette approche ne nécessite pas de données de formation étiquetées par l’homme. Le métacontrôleur apprend en analysant des séquences complètes de comportement et en déduisant l’intention de haut niveau qui explique le mieux les actions. Cela déplace l’accent de la formation de la prédiction de jetons vers l’apprentissage d’actions abstraites qui mènent à une solution.
Le principal avantage est que le modèle explore au bon niveau d’abstraction : il s’engage sur un plan avant de se perdre dans les détails. Un chercheur a expliqué cela comme permettant à l’IA de structurer la logique et les appels de méthode sans casser la syntaxe, lui permettant ainsi d’explorer des solutions sans commettre d’erreurs.
L’avantage du modèle gelé : pourquoi la pré-formation est importante
Les chercheurs ont testé deux méthodes d’application du métacontrôleur. Étonnamment, l’approche la plus efficace consistait à « geler » un LLM pré-entraîné, ce qui signifie que ses paramètres de base n’étaient pas mis à jour pendant la formation. Le métacontrôleur a ensuite été formé pour piloter l’état interne de ce modèle figé. La co-formation du modèle de base et du contrôleur à partir de zéro s’est avérée inefficace.
Le succès de l’approche gelée suggère que des comportements complexes sont déjà latents au sein des LLM pré-formés. Le rôle du métacontrôleur n’est pas de construire ces comportements à partir de zéro mais de les activer de manière stratégique. Cela implique que le développement futur de l’IA pourrait moins se concentrer sur la formation des LLM à partir de la base et davantage sur la recherche de moyens de débloquer leurs capacités cachées.
Implications pratiques : agents autonomes et au-delà
Les implications du RL interne sont significatives. Il offre une voie évolutive vers la création d’agents autonomes capables de gérer un raisonnement complexe et la robotique du monde réel sans intervention humaine constante. Cela pourrait révolutionner les industries dépendantes de l’automatisation, de la génération de code à la logistique et à la fabrication.
La recherche suggère également que l’avenir de l’IA pourrait résider dans les « pensées silencieuses » – des processus de raisonnement internes qui ne sont pas explicitement externalisés par des chaînes de pensée verbeuses. Si ces mécanismes internes peuvent être guidés de manière fiable, les stratégies d’incitation pourraient devenir moins critiques et les systèmes d’IA deviendraient plus efficaces et plus adaptables.
En conclusion, la percée RL interne de Google démontre une voie prometteuse vers la création d’agents d’IA plus robustes et plus intelligents. En déplaçant l’attention de la prédiction symbolique vers la manipulation de l’état interne, cette technique a le potentiel d’ouvrir une nouvelle ère de systèmes autonomes capables de raisonner, de planifier et de s’adapter avec une efficacité sans précédent.

























