Investigadores de Google han revelado un enfoque novedoso para el entrenamiento de inteligencia artificial, denominado “aprendizaje por refuerzo interno” (RL interno), que evita un cuello de botella fundamental en los grandes modelos de lenguaje (LLM) actuales. Esta técnica se centra en manipular el funcionamiento interno de los sistemas de IA, en lugar de depender del método tradicional de predecir la siguiente palabra en una secuencia. El resultado: agentes de IA capaces de realizar razonamientos complejos sin los frecuentes errores y fallas que afectan a los LLM existentes.

El problema con los LLM actuales: fallas de razonamiento a largo plazo

Los LLM modernos se destacan en generar textos similares a los humanos, pero tienen dificultades con tareas que requieren un razonamiento sostenido paso a paso. Esto se debe a que operan prediciendo el siguiente token (palabra o símbolo) en una secuencia, un proceso que se vuelve exponencialmente ineficiente cuando se planifica para horizontes temporales más largos. La probabilidad de encontrar aleatoriamente la solución correcta de varios pasos, como dicen los investigadores, es “del orden de una entre un millón”.

El problema central es que estos modelos buscan soluciones en el nivel equivocado. Tratar de resolver problemas complejos pieza por pieza es como armar un rompecabezas pieza por pieza sin mirar el panorama general. Esto es particularmente problemático cuando las recompensas son escasas, lo que significa que el éxito es raro y la IA recibe poca retroalimentación durante el proceso de aprendizaje.

RL interna: Dirigir los “pensamientos” de la IA

El RL interno de Google aborda esta limitación introduciendo un “metacontrolador” que dirige las activaciones internas del modelo (los valores numéricos que representan información dentro de la red) en lugar de alterar directamente la salida del modelo. Básicamente, este controlador empuja a la IA a un estado específico y útil, lo que le permite aprovechar su conocimiento preexistente para generar los pasos siguientes automáticamente.

Este enfoque no requiere datos de entrenamiento etiquetados por humanos. El metacontrolador aprende analizando secuencias completas de comportamiento e infiriendo la intención de alto nivel que mejor explica las acciones. Esto cambia el enfoque de la capacitación de la predicción de tokens al aprendizaje de acciones abstractas que conducen a una solución.

La ventaja clave es que el modelo explora en el nivel correcto de abstracción: se compromete con un plan antes de perderse en los detalles. Un investigador explicó que esto permite a la IA estructurar la lógica y las llamadas a métodos sin romper la sintaxis, lo que le permite explorar soluciones sin cometer errores.

La ventaja del modelo congelado: por qué es importante la formación previa

Los investigadores probaron dos métodos para aplicar el metacontrolador. Sorprendentemente, el enfoque más eficaz implicó “congelar” un LLM previamente capacitado, lo que significa que sus parámetros básicos no se actualizaron durante el entrenamiento. Luego se entrenó al metacontrolador para controlar el estado interno de este modelo congelado. El entrenamiento conjunto tanto del modelo base como del controlador desde cero resultó ineficaz.

El éxito del enfoque congelado sugiere que comportamientos complejos ya están latentes dentro de los LLM previamente capacitados. El papel del metacontrolador no es construir estos comportamientos desde cero sino activarlos estratégicamente. Esto implica que el desarrollo futuro de la IA podría centrarse menos en capacitar a los LLM desde cero y más en encontrar formas de desbloquear sus capacidades ocultas.

Implicaciones prácticas: agentes autónomos y más allá

Las implicaciones de la RL interna son significativas. Proporciona un camino escalable hacia la creación de agentes autónomos capaces de manejar razonamientos complejos y robótica del mundo real sin intervención humana constante. Esto podría revolucionar las industrias que dependen de la automatización, desde la generación de códigos hasta la logística y la fabricación.

La investigación también sugiere que el futuro de la IA podría residir en los “pensamientos silenciosos”: procesos de razonamiento interno que no se exteriorizan explícitamente a través de cadenas de pensamiento detalladas. Si estos mecanismos internos pueden guiarse de manera confiable, las estrategias de activación pueden volverse menos críticas y los sistemas de IA se volverán más eficientes y adaptables.

En conclusión, el avance interno de Google en RL demuestra un camino prometedor hacia la creación de agentes de IA más robustos e inteligentes. Al cambiar el enfoque de la predicción simbólica a la manipulación del estado interno, esta técnica tiene el potencial de desbloquear una nueva era de sistemas autónomos que pueden razonar, planificar y adaptarse con una eficiencia sin precedentes.