Pesquisadores do Google revelaram uma nova abordagem para o treinamento de inteligência artificial, apelidada de “aprendizado por reforço interno” (RL interno), que contorna um gargalo fundamental nos atuais modelos de grandes linguagens (LLMs). Esta técnica concentra-se na manipulação do funcionamento interno dos sistemas de IA, em vez de confiar no método tradicional de prever a próxima palavra numa sequência. O resultado: agentes de IA capazes de raciocínio complexo sem os erros e falhas frequentes que afetam os LLMs existentes.
O problema com os LLMs atuais: falhas de raciocínio de longo horizonte
Os LLMs modernos são excelentes na geração de texto semelhante ao humano, mas enfrentam tarefas que exigem raciocínio sustentado e passo a passo. Isso ocorre porque eles operam prevendo o próximo token (palavra ou símbolo) em uma sequência, um processo que se torna exponencialmente ineficiente quando se planeja horizontes de tempo mais longos. A probabilidade de se deparar aleatoriamente com a solução correta em vários passos, como dizem os investigadores, é “da ordem de uma em um milhão”.
A questão central é que estes modelos procuram soluções no nível errado. Tentar resolver problemas complexos, peça por peça, é como montar um quebra-cabeça, uma peça de cada vez, sem olhar para o quadro geral. Isto é particularmente problemático quando as recompensas são escassas – o que significa que o sucesso é raro e a IA recebe pouco feedback durante o processo de aprendizagem.
RL interno: direcionando os “pensamentos” da IA
O RL interno do Google aborda essa limitação introduzindo um “metacontrolador” que orienta as ativações internas do modelo – os valores numéricos que representam informações dentro da rede – em vez de alterar diretamente a saída do modelo. Essencialmente, este controlador empurra a IA para um estado específico e útil, permitindo-lhe aproveitar o seu conhecimento pré-existente para gerar automaticamente as etapas subsequentes.
Esta abordagem não requer dados de treinamento rotulados por humanos. O metacontrolador aprende analisando sequências completas de comportamento e inferindo a intenção de alto nível que melhor explica as ações. Isso muda o foco do treinamento da previsão de tokens para o aprendizado de ações abstratas que levam a uma solução.
A principal vantagem é que o modelo explora no nível certo de abstração: ele se compromete com um plano antes de se perder nos detalhes. Um pesquisador explicou que isso permite que a IA estruture chamadas de lógica e método sem quebrar a sintaxe, permitindo-lhe explorar soluções sem cometer erros.
A vantagem do modelo Frozen: Por que o pré-treinamento é importante
Os pesquisadores testaram dois métodos de aplicação do metacontrolador. Surpreendentemente, a abordagem mais eficaz envolveu “congelar” um LLM pré-treinado, o que significa que os seus parâmetros principais não foram atualizados durante o treinamento. O metacontrolador foi então treinado para controlar o estado interno deste modelo congelado. O co-treinamento do modelo básico e do controlador do zero mostrou-se ineficaz.
O sucesso da abordagem congelada sugere que comportamentos complexos já estão latentes em LLMs pré-treinados. O papel do metacontrolador não é construir esses comportamentos do zero, mas sim ativá-los estrategicamente. Isto implica que o futuro desenvolvimento da IA poderá concentrar-se menos na formação de LLMs desde o início e mais na descoberta de formas de desbloquear as suas capacidades ocultas.
Implicações Práticas: Agentes Autônomos e Além
As implicações da RL interna são significativas. Ele fornece um caminho escalável para a criação de agentes autônomos capazes de lidar com raciocínios complexos e robótica do mundo real sem intervenção humana constante. Isto poderia revolucionar as indústrias que dependem da automação, desde a geração de códigos até à logística e à produção.
A investigação também sugere que o futuro da IA pode residir em “pensamentos silenciosos” – processos de raciocínio interno que não são explicitamente externalizados através de cadeias de pensamento prolixas. Se estes mecanismos internos puderem ser orientados de forma fiável, as estratégias de estímulo poderão tornar-se menos críticas e os sistemas de IA tornar-se-ão mais eficientes e adaptáveis.
Concluindo, o avanço da RL interna do Google demonstra um caminho promissor para a construção de agentes de IA mais robustos e inteligentes. Ao mudar o foco da previsão simbólica para a manipulação interna do estado, esta técnica tem o potencial de desbloquear uma nova era de sistemas autónomos que podem raciocinar, planear e adaptar-se com uma eficiência sem precedentes.

























