Badacze Google wprowadzili nowe podejście do treningu sztucznej inteligencji, zwane uczeniem się przez wewnętrzne wzmacnianie (wewnętrzne RL), które pozwala obejść podstawowy problem występujący w obecnych dużych modelach językowych (LLM). Technika ta skupia się na manipulowaniu wewnętrznymi procesami systemów AI, zamiast tradycyjnie przewidywać następny token (słowo lub znak) w sekwencji. Rezultat: agenci AI zdolni do złożonego rozumowania bez częstych błędów i usterek, które są plagą istniejących LLM.

Problem z obecnymi LLM: błędy w planowaniu długoterminowym

Nowoczesne LLM przodują w generowaniu tekstu przypominającego ludzki, ale mają trudności z zadaniami wymagającymi sekwencyjnego rozumowania krok po kroku. Dzieje się tak, ponieważ działają poprzez przewidywanie następnego tokena w sekwencji, a proces ten staje się wykładniczo nieefektywny, jeśli jest zaplanowany na dłuższe okresy czasu. Według badaczy szansa na przypadkowe natrafienie na właściwe, wieloetapowe rozwiązanie wynosi „około jednego na milion”.

Głównym problemem jest to, że modele te szukają rozwiązań na niewłaściwym poziomie. Próba rozwiązywania złożonych problemów, żeton po żetonie, jest jak układanie puzzli, element po kawałku, bez patrzenia na szerszą perspektywę. Jest to szczególnie problematyczne, gdy nagrody są rzadkie – to znaczy sukces jest rzadki, a sztuczna inteligencja otrzymuje niewiele informacji zwrotnych w miarę uczenia się.

Wewnętrzny RL: kierowanie „myślami” AI

Wewnętrzny RL firmy Google rozwiązuje ten problem, wprowadzając „metakontroler”, który kieruje wewnętrznymi aktywacjami modelu – wartościami liczbowymi reprezentującymi informacje w sieci – zamiast bezpośrednio zmieniać dane wyjściowe modelu. Zasadniczo kontroler ten wprowadza sztuczną inteligencję w określony, użyteczny stan, umożliwiając jej wykorzystanie wcześniejszej wiedzy do automatycznego generowania kolejnych kroków.

To podejście nie wymaga do szkolenia danych znakowanych przez ludzi. Metakontroler uczy się, analizując kompletne sekwencje zachowań i wnioskując o zamiarach wysokiego poziomu, które najlepiej wyjaśniają działania. To przesuwa punkt ciężkości uczenia się z przewidywania tokenów na uczenie się abstrakcyjnych działań prowadzących do rozwiązania.

Kluczową korzyścią jest to, że model bada na właściwym poziomie abstrakcji: angażuje się w plan, zanim zatraci się w szczegółach. Jeden z badaczy wyjaśnił to jako okazję dla sztucznej inteligencji do strukturyzacji logiki i wywołań metod bez naruszania składni, co pozwala jej eksplorować rozwiązania bez błędów.

Zaleta modelu „zamrożonego”: dlaczego nauka wstępna ma znaczenie

Naukowcy przetestowali dwie metody wykorzystania metakontrolera. Co zaskakujące, najskuteczniejszym podejściem było „zamrożenie” wstępnie wyszkolonego LLM, co oznacza, że ​​jego podstawowe parametry nie były aktualizowane podczas szkolenia. Następnie przeszkolono metakontroler, aby kierował stanem wewnętrznym tego zamrożonego modelu. Wspólne szkolenie od podstaw zarówno modelu bazowego, jak i kontrolera okazało się nieskuteczne.

Sukces zamrożonego podejścia zakłada, że ​​złożone zachowania są już ukryte we wstępnie wyszkolonych LLM. Rolą metakontrolera nie jest tworzenie tych zachowań od zera, ale aktywowanie ich strategicznie. Oznacza to, że przyszły rozwój sztucznej inteligencji może w mniejszym stopniu skupiać się na szkoleniu LLM od podstaw, a bardziej na znajdowaniu sposobów odblokowania ich ukrytych możliwości.

Zastosowania praktyczne: agenci autonomiczni i nie tylko

Konsekwencje wewnętrznego RL są znaczące. Zapewnia skalowalną ścieżkę do tworzenia autonomicznych agentów zdolnych do radzenia sobie ze złożonym rozumowaniem i robotyką w prawdziwym świecie bez ciągłej interwencji człowieka. Może to zrewolucjonizować branże opierające się na automatyzacji, od generowania kodu po logistykę i produkcję.

Badanie sugeruje również, że przyszłość sztucznej inteligencji może leżeć w „cichych myślach” – wewnętrznych procesach rozumowania, które nie są wyraźnie wyrażone w pełnych tokach myślenia. Jeśli te wewnętrzne mechanizmy będą mogły być niezawodnie kontrolowane, strategie podpowiedzi mogą stać się mniej krytyczne, a systemy sztucznej inteligencji mogą stać się bardziej wydajne i adaptacyjne.

Podsumowując przełom Google w zakresie wewnętrznego RL pokazuje obiecującą ścieżkę w kierunku tworzenia bardziej niezawodnych i inteligentnych agentów AI. Przenosząc punkt ciężkości z przewidywania tokenowego na manipulację stanem wewnętrznym, technika ta może zapoczątkować nową erę systemów autonomicznych, które potrafią rozumować, planować i dostosowywać się z niespotykaną dotąd wydajnością.