Výzkumníci společnosti Google představili nový přístup k trénování umělé inteligence, nazývaný interní posilovací učení (interní RL), který obchází zásadní problém současných velkých jazykových modelů (LLM). Tato technika se zaměřuje spíše na manipulaci s vnitřními procesy systémů umělé inteligence než na tradiční předpovídání dalšího tokenu (slova nebo znaku) v sekvenci. Výsledek: agenti umělé inteligence schopní komplexního uvažování bez častých chyb a závad, které sužují stávající LLM.
Problém se současnými LLM: Chyby v dlouhodobém plánování
Moderní LLM vynikají v generování lidského textu, ale bojují s úkoly, které vyžadují postupné uvažování krok za krokem. Je to proto, že fungují tak, že předpovídají další token v sekvenci, což je proces, který se stává exponenciálně neefektivním, když je plánován na delší časová období. Šance, že náhodně narazíte na správné vícekrokové řešení, je podle výzkumníků „asi jedna ku milionu“.
Hlavním problémem je, že tyto modely hledají řešení na špatné úrovni. Pokoušet se vyřešit složité problémy jeden po druhém je jako skládat puzzle jeden dílek po druhém, aniž byste se dívali na celkový obrázek. To je obzvláště problematické, když jsou odměny vzácné – to znamená, že úspěch je vzácný a AI dostává malou zpětnou vazbu, když se učí.
Interní RL: Vedení „myšlenek“ AI
Interní RL společnosti Google tento problém řeší zavedením „meta-kontroléru“, který řídí vnitřní aktivace modelu – číselné hodnoty, které představují informace v síti – namísto přímé změny výstupu modelu. V podstatě tento ovladač posouvá AI do specifického, užitečného stavu, což mu umožňuje využít své předchozí znalosti k automatickému generování následných kroků.
Tento přístup nevyžaduje pro trénink data označená lidmi. Metakontrolér se učí tím, že analyzuje kompletní sekvence chování a vyvozuje záměr na vysoké úrovni, který nejlépe vysvětluje akce. To posouvá těžiště učení od předvídání tokenů k učení abstraktních akcí vedoucích k řešení.
Klíčovou výhodou je, že model zkoumá na správné úrovni abstrakce: zaváže se k plánu, než se ztratí v detailech. Jeden z výzkumníků to vysvětlil jako příležitost pro AI strukturovat logiku a volání metod bez porušení syntaxe, což jí umožňuje zkoumat řešení bez chyb.
Výhoda zamrzlého modelu: Proč na předučení záleží
Výzkumníci testovali dvě metody použití metakontroléru. Překvapivě nejúčinnějším přístupem bylo „zmrazit“ předem trénovaný LLM, což znamená, že jeho základní parametry nebyly během tréninku aktualizovány. Metakontrolér byl poté vyškolen k řízení vnitřního stavu tohoto zmrazeného modelu. Společný výcvik základního modelu i ovladače od nuly se ukázal jako neúčinný.
Úspěch zmrazeného přístupu předpokládá, že komplexní chování je již skryto v předem vyškolených LLM. Úlohou metakontroléru není vytvářet tato chování od začátku, ale strategicky je aktivovat. To znamená, že budoucí vývoj AI se může méně soustředit na školení LLM od nuly a více na hledání způsobů, jak odemknout jejich skryté schopnosti.
Praktické aplikace: Autonomní agenti a další
Důsledky vnitřní RL jsou značné. Poskytuje škálovatelnou cestu k vytváření autonomních agentů schopných zvládnout složité uvažování a robotiku v reálném světě bez neustálého lidského zásahu. To by mohlo způsobit revoluci v odvětvích, která spoléhají na automatizaci, od generování kódu po logistiku a výrobu.
Výzkum také naznačuje, že budoucnost umělé inteligence může spočívat v „tichých myšlenkách“ – vnitřních uvažovacích procesech, které nejsou explicitně vyjádřeny ve verbálních myšlenkových sledech. Pokud lze tyto vnitřní mechanismy spolehlivě ovládat, mohou být strategie nabádání méně kritické a systémy umělé inteligence se mohou stát efektivnějšími a přizpůsobivějšími.
Na závěr: Průlom společnosti Google v oblasti interního RL ukazuje slibnou cestu k vytvoření spolehlivějších a inteligentnějších agentů AI. Přesunutím zaměření od predikce tokenů k manipulaci s vnitřním stavem by tato technika mohla zahájit novou éru autonomních systémů, které dokážou uvažovat, plánovat a přizpůsobovat se s nebývalou účinností.

























