Výzkumníci společnosti Alibaba představili AgentEvolver, nový systém umělé inteligence, který umožňuje jazykovým modelům učit se efektivněji a snižuje náklady na vývoj vlastních agentů AI přibližně o 30 %. Tento průlom řeší klíčový problém ve vývoji umělé inteligence: neúměrné náklady na vytváření specializovaných souborů dat a neefektivnost tradičního posilovacího učení (RL). Namísto spoléhání se na obrovské sady dat označených lidmi, umožňuje AgentEvolver AI učit se praxí automatickým generováním vlastních učebních dat prostřednictvím průzkumu a sebehodnocení.
Vysoké náklady na výcvik agentů AI: Základní problém
V současné době vyžaduje školení agentů AI pomocí RL obrovské množství pokusů a omylů, což je drahý a časově náročný proces. Vytváření agentů pro specializované úlohy v jedinečných softwarových prostředích vyžaduje značné manuální úsilí pro generování relevantních školicích dat, zvláště když neexistují žádné předem existující datové sady. Tato vysoká překážka vstupu omezuje přijetí výkonných asistentů AI v mnoha organizacích. AgentEvolver tento problém řeší automatizací samotného procesu vytváření dat, díky čemuž je vývoj vlastních agentů AI mnohem dostupnější.
Jak AgentEvolver funguje: Samovyvíjející se systém
Ve svém jádru je AgentEvolver navržen tak, aby poskytoval LLM větší autonomii při učení. Funguje na základě tří klíčových mechanismů, které působí ve shodě:
- Sebedotazování : Agent prozkoumává své prostředí, aby objevil funkce a schopnosti, a poté na základě těchto objevů generuje různé výukové úkoly. To eliminuje potřebu ručně vytvářených datových sad.
- Sebe-navigace : Agent se učí z úspěchů i neúspěchů a zobecňuje zkušenosti, aby efektivně vedl budoucí akce. Naučí se například zkontrolovat existenci funkce, než se ji pokusí použít.
- Sebehodnocení : Agent dostává podrobnou zpětnou vazbu nejen o konečných výsledcích, ale také o přínosu každého kroku ve vícekrokovém úkolu. Tato podrobná zpětná vazba urychluje učení a zvyšuje transparentnost, což je pro regulovaná odvětví zásadní.
Podle výzkumníka Alibaba Yunpeng Zhai tento proces transformuje model z „konzumenta dat na producenta dat“, což výrazně zkracuje dobu nasazení a náklady.
Vylepšený výkon a škálovatelnost
Experimenty prováděné na benchmarcích, jako je AppWorld a BFCL v3, ukázaly významná zlepšení. Pomocí modelů Alibaba Qwen2.5 (parametry 7B a 14B) zvýšil AgentEvolver průměrné výsledky o 29,4 % a 27,8 % v porovnání se základními modely trénovanými tradičními metodami RL. Modul sebe-dotazování byl obzvláště účinný, generoval dostatek vysoce kvalitních tréninkových dat, aby byl efektivní i s omezenými zdroji.
Architektura frameworku je navržena s ohledem na škálovatelnost, i když zpracování tisíců API zůstává výzvou. Zhai však tvrdí, že AgentEvolver poskytuje jasnou cestu ke škálovatelnému uvažování založenému na nástrojích v podnikovém prostředí.
Budoucnost školení AI agentů
AgentEvolver představuje posun paradigmatu směrem k sebelepším a nákladově efektivním systémům umělé inteligence. Konečným cílem je podle Zhaie „jediný model“, který zvládne přes noc jakékoli softwarové prostředí. I když to zůstává dlouhodobou vizí, samovyvíjející se přístupy, jako je AgentEvolver, jsou důležitým krokem tímto směrem. Tento rámec nejen snižuje náklady, ale také připravuje cestu pro adaptivnější a spolehlivější agenty AI v aplikacích v reálném světě.


























