Badacze z Alibaba zaprezentowali AgentEvolver, nowy system sztucznej inteligencji, który umożliwia efektywniejsze uczenie się modeli językowych, redukując koszty opracowywania niestandardowych agentów AI o około 30%. Ten przełom rozwiązuje kluczowy problem rozwoju sztucznej inteligencji: zaporowe koszty tworzenia wyspecjalizowanych zbiorów danych i nieefektywność tradycyjnego uczenia się przez wzmacnianie (RL). Zamiast polegać na ogromnych, oznakowanych przez człowieka zbiorach danych, AgentEvolver umożliwia sztucznej inteligencji uczenie się poprzez działanie poprzez automatyczne generowanie własnych danych edukacyjnych poprzez eksplorację i samoocenę.
Wysoki koszt szkolenia agentów AI: podstawowy problem
Obecnie szkolenie agentów AI za pomocą RL wymaga ogromnej ilości prób i błędów, co jest procesem kosztownym i czasochłonnym. Tworzenie agentów do specjalistycznych zadań w unikalnych środowiskach oprogramowania wymaga znacznego wysiłku ręcznego w celu wygenerowania odpowiednich danych szkoleniowych, zwłaszcza gdy nie istnieją żadne wcześniej istniejące zbiory danych. Ta wysoka bariera wejścia ogranicza przyjęcie potężnych asystentów AI w wielu organizacjach. AgentEvolver rozwiązuje ten problem, automatyzując sam proces tworzenia danych, dzięki czemu tworzenie niestandardowych agentów AI jest znacznie bardziej dostępne.
Jak działa AgentEvolver: samorozwijający się system
W swej istocie AgentEvolver ma na celu zapewnienie LLM większej autonomii w nauce. Działa w oparciu o trzy kluczowe mechanizmy, które działają wspólnie:
- Zadawanie sobie pytań : Agent bada swoje środowisko w celu odkrycia funkcji i możliwości, a następnie generuje różnorodne zadania edukacyjne w oparciu o te odkrycia. Eliminuje to potrzebę ręcznego tworzenia zbiorów danych.
- Samodzielna nawigacja : Agent uczy się zarówno na sukcesach, jak i porażkach, uogólniając doświadczenia, aby skutecznie kierować przyszłymi działaniami. Na przykład uczy się sprawdzać istnienie funkcji przed próbą jej użycia.
- Samoocena : Agent otrzymuje szczegółową informację zwrotną nie tylko na temat wyników końcowych, ale także wkładu każdego kroku w wieloetapowe zadanie. Ta szczegółowa informacja zwrotna przyspiesza naukę i zwiększa przejrzystość, co ma kluczowe znaczenie w branżach regulowanych.
Według badacza Alibaba, Yunpeng Zhai, proces ten przekształca model z „konsumenta danych w producenta danych”, znacznie skracając czas i koszty wdrożenia.
Poprawiona wydajność i skalowalność
Eksperymenty przeprowadzone na benchmarkach takich jak AppWorld i BFCL v3 wykazały znaczną poprawę. Wykorzystując modele Alibaba Qwen2.5 (parametry 7B i 14B), AgentEvolver zwiększył średnie wyniki odpowiednio o 29,4% i 27,8% w porównaniu do modeli bazowych trenowanych tradycyjnymi metodami RL. Moduł zadawania pytań był szczególnie skuteczny, generując wystarczającą ilość wysokiej jakości danych szkoleniowych, aby był skuteczny nawet przy ograniczonych zasobach.
Architekturę frameworka zaprojektowano z myślą o skalowalności, chociaż obsługa tysięcy interfejsów API pozostaje wyzwaniem. Jednak Zhai twierdzi, że AgentEvolver zapewnia jasną ścieżkę do skalowalnego rozumowania opartego na narzędziach w środowisku przedsiębiorstwa.
Przyszłość szkolenia agentów AI
AgentEvolver reprezentuje zmianę paradygmatu w kierunku samodoskonalących się, opłacalnych systemów sztucznej inteligencji. Według Zhai ostatecznym celem jest „pojedynczy model”, który może opanować dowolne środowisko programowe w ciągu jednej nocy. Chociaż pozostaje to wizją długoterminową, samorozwojowe podejścia, takie jak AgentEvolver, stanowią ważny krok w tym kierunku. Ramy te nie tylko zmniejszają koszty, ale także torują drogę dla bardziej adaptacyjnych i niezawodnych agentów AI w rzeczywistych zastosowaniach.
