Дослідники Alibaba представили AgentEvolver, нову систему штучного інтелекту, яка дозволяє мовним моделям навчатися ефективніше, зменшуючи витрати на розробку спеціальних агентів ШІ приблизно на 30%. Цей прорив вирішує ключову проблему розробки штучного інтелекту: непомірно високі витрати на створення спеціалізованих наборів даних і неефективність традиційного навчання з підкріпленням (RL). Замість того, щоб покладатися на величезні набори даних, позначені людиною, AgentEvolver дозволяє штучному інтелекту навчатися на практиці, автоматично генеруючи власні навчальні дані шляхом дослідження та самооцінки.

Висока вартість навчання агентів ШІ: фундаментальна проблема

В даний час навчання агентів ШІ за допомогою RL вимагає величезної кількості проб і помилок, що є дорогим і трудомістким процесом. Створення агентів для спеціалізованих завдань в унікальних програмних середовищах потребує значних ручних зусиль для створення відповідних навчальних даних, особливо якщо не існує попередніх наборів даних. Цей високий бар’єр для входу обмежує впровадження потужних помічників штучного інтелекту в багатьох організаціях. AgentEvolver вирішує цю проблему, автоматизуючи сам процес створення даних, роблячи розробку спеціальних агентів ШІ набагато доступнішою.

Як працює AgentEvolver: система, що саморозробляється

За своєю суттю, AgentEvolver розроблений, щоб надати магістрам права більшу автономію у навчанні. Він працює на основі трьох ключових механізмів, які діють узгоджено:

  • Самоопитування : агент досліджує своє середовище, щоб виявити функції та можливості, а потім створює різноманітні навчальні завдання на основі цих відкриттів. Це усуває потребу в створених вручну наборах даних.
  • Самостійна навігація : агент вчиться як на успіхах, так і на невдачах, узагальнюючи досвід, щоб ефективно керувати майбутніми діями. Наприклад, він навчається перевіряти існування функції перед спробою її використання.
  • Самооцінка : агент отримує докладний відгук не лише про кінцеві результати, але й про внесок кожного кроку у багатоетапне завдання. Цей детальний зворотний зв’язок прискорює навчання та підвищує прозорість, що є критично важливим для регульованих галузей.

За словами дослідника Alibaba Юньпена Чжая, цей процес перетворює модель із «споживача даних на виробника даних», значно скорочуючи час і вартість розгортання.

Покращена продуктивність і масштабованість

Експерименти, проведені на таких тестах, як AppWorld і BFCL v3, показали значні покращення. Використовуючи моделі Alibaba Qwen2.5 (параметри 7B і 14B), AgentEvolver збільшив середні результати на 29,4% і 27,8% відповідно порівняно з базовими моделями, навченими з використанням традиційних методів RL. Модуль самоопитування був особливо ефективним, генеруючи достатньо високоякісних навчальних даних, щоб бути ефективним навіть за обмежених ресурсів.

Архітектура фреймворку розроблена з урахуванням масштабованості, хоча робота з тисячами API залишається проблемою. Однак Чжай стверджує, що AgentEvolver забезпечує чіткий шлях до масштабованих міркувань на основі інструментів у корпоративних налаштуваннях.

Майбутнє навчання агентів ШІ

AgentEvolver являє собою зміну парадигми в бік самовдосконалюваних, економічно ефективних систем ШІ. Кінцевою метою, за словами Чжая, є «єдина модель», яка може освоїти будь-яке програмне середовище за одну ніч. Хоча це залишається довгостроковим баченням, саморозвиваючі підходи, такі як AgentEvolver, є важливим кроком у цьому напрямку. Ця структура не тільки знижує витрати, але й прокладає шлях для більш адаптивних і надійних агентів штучного інтелекту в реальних програмах.