Исследователи Alibaba представили AgentEvolver — новую систему искусственного интеллекта, которая позволяет языковым моделям обучаться более эффективно, сокращая расходы на разработку пользовательских ИИ-агентов примерно на 30%. Этот прорыв решает ключевую проблему в разработке ИИ: непомерно высокие затраты на создание специализированных наборов данных и неэффективность традиционного обучения с подкреплением (RL). Вместо того чтобы полагаться на огромные, размеченные человеком наборы данных, AgentEvolver позволяет ИИ учиться на практике, автоматически генерируя собственные данные для обучения посредством исследования и самооценки.
Высокая Стоимость Обучения ИИ-Агентов: Фундаментальная Проблема
В настоящее время обучение ИИ-агентов с использованием RL требует огромного количества проб и ошибок, что является дорогостоящим и трудоемким процессом. Создание агентов для специализированных задач в уникальных программных средах требует значительных ручных усилий для создания релевантных данных для обучения, особенно когда не существует предварительно существующих наборов данных. Этот высокий барьер для входа ограничивает внедрение мощных ИИ-помощников во многих организациях. AgentEvolver решает эту проблему, автоматизируя сам процесс создания данных, делая разработку пользовательских ИИ-агентов гораздо более доступной.
Как Работает AgentEvolver: Саморазвивающаяся Система
В основе своей AgentEvolver предназначен для предоставления LLM большей автономии в обучении. Он работает на основе трех ключевых механизмов, действующих согласованно:
- Самостоятельное Задавание Вопросов : Агент исследует свою среду, чтобы выявить функции и возможности, а затем генерирует разнообразные задачи для обучения на основе этих открытий. Это устраняет необходимость в созданных вручную наборах данных.
- Самостоятельная Навигация : Агент учится как на успехах, так и на неудачах, обобщая опыт для эффективного руководства будущими действиями. Например, он учится проверять существование функции, прежде чем пытаться ее использовать.
- Самостоятельное Оценивание : Агент получает подробную обратную связь не только о конечных результатах, но и о вкладе каждого шага в многоэтапной задаче. Эта детализированная обратная связь ускоряет обучение и повышает прозрачность, что критически важно для регулируемых отраслей.
По словам исследователя Alibaba Юньпэна Чжая, этот процесс превращает модель из «потребителя данных в производителя данных», значительно сокращая время и стоимость развертывания.
Повышение Производительности и Масштабируемость
Эксперименты, проведенные на бенчмарках, таких как AppWorld и BFCL v3, продемонстрировали существенные улучшения. Используя модели Alibaba Qwen2.5 (7B и 14B параметров), AgentEvolver увеличил средние результаты на 29,4% и 27,8% соответственно по сравнению с базовыми моделями, обученными с использованием традиционных методов RL. Модуль самозадавания вопросов оказался особенно эффективным, генерируя достаточно высококачественных данных для обучения, чтобы добиться эффективности даже при ограниченных ресурсах.
Архитектура фреймворка разработана с учетом масштабируемости, хотя обработка тысяч API остается сложной задачей. Однако Чжай утверждает, что AgentEvolver предоставляет четкий путь к масштабируемому рассуждению на основе инструментов в корпоративных условиях.
Будущее Обучения ИИ-Агентов
AgentEvolver представляет собой смену парадигмы в сторону самосовершенствующихся, экономически эффективных ИИ-систем. Конечная цель, по словам Чжая, — это «единственная модель», способная освоить любую программную среду в одночасье. Хотя это остается долгосрочным видением, саморазвивающиеся подходы, такие как AgentEvolver, являются важным шагом в этом направлении. Этот фреймворк не только снижает затраты, но и прокладывает путь к более адаптивным и надежным ИИ-агентам в реальных приложениях.
