I ricercatori di Alibaba hanno presentato AgentEvolver, un nuovo framework di intelligenza artificiale che consente ai modelli linguistici di addestrarsi in modo più efficiente, tagliando le spese di sviluppo di agenti IA personalizzati di circa il 30%. Questa svolta affronta una sfida fondamentale nello sviluppo dell’intelligenza artificiale: il costo proibitivo della creazione di set di dati specifici per attività e l’inefficienza del tradizionale apprendimento per rinforzo (RL). Invece di fare affidamento su enormi set di dati etichettati dall’uomo, AgentEvolver consente all’intelligenza artificiale di imparare facendo, generando automaticamente i propri dati di addestramento attraverso l’esplorazione e l’autovalutazione.

L’alto costo della formazione degli agenti IA: un problema fondamentale

Attualmente, la formazione degli agenti di intelligenza artificiale che utilizzano RL richiede grandi quantità di apprendimento per tentativi ed errori, che è computazionalmente costoso e richiede molto tempo. La creazione di agenti per attività specializzate in ambienti software unici richiede un notevole sforzo manuale per creare dati di addestramento rilevanti, soprattutto quando non esistono set di dati preesistenti. Questa elevata barriera all’ingresso limita l’implementazione di potenti assistenti IA in molte organizzazioni. AgentEvolver risolve questo problema automatizzando il processo di creazione dei dati, rendendo lo sviluppo di agenti IA personalizzati molto più accessibile.

Come funziona AgentEvolver: un sistema in evoluzione automatica

Fondamentalmente, AgentEvolver è progettato per offrire agli LLM una maggiore autonomia nel loro apprendimento. Funziona su tre meccanismi chiave che lavorano di concerto:

  • Auto-domande : l’agente esplora il suo ambiente per identificare funzioni e possibilità, quindi genera diversi compiti di formazione basati su queste scoperte. Ciò elimina la necessità di set di dati creati manualmente.
  • Autonavigazione : l’agente impara sia dai successi che dai fallimenti, generalizzando le esperienze per guidare le azioni future in modo efficiente. Ad esempio, impara a verificare l’esistenza delle funzioni prima di tentare di utilizzarle.
  • Autoattribuzione : l’agente riceve un feedback dettagliato non solo sui risultati finali, ma sul contributo di ogni passaggio in un’attività a più passaggi. Questo feedback dettagliato accelera l’apprendimento e migliora la trasparenza, fondamentale per le industrie regolamentate.

Secondo il ricercatore di Alibaba Yunpeng Zhai, questo processo trasforma il modello da “consumatore di dati a produttore di dati”, riducendo significativamente tempi e costi di implementazione.

Miglioramenti delle prestazioni e scalabilità

Gli esperimenti condotti su benchmark come AppWorld e BFCL v3 hanno dimostrato miglioramenti sostanziali. Utilizzando i modelli Qwen2.5 di Alibaba (parametri 7B e 14B), AgentEvolver ha aumentato i punteggi medi rispettivamente del 29,4% e del 27,8%, rispetto ai modelli di base addestrati con tecniche RL convenzionali. Il modulo di auto-interrogatorio si è rivelato particolarmente efficace, generando dati di formazione di qualità sufficiente per raggiungere l’efficienza anche con risorse limitate.

L’architettura del framework è progettata per la scalabilità, anche se la gestione di migliaia di API rimane una sfida. Tuttavia, Zhai afferma che AgentEvolver fornisce un percorso chiaro verso uno strumento scalabile in ambito aziendale.

Il futuro della formazione degli agenti IA

AgentEvolver rappresenta un cambiamento di paradigma verso sistemi di intelligenza artificiale auto-miglioranti ed economici. L’obiettivo finale, come dice Zhai, è un “modello unico” in grado di padroneggiare qualsiasi ambiente software dall’oggi al domani. Anche se questa rimane una visione a lungo termine, approcci autoevolutivi come AgentEvolver rappresentano un passo cruciale in quella direzione. Questo quadro non solo riduce i costi, ma apre anche la strada ad agenti IA più adattivi e robusti nelle applicazioni del mondo reale.