Alibaba-onderzoekers hebben AgentEvolver onthuld, een nieuw AI-framework waarmee taalmodellen zichzelf efficiënter kunnen trainen, waardoor de kosten voor het ontwikkelen van aangepaste AI-agenten met naar schatting 30% worden verlaagd. Deze doorbraak pakt een kernuitdaging in de ontwikkeling van AI aan: de onbetaalbare kosten van het creëren van taakspecifieke datasets en de inefficiëntie van traditioneel versterkend leren (RL). In plaats van te vertrouwen op enorme, door mensen gelabelde datasets, stelt AgentEvolver AI in staat om te leren door te doen, en automatisch zijn eigen trainingsgegevens te genereren door middel van verkenning en zelfevaluatie.
De hoge kosten van het trainen van AI-agenten: een fundamenteel probleem
Momenteel vereist het trainen van AI-agenten met behulp van RL enorme hoeveelheden vallen en opstaan, wat rekentechnisch duur en tijdrovend is. Het bouwen van agents voor gespecialiseerde taken in unieke softwareomgevingen vergt aanzienlijke handmatige inspanningen om relevante trainingsgegevens te creëren, vooral als er geen reeds bestaande datasets bestaan. Deze hoge toetredingsdrempel beperkt de inzet van krachtige AI-assistenten in veel organisaties. AgentEvolver pakt dit aan door het proces voor het maken van gegevens zelf te automatiseren, waardoor de ontwikkeling van aangepaste AI-agenten veel toegankelijker wordt.
Hoe AgentEvolver werkt: een zichzelf ontwikkelend systeem
In de kern is AgentEvolver ontworpen om LLM’s meer autonomie te geven bij het leren. Het werkt op basis van drie belangrijke mechanismen die samenwerken:
- Zelfvragen stellen : de agent verkent zijn omgeving om functies en mogelijkheden te identificeren en genereert vervolgens diverse trainingstaken op basis van deze ontdekkingen. Dit elimineert de noodzaak voor handmatig vervaardigde datasets.
- Zelfnavigerend : de agent leert van zowel successen als mislukkingen en generaliseert ervaringen om toekomstige acties efficiënt te begeleiden. Het leert bijvoorbeeld het bestaan van functies te verifiëren voordat het probeert deze te gebruiken.
- Zelftoeschrijvend : de agent ontvangt gedetailleerde feedback, niet alleen over de eindresultaten, maar ook over de bijdrage van elke stap in een taak die uit meerdere stappen bestaat. Deze fijnmazige feedback versnelt het leerproces en verbetert de transparantie, wat van cruciaal belang is voor gereguleerde sectoren.
Volgens Alibaba-onderzoeker Yunpeng Zhai transformeert dit proces het model van een ‘dataconsument in een dataproducent’, waardoor de implementatietijd en -kosten aanzienlijk worden verminderd.
Prestatiewinst en schaalbaarheid
Experimenten uitgevoerd met benchmarks zoals AppWorld en BFCL v3 lieten substantiële verbeteringen zien. Met behulp van Alibaba’s Qwen2.5-modellen (7B- en 14B-parameters) verhoogde AgentEvolver de gemiddelde scores met respectievelijk 29,4% en 27,8%, vergeleken met basismodellen die waren getraind met conventionele RL-technieken. De module voor zelfonderzoek bleek bijzonder effectief en genereerde voldoende trainingsgegevens van hoge kwaliteit om zelfs met beperkte middelen efficiëntie te bereiken.
De architectuur van het raamwerk is ontworpen met het oog op schaalbaarheid, hoewel het omgaan met duizenden API’s een uitdaging blijft. Zhai beweert echter dat AgentEvolver een duidelijk pad biedt naar schaalbaar tooldenken in bedrijfsomgevingen.
De toekomst van AI-agenttraining
AgentEvolver vertegenwoordigt een paradigmaverschuiving naar zelfverbeterende, kosteneffectieve AI-systemen. Het uiteindelijke doel is, zoals Zhai het stelt, een ‘uniek model’ dat in staat is elke softwareomgeving van de ene op de andere dag onder de knie te krijgen. Hoewel dat een langetermijnvisie blijft, zijn zelfontwikkelende benaderingen zoals AgentEvolver een cruciale stap in die richting. Dit raamwerk verlaagt niet alleen de kosten, maar maakt ook de weg vrij voor adaptievere en robuustere AI-agenten in toepassingen in de echte wereld.

























