Peneliti Alibaba telah meluncurkan AgentEvolver, sebuah kerangka kerja AI baru yang memungkinkan model bahasa untuk melatih dirinya sendiri dengan lebih efisien, sehingga memangkas biaya pengembangan agen AI khusus sekitar 30%. Terobosan ini mengatasi tantangan inti dalam pengembangan AI: biaya pembuatan kumpulan data khusus tugas yang mahal dan inefisiensi pembelajaran penguatan (reinforcement learning/RL) tradisional. Daripada mengandalkan kumpulan data besar yang diberi label manusia, AgentEvolver memberdayakan AI untuk belajar sambil melakukan, yang secara otomatis menghasilkan data pelatihannya sendiri melalui eksplorasi dan penilaian mandiri.

Mahalnya Biaya Pelatihan Agen AI: Masalah Mendasar

Saat ini, pelatihan agen AI menggunakan RL memerlukan pembelajaran coba-coba dalam jumlah besar, yang secara komputasi mahal dan memakan waktu. Membangun agen untuk tugas-tugas khusus dalam lingkungan perangkat lunak yang unik memerlukan upaya manual yang signifikan untuk membuat data pelatihan yang relevan, terutama ketika tidak ada kumpulan data yang sudah ada sebelumnya. Hambatan masuk yang tinggi ini membatasi penerapan asisten AI yang kuat di banyak organisasi. AgentEvolver mengatasi hal ini dengan mengotomatiskan proses pembuatan data itu sendiri, membuat pengembangan agen AI khusus jauh lebih mudah diakses.

Cara Kerja AgentEvolver: Sistem yang Berkembang Sendiri

Pada intinya, AgentEvolver dirancang untuk memberikan otonomi yang lebih besar kepada LLM dalam pembelajaran mereka. Ini beroperasi pada tiga mekanisme utama yang bekerja bersama-sama:

  • Mempertanyakan Diri Sendiri : Agen menjelajahi lingkungannya untuk mengidentifikasi fungsi dan kemungkinan, lalu menghasilkan beragam tugas pelatihan berdasarkan penemuan ini. Hal ini menghilangkan kebutuhan akan kumpulan data yang dibuat secara manual.
  • Navigasi Mandiri : Agen belajar dari keberhasilan dan kegagalan, menggeneralisasi pengalaman untuk memandu tindakan di masa depan secara efisien. Misalnya, ia belajar memverifikasi keberadaan fungsi sebelum mencoba menggunakannya.
  • Atribusi Mandiri : Agen menerima masukan mendetail tidak hanya mengenai hasil akhir, namun juga kontribusi setiap langkah dalam tugas multi-langkah. Umpan balik yang terperinci ini mempercepat pembelajaran dan meningkatkan transparansi, hal ini penting bagi industri yang diatur.

Menurut peneliti Alibaba Yunpeng Zhai, proses ini mengubah model dari “konsumen data menjadi produsen data,” yang secara signifikan mengurangi waktu dan biaya penerapan.

Peningkatan Kinerja dan Skalabilitas

Eksperimen yang dilakukan pada benchmark seperti AppWorld dan BFCL v3 menunjukkan peningkatan substansial. Dengan menggunakan model Qwen2.5 Alibaba (parameter 7B dan 14B), AgentEvolver meningkatkan skor rata-rata masing-masing sebesar 29,4% dan 27,8%, dibandingkan dengan model dasar yang dilatih dengan teknik RL konvensional. Modul pertanyaan mandiri terbukti sangat efektif, menghasilkan cukup data pelatihan berkualitas tinggi untuk mencapai efisiensi bahkan dengan sumber daya yang terbatas.

Arsitektur kerangka kerja dirancang untuk skalabilitas, meskipun menangani ribuan API masih merupakan tantangan. Namun, Zhai menegaskan bahwa AgentEvolver memberikan jalur yang jelas menuju penalaran alat yang dapat diskalakan dalam pengaturan perusahaan.

Masa Depan Pelatihan Agen AI

AgentEvolver mewakili perubahan paradigma menuju sistem AI yang dapat meningkatkan kemampuan diri sendiri dan hemat biaya. Tujuan utamanya, seperti yang dikatakan Zhai, adalah “model tunggal” yang mampu menguasai lingkungan perangkat lunak apa pun dalam semalam. Meskipun hal ini masih merupakan visi jangka panjang, pendekatan pengembangan diri seperti AgentEvolver merupakan langkah penting menuju arah tersebut. Kerangka kerja ini tidak hanya mengurangi biaya namun juga membuka jalan bagi agen AI yang lebih adaptif dan tangguh dalam aplikasi dunia nyata.