Para peneliti di Google telah meluncurkan pendekatan baru terhadap pelatihan kecerdasan buatan, yang disebut “pembelajaran penguatan internal” (internal RL), yang menghindari hambatan mendasar dalam model bahasa besar (LLM) saat ini. Teknik ini berfokus pada memanipulasi cara kerja internal sistem AI, dibandingkan mengandalkan metode tradisional dalam memprediksi kata berikutnya secara berurutan. Hasilnya: agen AI mampu melakukan penalaran yang kompleks tanpa kesalahan dan kegagalan yang sering terjadi pada LLM yang ada.

Masalah dengan LLM Saat Ini: Kegagalan Penalaran Jangka Panjang

LLM modern unggul dalam menghasilkan teks mirip manusia tetapi kesulitan dengan tugas-tugas yang memerlukan penalaran langkah demi langkah yang berkelanjutan. Hal ini karena mereka beroperasi dengan memprediksi token berikutnya (kata atau simbol) secara berurutan, sebuah proses yang menjadi tidak efisien secara eksponensial ketika merencanakan dalam jangka waktu yang lebih lama. Kemungkinan untuk secara acak menemukan solusi multi-langkah yang benar, seperti yang dikatakan para peneliti, adalah “satu dalam sejuta.”

Masalah intinya adalah model-model ini mencari solusi pada tingkat yang salah. Mencoba memecahkan masalah kompleks satu per satu adalah seperti menyusun puzzle satu demi satu tanpa melihat gambaran yang lebih besar. Hal ini menjadi masalah terutama jika imbalannya sedikit – yang berarti kesuksesan jarang terjadi, dan AI hanya menerima sedikit masukan selama proses pembelajaran.

RL Internal: Mengarahkan “Pemikiran” AI

RL internal Google mengatasi keterbatasan ini dengan memperkenalkan “metacontroller” yang mengarahkan aktivasi internal model—nilai numerik yang mewakili informasi dalam jaringan—bukan secara langsung mengubah keluaran model. Pada dasarnya, pengontrol ini mendorong AI ke keadaan yang spesifik dan berguna, sehingga memungkinkannya memanfaatkan pengetahuan yang sudah ada sebelumnya untuk menghasilkan langkah-langkah selanjutnya secara otomatis.

Pendekatan ini tidak memerlukan data pelatihan yang diberi label manusia. Metakontroler belajar dengan menganalisis seluruh rangkaian perilaku dan menyimpulkan maksud tingkat tinggi yang paling menjelaskan tindakan tersebut. Hal ini mengalihkan fokus pelatihan dari prediksi token ke pembelajaran tindakan abstrak yang mengarah pada solusi.

Keuntungan utamanya adalah model ini mengeksplorasi pada tingkat abstraksi yang tepat: model berkomitmen pada rencana sebelum tersesat dalam detailnya. Seorang peneliti menjelaskan hal ini memungkinkan AI untuk menyusun logika dan pemanggilan metode tanpa merusak sintaksis, sehingga memungkinkannya mengeksplorasi solusi tanpa membuat kesalahan.

Keuntungan Model Beku: Mengapa Pra-Pelatihan Itu Penting

Para peneliti menguji dua metode untuk menerapkan metakontroler. Anehnya, pendekatan yang paling efektif adalah dengan “membekukan” LLM yang telah dilatih sebelumnya, yang berarti parameter intinya tidak diperbarui selama pelatihan. Metakontroler kemudian dilatih untuk mengarahkan keadaan internal model beku ini. Pelatihan bersama model dasar dan pengontrol dari awal terbukti tidak efektif.

Keberhasilan pendekatan beku menunjukkan bahwa perilaku kompleks sudah laten dalam LLM yang telah dilatih sebelumnya. Peran metakontroler bukanlah untuk membangun perilaku ini dari awal tetapi untuk mengaktifkannya secara strategis. Hal ini menyiratkan bahwa pengembangan AI di masa depan mungkin tidak terlalu fokus pada pelatihan LLM dari awal dan lebih fokus pada menemukan cara untuk membuka kemampuan tersembunyi mereka.

Implikasi Praktis: Agen Otonom dan Selebihnya

Implikasi dari RL internal sangatlah signifikan. Hal ini memberikan jalur terukur menuju penciptaan agen otonom yang mampu menangani penalaran kompleks dan robotika dunia nyata tanpa campur tangan manusia terus-menerus. Hal ini dapat merevolusi industri yang bergantung pada otomatisasi, mulai dari pembuatan kode hingga logistik dan manufaktur.

Penelitian ini juga menunjukkan bahwa masa depan AI mungkin terletak pada “pemikiran diam” – proses penalaran internal yang tidak secara eksplisit dieksternalisasikan melalui rantai pemikiran yang panjang lebar. Jika mekanisme internal ini dapat dipandu dengan baik, maka strategi yang mendorong hal ini akan menjadi kurang penting, dan sistem AI akan menjadi lebih efisien dan mudah beradaptasi.

Kesimpulannya, Terobosan RL internal Google menunjukkan jalur yang menjanjikan dalam membangun agen AI yang lebih tangguh dan cerdas. Dengan mengalihkan fokus dari prediksi token ke manipulasi keadaan internal, teknik ini berpotensi membuka era baru sistem otonom yang dapat berpikir, merencanakan, dan beradaptasi dengan efisiensi yang belum pernah terjadi sebelumnya.