Додому Останні новини та статті Прорив Google у внутрішньому підкріплюючому навчанні: вихід ШІ за межі обмежень підходу...

Прорив Google у внутрішньому підкріплюючому навчанні: вихід ШІ за межі обмежень підходу маркерів

Дослідники Google представили новий підхід до навчання штучного інтелекту, який називається внутрішнім навчанням з підкріпленням (internal RL), який дозволяє обійти фундаментальну проблему сучасних великих мовних моделей (LLM). Ця техніка зосереджена на маніпулюванні внутрішніми процесами систем ШІ, а не на традиційному передбаченні наступного токена (слова чи символу) у послідовності. Результат: агенти штучного інтелекту, здатні до складних міркувань без частих помилок і збоїв, якими страждають існуючі LLM.

Проблема з поточними LLM: помилки в довгостроковому плануванні

Сучасні магістратури прекрасно справляються зі створенням тексту, схожого на людину, але мають проблеми із завданнями, які вимагають послідовного, покрокового міркування. Це пов’язано з тим, що вони працюють, передбачаючи наступний маркер у послідовності, процес, який стає експоненціально неефективним, якщо планувати його на довший період часу. Шанс випадково натрапити на правильне багатоетапне рішення, за словами дослідників, становить «приблизно один до мільйона».

Основна проблема полягає в тому, що ці моделі шукають рішення не на тому рівні. Намагатися розв’язувати складні проблеми по черзі — це все одно, що складати пазл по частині, не дивлячись на загальну картину. Це особливо проблематично, коли винагороди рідкісні, тобто успіх рідкісний і штучний інтелект отримує мало зворотного зв’язку під час навчання.

Внутрішній RL: Керівництво «думками» ШІ

Внутрішній RL Google вирішує цю проблему, вводячи «метаконтролер», який керує внутрішніми активаціями моделі — числовими значеннями, які представляють інформацію в мережі, — замість того, щоб безпосередньо змінювати вихідні дані моделі. По суті, цей контролер підштовхує ШІ до певного корисного стану, дозволяючи йому використовувати свої попередні знання для автоматичної генерації наступних кроків.

Цей підхід не потребує даних, позначених людиною, для навчання. Метаконтролер навчається, аналізуючи повну послідовність поведінки та виводячи намір високого рівня, який найкраще пояснює дії. Це зміщує фокус навчання з передбачення токенів на вивчення абстрактних дій, які ведуть до рішення.

Ключова перевага полягає в тому, що модель досліджує на правильному рівні абстракції: вона зобов’язується створити план, перш ніж загубитися в деталях. Один із дослідників пояснив це можливістю для штучного інтелекту структурувати логіку та виклики методів без порушення синтаксису, дозволяючи досліджувати рішення без помилок.

Перевага моделі Frozen: Чому попереднє навчання має значення

Дослідники перевірили два методи використання метаконтролера. Дивно, але найефективнішим підходом було «заморозити» попередньо підготовлений LLM, тобто його основні параметри не оновлювалися під час навчання. Потім метаконтролер навчили керувати внутрішнім станом цієї замороженої моделі. Спільне навчання як базової моделі, так і контролера з нуля виявилося неефективним.

Успіх замороженого підходу припускає, що складна поведінка вже прихована в межах попередньо навчених LLM. Роль метаконтролера полягає не в тому, щоб створити таку поведінку з нуля, а в тому, щоб активувати її стратегічно. Це означає, що майбутня розробка штучного інтелекту може зосереджуватися менше на навчанні LLM з нуля, а більше на пошуку способів розблокувати їхні приховані можливості.

Практичні застосування: автономні агенти тощо

Наслідки внутрішнього РЛ значні. Він забезпечує масштабований шлях до створення автономних агентів, здатних працювати зі складними міркуваннями та робототехнікою в реальному світі без постійного втручання людини. Це може революціонізувати галузі, які покладаються на автоматизацію, від створення коду до логістики та виробництва.

Дослідження також припускає, що майбутнє штучного інтелекту може полягати в «тихих думках» — внутрішніх процесах міркування, які явно не виражені в багатослівних ланках думок. Якщо ці внутрішні механізми можна надійно контролювати, стратегії підказок можуть стати менш критичними, а системи штучного інтелекту можуть стати більш ефективними та адаптивними.

На завершення прорив Google у внутрішній RL показує багатообіцяючий шлях до створення більш надійних і розумних агентів ШІ. Перемістивши фокус з передбачення токенів на маніпуляції внутрішнім станом, ця техніка може започаткувати нову еру автономних систем, які можуть міркувати, планувати та адаптуватися з безпрецедентною ефективністю.

Exit mobile version