Додому Последние новости и статьи Прорыв Google во внутренней обучении с подкреплением: Направляя ИИ за пределы ограничений...

Последние новости и статьи

Прорыв Google во внутренней обучении с подкреплением: Направляя ИИ за пределы ограничений токенового подхода

по

maxwelhelp

22.01.2026

Исследователи Google представили новый подход к обучению искусственного интеллекта, получивший название «внутреннее обучение с подкреплением» (internal RL), который обходит фундаментальную проблему текущих больших языковых моделей (LLM). Эта методика фокусируется на манипулировании внутренними процессами ИИ-систем, а не на традиционном предсказании следующего токена (слова или символа) в последовательности. Результат: ИИ-агенты, способные к сложному рассуждению без частых ошибок и сбоев, которые преследуют существующие LLM.

Проблема с текущими LLM: Ошибки в долгосрочном планировании

Современные LLM превосходно генерируют текст, похожий на человеческий, но испытывают трудности в задачах, требующих последовательного, пошагового рассуждения. Это связано с тем, что они работают, предсказывая следующий токен в последовательности, процесс, который становится экспоненциально неэффективным при планировании на более длительные периоды времени. Вероятность случайно наткнуться на правильное многошаговое решение, по словам исследователей, составляет «около одного случая на миллион».

Основная проблема заключается в том, что эти модели ищут решения на неправильном уровне. Попытка решить сложные задачи токен за токеном — это как собирать головоломку по одной детали, не глядя на общую картину. Это особенно проблематично, когда вознаграждения редки — то есть успех случается редко, и ИИ получает мало обратной связи в процессе обучения.

Внутреннее RL: Направляя «мысли» ИИ

Внутреннее RL от Google решает эту проблему, вводя «метаконтроллер», который направляет внутренние активации модели — числовые значения, представляющие информацию внутри сети, — вместо непосредственного изменения выходных данных модели. По сути, этот контроллер подталкивает ИИ в конкретное, полезное состояние, позволяя ему использовать свои предварительные знания для автоматической генерации последующих шагов.

Этот подход не требует размеченных человеком данных для обучения. Метаконтроллер учится, анализируя полные последовательности поведения и выводя высокоуровневый замысел, который лучше всего объясняет действия. Это смещает фокус обучения с предсказания токенов на изучение абстрактных действий, ведущих к решению.

Ключевым преимуществом является то, что модель исследует на правильном уровне абстракции: она привержена плану, прежде чем потеряться в деталях. Один из исследователей объяснил это как возможность для ИИ структурировать логику и вызовы методов, не нарушая синтаксис, позволяя ему исследовать решения без ошибок.

Преимущество «замороженной» модели: Почему предварительное обучение имеет значение

Исследователи протестировали два метода применения метаконтроллера. Удивительно, но наиболее эффективный подход заключался в «замораживании» предварительно обученной LLM, то есть ее основные параметры не обновлялись во время обучения. Метаконтроллер затем обучался направлять внутреннее состояние этой замороженной модели. Совместное обучение как базовой модели, так и контроллера с нуля оказалось неэффективным.

Успех замороженного подхода предполагает, что сложные поведения уже скрыты внутри предварительно обученных LLM. Роль метаконтроллера не в том, чтобы создавать эти поведения с нуля, а в том, чтобы активировать их стратегически. Это подразумевает, что будущее развитие ИИ может быть сосредоточено меньше на обучении LLM с нуля и больше на поиске способов раскрытия их скрытых возможностей.

Практические применения: Автономные агенты и не только

Последствия внутреннего RL значительны. Он предоставляет масштабируемый путь к созданию автономных агентов, способных справляться со сложным рассуждением и робототехникой в реальном мире без постоянного вмешательства человека. Это может революционизировать отрасли, полагающиеся на автоматизацию, от генерации кода до логистики и производства.

Исследование также предполагает, что будущее ИИ может лежать в «тихих мыслях» — внутренних процессах рассуждения, которые не явно выражаются в многословных цепочках мыслей. Если этими внутренними механизмами можно надежно управлять, стратегии промптинга могут стать менее критичными, а ИИ-системы станут более эффективными и адаптивными.

В заключение, прорыв Google во внутреннем RL демонстрирует многообещающий путь к созданию более надежных и интеллектуальных ИИ-агентов. Переключив фокус с предсказания токенов на манипулирование внутренним состоянием, эта техника может открыть новую эру автономных систем, которые могут рассуждать, планировать и адаптироваться с беспрецедентной эффективностью.

Прорыв Google во внутренней обучении с подкреплением: Направляя ИИ за пределы ограничений токенового подхода

Проблема с текущими LLM: Ошибки в долгосрочном планировании

Внутреннее RL: Направляя «мысли» ИИ

Преимущество «замороженной» модели: Почему предварительное обучение имеет значение

Практические применения: Автономные агенты и не только

Це цікаво!

Claude Code: Руководство для Не-Программистов по AI-Революции в Продуктивности

iPhone 17e Получит Dynamic Island и Обновлённый Дисплей – Подтверждено

Индийский AI-стартап Emergent утроил оценку в рапид-раунде финансирования

Microsoft Office 2019 Pro Plus: Пожизненная лицензия всего за 20 долларов

Скидка Более 50% на 77-Дюймовый OLED-телевизор Samsung в Amazon

Фітнес-клуб у Києві: Як вибрати ідеальне місце для здорового способу життя

Як створити зображення за допомогою BNX AI Image Generator: покрокова інструкція...

Як правильно вибрати будинок для людей похилого віку: поради для родичів

Оберіть старість гідно: як вибрати Будинок‑інтернат «Оберіг» чи інший заклад для...

Детейлінг авто у Києві: професійний догляд від 2 Brothers Detailing

ВИБІР РЕДАКТОРА

Индийский AI-стартап Emergent утроил оценку в рапид-раунде финансирования

iPhone 17e Получит Dynamic Island и Обновлённый Дисплей – Подтверждено

Сбой в Сети Verizon Временем Прервал Доступ к 911 для Части...

ПОПУЛЯРНІ ПОВІДОМЛЕННЯ

Улучшите свою потоковую передачу: Amazon Fire TV Stick 4K Max по...

Раскрытие отношений Дэна и Фила: мастер-класс по взаимодействию с парасоциальными отношениями

Приглушение стекла: настройка «Жидкой стали» в iOS 26.1

ПОПУЛЯРНА КАТЕГОРІЯ