Исследователи Google представили новый подход к обучению искусственного интеллекта, получивший название «внутреннее обучение с подкреплением» (internal RL), который обходит фундаментальную проблему текущих больших языковых моделей (LLM). Эта методика фокусируется на манипулировании внутренними процессами ИИ-систем, а не на традиционном предсказании следующего токена (слова или символа) в последовательности. Результат: ИИ-агенты, способные к сложному рассуждению без частых ошибок и сбоев, которые преследуют существующие LLM.
Проблема с текущими LLM: Ошибки в долгосрочном планировании
Современные LLM превосходно генерируют текст, похожий на человеческий, но испытывают трудности в задачах, требующих последовательного, пошагового рассуждения. Это связано с тем, что они работают, предсказывая следующий токен в последовательности, процесс, который становится экспоненциально неэффективным при планировании на более длительные периоды времени. Вероятность случайно наткнуться на правильное многошаговое решение, по словам исследователей, составляет «около одного случая на миллион».
Основная проблема заключается в том, что эти модели ищут решения на неправильном уровне. Попытка решить сложные задачи токен за токеном — это как собирать головоломку по одной детали, не глядя на общую картину. Это особенно проблематично, когда вознаграждения редки — то есть успех случается редко, и ИИ получает мало обратной связи в процессе обучения.
Внутреннее RL: Направляя «мысли» ИИ
Внутреннее RL от Google решает эту проблему, вводя «метаконтроллер», который направляет внутренние активации модели — числовые значения, представляющие информацию внутри сети, — вместо непосредственного изменения выходных данных модели. По сути, этот контроллер подталкивает ИИ в конкретное, полезное состояние, позволяя ему использовать свои предварительные знания для автоматической генерации последующих шагов.
Этот подход не требует размеченных человеком данных для обучения. Метаконтроллер учится, анализируя полные последовательности поведения и выводя высокоуровневый замысел, который лучше всего объясняет действия. Это смещает фокус обучения с предсказания токенов на изучение абстрактных действий, ведущих к решению.
Ключевым преимуществом является то, что модель исследует на правильном уровне абстракции: она привержена плану, прежде чем потеряться в деталях. Один из исследователей объяснил это как возможность для ИИ структурировать логику и вызовы методов, не нарушая синтаксис, позволяя ему исследовать решения без ошибок.
Преимущество «замороженной» модели: Почему предварительное обучение имеет значение
Исследователи протестировали два метода применения метаконтроллера. Удивительно, но наиболее эффективный подход заключался в «замораживании» предварительно обученной LLM, то есть ее основные параметры не обновлялись во время обучения. Метаконтроллер затем обучался направлять внутреннее состояние этой замороженной модели. Совместное обучение как базовой модели, так и контроллера с нуля оказалось неэффективным.
Успех замороженного подхода предполагает, что сложные поведения уже скрыты внутри предварительно обученных LLM. Роль метаконтроллера не в том, чтобы создавать эти поведения с нуля, а в том, чтобы активировать их стратегически. Это подразумевает, что будущее развитие ИИ может быть сосредоточено меньше на обучении LLM с нуля и больше на поиске способов раскрытия их скрытых возможностей.
Практические применения: Автономные агенты и не только
Последствия внутреннего RL значительны. Он предоставляет масштабируемый путь к созданию автономных агентов, способных справляться со сложным рассуждением и робототехникой в реальном мире без постоянного вмешательства человека. Это может революционизировать отрасли, полагающиеся на автоматизацию, от генерации кода до логистики и производства.
Исследование также предполагает, что будущее ИИ может лежать в «тихих мыслях» — внутренних процессах рассуждения, которые не явно выражаются в многословных цепочках мыслей. Если этими внутренними механизмами можно надежно управлять, стратегии промптинга могут стать менее критичными, а ИИ-системы станут более эффективными и адаптивными.
В заключение, прорыв Google во внутреннем RL демонстрирует многообещающий путь к созданию более надежных и интеллектуальных ИИ-агентов. Переключив фокус с предсказания токенов на манипулирование внутренним состоянием, эта техника может открыть новую эру автономных систем, которые могут рассуждать, планировать и адаптироваться с беспрецедентной эффективностью.

























