Исследователи Google представили новый подход к обучению искусственного интеллекта, получивший название «внутреннее обучение с подкреплением» (internal RL), который обходит фундаментальную проблему текущих больших языковых моделей (LLM). Эта методика фокусируется на манипулировании внутренними процессами ИИ-систем, а не на традиционном предсказании следующего токена (слова или символа) в последовательности. Результат: ИИ-агенты, способные к сложному рассуждению без частых ошибок и сбоев, которые преследуют существующие LLM.

Проблема с текущими LLM: Ошибки в долгосрочном планировании

Современные LLM превосходно генерируют текст, похожий на человеческий, но испытывают трудности в задачах, требующих последовательного, пошагового рассуждения. Это связано с тем, что они работают, предсказывая следующий токен в последовательности, процесс, который становится экспоненциально неэффективным при планировании на более длительные периоды времени. Вероятность случайно наткнуться на правильное многошаговое решение, по словам исследователей, составляет «около одного случая на миллион».

Основная проблема заключается в том, что эти модели ищут решения на неправильном уровне. Попытка решить сложные задачи токен за токеном — это как собирать головоломку по одной детали, не глядя на общую картину. Это особенно проблематично, когда вознаграждения редки — то есть успех случается редко, и ИИ получает мало обратной связи в процессе обучения.

Внутреннее RL: Направляя «мысли» ИИ

Внутреннее RL от Google решает эту проблему, вводя «метаконтроллер», который направляет внутренние активации модели — числовые значения, представляющие информацию внутри сети, — вместо непосредственного изменения выходных данных модели. По сути, этот контроллер подталкивает ИИ в конкретное, полезное состояние, позволяя ему использовать свои предварительные знания для автоматической генерации последующих шагов.

Этот подход не требует размеченных человеком данных для обучения. Метаконтроллер учится, анализируя полные последовательности поведения и выводя высокоуровневый замысел, который лучше всего объясняет действия. Это смещает фокус обучения с предсказания токенов на изучение абстрактных действий, ведущих к решению.

Ключевым преимуществом является то, что модель исследует на правильном уровне абстракции: она привержена плану, прежде чем потеряться в деталях. Один из исследователей объяснил это как возможность для ИИ структурировать логику и вызовы методов, не нарушая синтаксис, позволяя ему исследовать решения без ошибок.

Преимущество «замороженной» модели: Почему предварительное обучение имеет значение

Исследователи протестировали два метода применения метаконтроллера. Удивительно, но наиболее эффективный подход заключался в «замораживании» предварительно обученной LLM, то есть ее основные параметры не обновлялись во время обучения. Метаконтроллер затем обучался направлять внутреннее состояние этой замороженной модели. Совместное обучение как базовой модели, так и контроллера с нуля оказалось неэффективным.

Успех замороженного подхода предполагает, что сложные поведения уже скрыты внутри предварительно обученных LLM. Роль метаконтроллера не в том, чтобы создавать эти поведения с нуля, а в том, чтобы активировать их стратегически. Это подразумевает, что будущее развитие ИИ может быть сосредоточено меньше на обучении LLM с нуля и больше на поиске способов раскрытия их скрытых возможностей.

Практические применения: Автономные агенты и не только

Последствия внутреннего RL значительны. Он предоставляет масштабируемый путь к созданию автономных агентов, способных справляться со сложным рассуждением и робототехникой в реальном мире без постоянного вмешательства человека. Это может революционизировать отрасли, полагающиеся на автоматизацию, от генерации кода до логистики и производства.

Исследование также предполагает, что будущее ИИ может лежать в «тихих мыслях» — внутренних процессах рассуждения, которые не явно выражаются в многословных цепочках мыслей. Если этими внутренними механизмами можно надежно управлять, стратегии промптинга могут стать менее критичными, а ИИ-системы станут более эффективными и адаптивными.

В заключение, прорыв Google во внутреннем RL демонстрирует многообещающий путь к созданию более надежных и интеллектуальных ИИ-агентов. Переключив фокус с предсказания токенов на манипулирование внутренним состоянием, эта техника может открыть новую эру автономных систем, которые могут рассуждать, планировать и адаптироваться с беспрецедентной эффективностью.