Думать дольше — не значит умнее: новая ось масштабирования и её цена

Тема: inference-time scaling и адаптивное рассуждение — та самая ось «вычисления на генерации = интеллект», на которой стоял RLM, только теперь во весь рост и со своими подводными камнями.

Несколько лет рост ИИ означал одно: больше параметров, больше данных, больше вычислений на обучении. Потом эта кривая начала выполаживаться — каждый новый кусок данных приносит всё меньше уникального, отдача тает. И индустрия открыла вторую ось: добавлять вычисления не на обучении, а на генерации. Дать модели подумать дольше — и она решит то, что не решала с первого захода.

Звучит как чистая победа. На практике оказалось, что у «подумать ещё» есть точка, после которой становится хуже. Разберём и саму идею, и её предел — потому что это прямое продолжение оси, на которой стоял RLM из первого лонгрида.

Новая ось: ум на генерации, а не на обучении

Inference-time scaling (он же test-time compute) — это семейство методов, которые подкидывают модели вычисления во время инференса, а не обучения. Способов много. Можно растянуть одну цепочку рассуждения подлиннее. Можно сгенерировать несколько независимых решений и выбрать ответ голосованием — best-of-N. Можно гонять поиск по дереву вариантов, как в Tree-of-Thoughts. Можно подключить верификатор, который направляет генерацию, и бюджет-форсинг, который ею управляет.

Объединяет их одна интуиция: для части трудных задач лучшее решение проявляется, если дать модели время подумать или несколько попыток себя поправить — то, чего в одном forward-проходе просто нет. Именно так устроены reasoning-модели вроде o1/o3 и DeepSeek R1. И именно сюда лаборатории повернули, когда обучающая кривая стала выдыхаться: новая ось там, где старая уперлась.

За это приходит счёт

Здесь начинается то, о чём в рекламе reasoning-режимов говорят неохотно.

Размышление стоит денег, и считается оно нелинейно. Модель в режиме рассуждения генерирует скрытые «токены мышления» — они никогда не появляются в финальном пузыре ответа, но исправно капают в счёт. Сгенерировать 8 тысяч токенов стоит в 16 раз дороже, чем 500. То есть включение «подумать» — это не безобидный тумблер, а осознанное обязательство по ресурсам.

Для продуктовых команд это превращает выбор модели в операционный компромисс — треугольник «стоимость–качество–латентность». Финансисты смотрят на тающую маржу из-за стоимости токенов, инженеры — на p95-латентность, пока модель «думает». А поскольку к 2026-му основная доля спроса на вычисления приходится уже на инференс, а не на обучение, этот счёт — не мелочь на полях, а центр расходов.

Когда «подумать ещё» делает хуже

И вот ядро, ради которого стоит читать дальше: больше размышления — не монотонно лучше.

Несколько работ 2025–2026 годов независимо показали один и тот же паттерн. Сначала добавочное мышление помогает, потом качество падает — наступает overthinking. Модель перемудривает, начинает сомневаться в верной первой интуиции и приходит к неправильному ответу. У этого есть даже своя механика: в одной из работ простая вероятностная модель показывает, что лишнее мышление повышает дисперсию вывода — создаёт иллюзию улучшенного рассуждения, подрывая при этом точность. Кажется, что модель думает глубже, а на деле просто шумит сильнее.

Отсюда неприятное следствие: раз качество немонотонно по числу токенов, надёжного критерия «когда остановиться» нет — а значит, стратегия «растянуть одну цепочку подлиннее» хрупкая по своей сути.

Цифры добавляют конкретики. Лёгкие задачи переходят порог перемудривания примерно на 2 тысячах токенов, трудные — около 8 тысяч. Apple в своём исследовании назвала это «ловушкой мышления»: reasoning-модели жгут тысячи токенов на примитиве вроде «прибавь 1 к 9900», и на таких простых задачах обычная модель точнее и без лишних расходов. А на по-настоящему сложных не спасает ни та, ни другая — лишние токены не чинят фундаментальных провалов в точной арифметике. Твой счёт взрывается, а толку ноль, если приложить рассуждение к задаче не того уровня.

Лекарство: думать адаптивно и параллельно

Если коротко, проблема нынешних моделей в том, что они тратят фиксированный бюджет вычислений независимо от сложности: перемудривают простое и недомысливают трудное. Отсюда два лекарства, к которым сходится поле.

Первое — адаптивность. Не фиксированный бюджет, а динамический: модель модулирует объём вычислений под сложность входа и собственную уверенность. В обзорах это прямо выделяют как отдельный уровень зрелости — не просто «управляемый бюджет», а «адаптивный». Продуктовый ответ на это — режимы вроде Adaptive Thinking, где модель сама подкручивает глубину рассуждения под задачу. Сюда же — пороги уверенности и право воздержаться, когда модель не уверена.

Второе — параллельно вместо последовательно. Вместо того чтобы тянуть одну цепочку всё дальше (и попадать в overthinking), лучше раздать тот же бюджет токенов на несколько независимых траекторий и выбрать ответ голосованием. Это обходит разрастание энтропии, обходит ловушку перемудривания и стабильно даёт результат лучше, чем одна длинная цепочка. Грубо говоря: не один человек, думающий до головной боли, а пятеро, подумавших по отдельности, и общее решение.

Где это сходится с твоим

Тут три прямые связки с тем, чем ты занят.

Первая — это та же ось, что и RLM из первого лонгрида. RLM был inference-time scaling для контекста: трать вычисления, чтобы опросить огромный вход. Здесь — inference-time scaling для рассуждения. Одна и та же идея покупки способности вычислениями на генерации, просто приложенная к разным узким местам.

Вторая — экономика, и она бьёт прямо по полигону. Гонять reasoning-модель локально — это тот самый скрытый всплеск токенов и латентности. Если на полигоне крутятся рассуждающие модели, бюджет надо считать по нагрузке размышления, а не по длине видимого ответа, и адаптивный режим тут не роскошь, а способ не сжечь железо впустую.

Третья — самая концептуальная, и она смыкает эту тему с лонгридом про верификацию. Раз «мышление» немонотонно и местами иллюзорно — выросла дисперсия, а не точность, — то доверять самой цепочке рассуждения как доказательству нельзя. Проверять надо результат и действие, а не красивый ход мысли, который мог оказаться шумом. И ещё: «подбирать усилие под сложность» — это ровно та же интуиция, что и твой градиент R0–R5. Адаптивное вычисление подгоняет глубину размышления под трудность; твоя архитектура подгоняет строгость проверки под необратимость. И там, и там суть одна — не лить максимум усилий на всё подряд, а маршрутизировать по ставкам. Поле приходит к этому в рассуждении; у тебя это уже зашито в верификацию.

Что это значит

Inference-time scaling — настоящая новая ось, и она реально открывает то, чего не было в одном проходе. Но это не бесплатный обед: счёт растёт нелинейно, латентность кусается, а «подумать ещё» немонотонно — после некоторой точки добавочное размышление повышает дисперсию и портит ответ, а фундаментальных дыр всё равно не закрывает. Зрелый ход — не «думать больше», а думать адаптивно и параллельно: подгонять усилие под сложность и раскладывать бюджет на несколько траекторий.

Для тебя это и подтверждение оси, на которой стоит RLM, и напоминание по экономике полигона, и ещё один аргумент в пользу твоей логики: доверяй проверенному результату, а усилие — хоть вычислительное, хоть верификационное — распределяй по ставкам, а не размазывай ровным слоем.

Источники

«When More Thinking Hurts» — arXiv:2604.10739 (overthinking, flip events, адаптивная остановка)
«Does Thinking More Always Help? Mirage of Test-Time Scaling» — arXiv:2506.04210 (рост дисперсии, немонотонность, параллельное мышление)
«Reasoning on a Budget» (обзор) — arXiv:2507.02076 (фиксированный vs адаптивный бюджет, L1/L2)
«Scaling over Scaling» — arXiv:2505.20522 (плато масштабирования)
Test-time scaling, обзор техник — Emergent Mind (budget forcing, verifier-guided, Tree-of-Thoughts, best-of-N)
Towards Data Science: inference scaling и счёт за вычисления (8K = 16× к 500; Apple «thinking trap»; треугольник стоимость-качество-латентность)

Telegram-канал

Системный синтез

Искусственный интеллект на пересечении технической и юридической реальности.

Подписаться на канал →

Новая ось: ум на генерации, а не на обучении

За это приходит счёт

Когда «подумать ещё» делает хуже

Лекарство: думать адаптивно и параллельно

Где это сходится с твоим

Что это значит

Источники

Системный синтез

Библиотека исследований

Исключение из реестра КИИ 2026–2027

Куда перетекут ₽10-16 трлн за 3 года (Капитал и Хаос часть 1 из 5)

ИИ-агент: от советчика к исполнителю