Test-Time Compute
test-time compute — модель отвечает лучше не потому что больше, а потому что ей дали время подумать
Test-Time Compute (вычисления во время вывода, inference-time scaling) — подход, при котором модель отвечает точнее не за счёт большего размера, а за счёт того, что ей дают больше вычислений в момент ответа: она «думает дольше», генерируя цепочку рассуждений перед финальным ответом. Это третья ось масштабирования — вдобавок к размеру модели и объёму обучающих данных. На ней построены reasoning-модели o1 и o3 (OpenAI), DeepSeek-R1 и Gemini Thinking; именно она дала o3 скачок на тесте ARC-AGI с 5% до 87,5%.
Коротко
Коротко. Test-Time Compute — это «думать дольше вместо того, чтобы быть больше». Раньше путь к умной модели был один: больше параметров, больше данных, больше GPU при обучении. Новая ось — давать модели больше вычислений в момент ответа: пусть генерирует длинную внутреннюю цепочку рассуждений, проверяет себя, переписывает. Эффект ошеломляющий: маленькая модель с грамотно выделенным временем на размышление может обойти модель в 14 раз больше. Именно так o3 от OpenAI прыгнул на тесте ARC-AGI с 5% до 87,5% — за одну зиму.
Что это такое
Дайте гроссмейстеру минуту на ход — он сыграет сильно. Дайте ему час — он сыграет блестяще. Мозг тот же. Изменилось только одно: время на обдумывание. Один и тот же шахматист в классическом контроле и в блице — это две разные силы игры при одной и той же голове.
Ровно это произошло с языковыми моделями в 2024–2025 годах. Десять лет рецепт ума был один: чтобы модель стала лучше, её нужно сделать больше — больше параметров, больше данных, больше видеокарт на обучении. Это работало (так появились GPT-3 и GPT-4), но упиралось в стену стоимости и физики.
И тут выяснилось, что есть второй рычаг. Можно не трогать размер модели вообще, а просто дать ей думать дольше в момент ответа. Пусть перед финальной репликой она генерирует сотни и тысячи «черновых» токенов рассуждения: прикидывает, проверяет, замечает ошибку, переписывает. Веса не меняются ни на байт — меняется только количество вычислений, потраченных на конкретный вопрос.
В августе 2024-го команда Google DeepMind показала это строго: на задачах средней сложности маленькая модель с оптимально выделенным «временем на раздумье» обходит модель в 14 раз большую. А через месяц OpenAI выпустила o1 — первую публичную модель, которая по-настоящему «думает» перед ответом. Так у масштабирования появилась третья ось, и индустрия развернулась.
Как это работает
«Думать дольше» можно двумя способами, и обычно их сочетают.
Параллельный путь. Сгенерировать не один ответ, а N штук, а потом выбрать лучший — либо голосованием (если большинство сошлось на одном ответе, он, скорее всего, верный), либо отдельной моделью-проверяющей, которая оценивает каждый шаг рассуждения. Чем больше попыток, тем выше шанс наткнуться на правильную.
Последовательный путь. Заставить модель генерировать длинную цепочку рассуждений до ответа: разложить задачу на шаги, проверить промежуточные выводы, вернуться и исправить ошибку. Каждый «токен мысли» стоит вычислений, но повышает точность.
Есть и трюки управления. В работе Stanford про модель s1 (январь 2025) описан budget forcing — «принуждение к раздумью». Когда модель пытается закруглиться, ей просто дописывают слово Wait — и она продолжает думать, часто исправляя только что сделанную ошибку. Наоборот, можно оборвать рассуждение и потребовать ответ прямо сейчас. В современных продуктах это вынесено в явную ручку — thinking budget: малый бюджет даёт быстрый ответ, большой — глубокое рассуждение.
Почему «маленькая модель + много раздумья» бьёт большую? Потому что на задаче средней сложности базовая модель часто «знает» ответ, но с первого выстрела промахивается. Дайте ей переспросить себя несколько раз и проверить — и она нащупает верный путь. На самых же сложных задачах это не спасает: там, по данным DeepMind, наращивание размера модели всё ещё эффективнее примерно на 30%.
Пример на практике
Декабрь 2024-го. У теста ARC-AGI особая репутация: его создатель Франсуа Шоле специально построил его так, чтобы нельзя было пройти зубрёжкой паттернов. С 2020 по 2024 год лучший результат ИИ медленно полз с нуля до 5% (GPT-4o). Средний человек решает около 85%.
И вот OpenAI показывает o3. В экономном режиме — 75,7% при цене порядка 20 долларов за задачу. А в режиме «думать на полную» — 87,5%, выше среднего человека. Цена этого режима: в 172 раза больше вычислений, около 3400 долларов за одну задачу. Шоле назвал результат шоком: «Я не ожидал такого прогресса в 2024-м».
Та же логика — у DeepSeek-R1, вышедшего в январе 2025-го с открытыми весами. На олимпиадной математике AIME он берёт около 80% — вровень с o1, — но в API он на 90–95% дешевле. Секрет в том, что R1 генерирует очень длинные рассуждения: где обычная модель тратит 500–2000 токенов, reasoning-модель легко уходит в 6000–11000. Она буквально платит токенами за точность.
С чем часто путают
- Test-time compute и обучение модели — обучение (pretraining scaling) меняет веса: больше данных и параметров делают саму модель умнее раз и навсегда. Test-time compute веса не трогает — он тратит вычисления на конкретный вопрос здесь и сейчас. Два разных рычага.
- Test-time compute и Reasoning Models — reasoning-модели (o1, o3, DeepSeek-R1, Gemini Thinking) — это продукты, а test-time compute — механизм внутри них. Дать модели «подумать дольше» можно и без специального обучения.
- Test-time compute и chain-of-thought в промпте — когда вы пишете «думай пошагово», вы инструктируете модель вручную. Reasoning-модели обучены генерировать такую цепочку сами, через обучение с подкреплением, и часто прячут её от пользователя.
- Test-time compute и «просто подождать дольше» — дело не в медленном железе. Эффект даёт не время на часах, а количество сгенерированных токенов рассуждения. Медленная видеокарта сама по себе модель умнее не делает.
- Test-time compute и RAG — RAG подмешивает в контекст внешние знания (поиск, документы). Test-time compute заставляет глубже думать над тем, что уже известно. Это ортогональные вещи, их можно совмещать.
Частые ошибки и заблуждения
- «Чем дольше думать, тем всегда лучше». Нет. Существует «overthinking»: на математике AIME точность начинает падать после примерно 7000 токенов рассуждения — модель уговаривает себя отказаться от изначально верного ответа. У каждой задачи свой оптимум.
- «Это просто длиннее ответ». Нет. Раздумье — это промежуточные токены, которые часто скрыты от пользователя (в o1 их не показывают). Финальный ответ может быть таким же коротким.
- «Работает только для математики». o3 применяет это к коду (рейтинг Codeforces уровня топ-200 программистов мира), к науке, к пространственным головоломкам ARC. Подход полезен везде, где решение требует многошагового рассуждения.
- «Это обесценивает большие модели». На самых сложных задачах наращивание размера модели всё ещё выигрывает (DeepMind: примерно на 30%). Умная стратегия — выделять «время на раздумье» по сложности задачи, а не заменять им большие модели целиком.
Связанные термины
- Reasoning Models — категория продуктов (o1, o3, R1, Gemini Thinking), для которых test-time compute — главный двигатель.
- Inference — этап генерации ответа, на который и накладывается «время на раздумье».
- DeepSeek — открытая reasoning-модель R1, показавшая те же результаты в разы дешевле.
- Token — единица, которой измеряется «глубина думания».
- Benchmark — тесты вроде ARC-AGI и AIME, на которых эффект и замеряют.
- Cost per Token — ключевая экономика: «думающие» токены делают ответ дороже.
Частые вопросы
Почему маленькая модель с раздумьем обходит большую? На задачах средней сложности базовая модель часто знает ответ, но промахивается с первой попытки. Несколько проверок и переписываний дают ей нащупать верный путь — без увеличения размера.
Это то же самое, что reasoning-модели? Нет. Reasoning-модели — продукты, test-time compute — механизм, который они используют. Это «двигатель», а не «марка машины».
Думать всегда полезно? Нет. После некоторого порога точность выходит на плато или даже падает — феномен overthinking. У каждой задачи свой оптимальный «бюджет раздумья».
Почему это так дорого? Глубокое рассуждение тратит в разы больше токенов, а каждый токен — это вычисления. Поэтому в продуктах thinking budget включают выборочно.
Это конец эпохи «больших моделей»? Нет, это новая ось вдобавок к старой. На самых сложных задачах размер по-прежнему важен. Будущее — за гибридом: большая база плюс умение тратить вычисления на раздумье там, где они окупаются.
Главное
Test-Time Compute — это сдвиг от «сделать модель больше» к «дать модели подумать». Третья ось масштабирования, рядом с размером модели и объёмом данных: точность растёт не от новых весов, а от вычислений, потраченных на конкретный ответ. Механизм — длинные цепочки рассуждений, голосование между попытками, проверка себя и приёмы вроде budget forcing. Эффект драматичен: маленькая модель с грамотным раздумьем обходит модель в 14 раз больше, а o3 за одну зиму поднял ARC-AGI с 5% до выше человеческого уровня. Но у этого ума есть пределы и ценник: после некоторого порога раздумье вредит (overthinking), а «думающий» ответ может стоить в сотни раз дороже быстрого. Поэтому индустрия пришла к thinking budget — включать глубину под трудную задачу и беречь её на простой. Главная мысль проста, как шахматные часы: иногда, чтобы ответить умнее, нужен не больший мозг, а больше времени на ход.