Reasoning Models
reasoning models — модели, которые «думают» перед ответом
Reasoning Models — категория LLM, которые перед финальным ответом проходят через явный chain-of-thought (внутренний диалог), пробуя гипотезы, переоценивая, исправляя ошибки. OpenAI o1 (2024) задал тренд, к 2026 у каждого фронтира — свой reasoning-режим: o3, Claude Thinking, Gemini Thinking, DeepSeek R1, Grok Think. Сильнее обычных LLM в математике, кодинге, сложной логике. Дороже и медленнее в 10× — но решают то, что обычные не могут.
Коротко
Коротко. Reasoning Models — категория LLM, которые перед финальным ответом проходят расширенный chain-of-thought (внутренний диалог): пробуют решения, проверяют, исправляют ошибки. OpenAI выпустила первую публичную — o1 — в сентябре 2024. К 2026 у каждого фронтира свой reasoning-режим: o3, Claude Thinking, Gemini Thinking, DeepSeek R1, Grok Think. Превосходят обычные LLM в математике, олимпиадных задачах, сложном кодинге. Дороже и медленнее в 10×.
Что это такое
12 сентября 2024-го. OpenAI релизит o1-preview. Демо не похоже на ChatGPT: модель «думает» 30 секунд, выдаёт текст «Thinking…», потом разворачивает ответ. На бенчмарках по математике (AIME) — рост с 13.4% (GPT-4o) до 83.3%. На International Mathematical Olympiad — золото человеческого уровня. Это не инкрементальное улучшение — это качественный сдвиг.
К 2026 reasoning-режимы есть у каждого фронтира:
- OpenAI o3 (2025) — наследник o1, ещё умнее.
- OpenAI o3-mini — быстрая, дешёвая reasoning-модель.
- Claude Opus 4 Thinking (Anthropic) — расширенное «extended thinking».
- Gemini 2.5 Thinking (Google) — встроено в Gemini 2.5.
- DeepSeek R1 (2025) — open-source reasoning-модель, шумиха «competitive for $5M training».
- Grok 3 Think (xAI) — reasoning-режим в Grok 3.
- Qwen QwQ (Alibaba) — open-source.
Главная разница от обычных LLM:
- Обычная LLM: прочитала вопрос → сгенерировала ответ за 1-2 секунды.
- Reasoning model: прочитала вопрос → внутренне «подумала» 10-60 секунд (генерируя сотни-тысячи «invisible» токенов мышления) → выдала ответ.
«Невидимые» токены мышления модель использует, чтобы:
- Разобрать задачу на части.
- Попробовать решение, проверить, найти ошибку, поправить.
- Перебрать несколько подходов.
- Свериться с условием задачи.
Как это работает
Под капотом — базовая LLM (transformer), но обученная по-другому. Ключевые ингредиенты:
- Reinforcement Learning от выходов CoT. Модель учат не просто отвечать, а отвечать после долгого внутреннего рассуждения. Награда за правильный ответ — обратная связь идёт через всю цепочку мышления.
- Test-time compute. В отличие от классических LLM, на инференсе модель тратит больше compute (генерирует больше токенов до финального ответа). Это даёт ей возможность «думать сложнее».
- Self-correction. Если в середине рассуждения модель замечает противоречие — она возвращается, пересматривает.
- Hidden chain-of-thought. В o1 от OpenAI «мысли» скрыты от пользователя (показан только summary), чтобы конкуренты не могли тренироваться на них. В DeepSeek R1, Claude Thinking — мысли видимы.
Где reasoning-модели особенно сильны:
- Математика и олимпиадные задачи — AIME, IMO.
- Сложный кодинг — алгоритмы, оптимизации, архитектурные задачи.
- Логические задачи — Сократические парадоксы, multi-step inference.
- Научные задачи — биохимия, физика, доказательства.
- Стратегические решения — анализ ситуации с многими переменными.
Где обычные LLM лучше:
- Простые чаты — приветствие, краткие факты, small talk.
- Стиль и тон — переписать абзац в дружелюбном стиле.
- Творчество — поэзия, художественный текст.
- Скорость — когда нужен ответ за 1 секунду.
Пример на практике
Студент готовится к олимпиаде по математике. Задача:
«Найдите все натуральные
n, для которых2^n + n^2делится на 7.»
Обычная LLM (GPT-4o):
Думает 1-2 секунды. Ответ: «n = 3» (не проверяя, неправильно).
Reasoning model (o1):
Думает 25 секунд внутри:
[invisible thinking]
- 2^n mod 7 цикличен с периодом 3: {2, 4, 1, 2, 4, 1, ...}
- n^2 mod 7 цикличен с периодом 7: {1, 4, 2, 2, 4, 1, 0, 1, 4, ...}
- Общий период = НОК(3, 7) = 21
- Перебираю n от 1 до 21, проверяю (2^n + n^2) mod 7 == 0
- n=1: 2+1=3, n=2: 4+4=8≡1, n=3: 1+9=10≡3, n=4: 2+16=18≡4...
- ...полный перебор...
- Нашёл: n ∈ {6, 10, 13, 17, 20} (mod 21)
- Значит ответ: n ≡ 6, 10, 13, 17, 20 (mod 21)
Финальный ответ: правильный + объяснение для проверки.
Скорость: o1 — 25 секунд vs GPT-4o — 2 секунды. Цена: o1 в ~10× дороже.
import openai
client = openai.OpenAI()
response = client.chat.completions.create(
model="o1",
messages=[{"role": "user", "content": problem}],
reasoning_effort="high" # сколько думать
)
print(response.choices[0].message.content)
ComfyUI пока в основном работает с обычными LLM, но через API можно подключить reasoning-модели для control-логики в сложных workflow.
С чем часто путают
- Reasoning Models и Chain-of-Thought (CoT) prompting — CoT это техника промпта (попросить модель «think step-by-step»). Reasoning Models — модели, у которых CoT встроен в обучение, его не надо просить.
- o1 и o3 — o1 (2024) — первая. o3 (2025) — наследник, существенно умнее.
- Reasoning и Agentic — Reasoning это про «глубоко подумать». Agentic — про «выполнить действия». Они дополняют друг друга, не противоречат.
- Reasoning Models и большие LLM — большие классические LLM (GPT-5) умнее средних, но не reasoning. Reasoning — это другая ось: дать модели время на сложную задачу.
- DeepSeek R1 и DeepSeek V3 — V3 это обычная LLM. R1 — reasoning-модель, обученная на базе V3.
Частые ошибки и заблуждения
- «Reasoning заменит обычные LLM». Не заменит. Для 80% задач избыточен. Дороже, медленнее. Используется точечно.
- «Reasoning = более умная модель». Не «умнее во всём». Сильнее в задачах, где нужно длинное последовательное рассуждение. На простых может работать хуже обычных LLM (over-thinking).
- «Можно увидеть мысли o1». Нет, скрыты. Видимы только в Claude Thinking, DeepSeek R1, Grok Think.
- «Цена та же». Нет. o3 стоит ~$60 за 1M output токенов (vs $10 у GPT-4o). И токенов больше — модель «думает» сотнями.
- «Reasoning не глючит». Глючит реже, но всё равно ошибается. Особенно на задачах, где правильный ответ требует знаний, которых у модели нет.
Связанные термины
- LLM — общая категория, к которой относится reasoning-подкласс.
- Chain-of-Thought (CoT) — техника, на которой построены reasoning-модели.
- DeepSeek — DeepSeek R1 — open-source reasoning.
- ChatGPT — содержит OpenAI o1/o3 в подписке.
- Claude — Claude Thinking — reasoning от Anthropic.
- Gemini — Gemini 2.5 Thinking — reasoning от Google.
Частые вопросы
Когда использовать reasoning, а когда обычную LLM? Reasoning: математика, многошаговая логика, сложный код, стратегические решения. Обычная: чат, стиль, простые факты, скорость важна.
Сколько стоит? В разы больше обычных. o3: ~$60/1M output (vs $10 у GPT-4o). Claude Thinking ~$75/1M output. DeepSeek R1: open + ~$2/1M через провайдеров.
Можно ли запустить локально? Reasoning — самые большие модели. DeepSeek R1 (671B MoE) — open, но требует кластера. Маленькие reasoning-модели (Qwen QwQ, o3-mini) — точнее, но всё равно тяжёлые.
Reasoning умнее доктора/учёного? В узких бенчмарках (PhD-level science) — да, сравнимо. На реальной экспертной работе — нет, не хватает контекста, доступа к данным, экспериментов. Хороший «помощник», не «замена».
А зачем тогда обычные LLM? Скорость и цена. Если задача простая — обычная LLM в 10-30× быстрее и дешевле. Reasoning — премиум для сложного.
Главное
Reasoning Models — категория LLM, которые перед финальным ответом проходят расширенный chain-of-thought, пробуя решения и исправляя ошибки. OpenAI o1 (2024) задал стандарт; к 2026 у каждого фронтира — свой reasoning-режим. Сильнее обычных LLM в математике, олимпиадных задачах, сложном кодинге, логике, scientific reasoning. Дороже и медленнее в 10×. Главный сдвиг — новая ось масштабирования AI: качество растёт не только от размера, но и от test-time compute («дать модели подумать дольше»). Использовать точечно: для сложных задач — да, для простых чатов — over-kill. Open-source реальность есть (DeepSeek R1, Qwen QwQ), но индустриальный стандарт — закрытые o3 и Claude Thinking.