Reasoning Models

reasoning models — модели, которые «думают» перед ответом

Раздел
Языковые модели
Обновлено
18.05.26

Reasoning Models — категория LLM, которые перед финальным ответом проходят через явный chain-of-thought (внутренний диалог), пробуя гипотезы, переоценивая, исправляя ошибки. OpenAI o1 (2024) задал тренд, к 2026 у каждого фронтира — свой reasoning-режим: o3, Claude Thinking, Gemini Thinking, DeepSeek R1, Grok Think. Сильнее обычных LLM в математике, кодинге, сложной логике. Дороже и медленнее в 10× — но решают то, что обычные не могут.

Коротко

Коротко. Reasoning Models — категория LLM, которые перед финальным ответом проходят расширенный chain-of-thought (внутренний диалог): пробуют решения, проверяют, исправляют ошибки. OpenAI выпустила первую публичную — o1 — в сентябре 2024. К 2026 у каждого фронтира свой reasoning-режим: o3, Claude Thinking, Gemini Thinking, DeepSeek R1, Grok Think. Превосходят обычные LLM в математике, олимпиадных задачах, сложном кодинге. Дороже и медленнее в 10×.

Что это такое

12 сентября 2024-го. OpenAI релизит o1-preview. Демо не похоже на ChatGPT: модель «думает» 30 секунд, выдаёт текст «Thinking…», потом разворачивает ответ. На бенчмарках по математике (AIME) — рост с 13.4% (GPT-4o) до 83.3%. На International Mathematical Olympiad — золото человеческого уровня. Это не инкрементальное улучшение — это качественный сдвиг.

К 2026 reasoning-режимы есть у каждого фронтира:

  • OpenAI o3 (2025) — наследник o1, ещё умнее.
  • OpenAI o3-mini — быстрая, дешёвая reasoning-модель.
  • Claude Opus 4 Thinking (Anthropic) — расширенное «extended thinking».
  • Gemini 2.5 Thinking (Google) — встроено в Gemini 2.5.
  • DeepSeek R1 (2025) — open-source reasoning-модель, шумиха «competitive for $5M training».
  • Grok 3 Think (xAI) — reasoning-режим в Grok 3.
  • Qwen QwQ (Alibaba) — open-source.

Главная разница от обычных LLM:

  • Обычная LLM: прочитала вопрос → сгенерировала ответ за 1-2 секунды.
  • Reasoning model: прочитала вопрос → внутренне «подумала» 10-60 секунд (генерируя сотни-тысячи «invisible» токенов мышления) → выдала ответ.

«Невидимые» токены мышления модель использует, чтобы:

  • Разобрать задачу на части.
  • Попробовать решение, проверить, найти ошибку, поправить.
  • Перебрать несколько подходов.
  • Свериться с условием задачи.

Как это работает

Под капотом — базовая LLM (transformer), но обученная по-другому. Ключевые ингредиенты:

  1. Reinforcement Learning от выходов CoT. Модель учат не просто отвечать, а отвечать после долгого внутреннего рассуждения. Награда за правильный ответ — обратная связь идёт через всю цепочку мышления.
  2. Test-time compute. В отличие от классических LLM, на инференсе модель тратит больше compute (генерирует больше токенов до финального ответа). Это даёт ей возможность «думать сложнее».
  3. Self-correction. Если в середине рассуждения модель замечает противоречие — она возвращается, пересматривает.
  4. Hidden chain-of-thought. В o1 от OpenAI «мысли» скрыты от пользователя (показан только summary), чтобы конкуренты не могли тренироваться на них. В DeepSeek R1, Claude Thinking — мысли видимы.

Где reasoning-модели особенно сильны:

  • Математика и олимпиадные задачи — AIME, IMO.
  • Сложный кодинг — алгоритмы, оптимизации, архитектурные задачи.
  • Логические задачи — Сократические парадоксы, multi-step inference.
  • Научные задачи — биохимия, физика, доказательства.
  • Стратегические решения — анализ ситуации с многими переменными.

Где обычные LLM лучше:

  • Простые чаты — приветствие, краткие факты, small talk.
  • Стиль и тон — переписать абзац в дружелюбном стиле.
  • Творчество — поэзия, художественный текст.
  • Скорость — когда нужен ответ за 1 секунду.

Пример на практике

Студент готовится к олимпиаде по математике. Задача:

«Найдите все натуральные n, для которых 2^n + n^2 делится на 7.»

Обычная LLM (GPT-4o):

Думает 1-2 секунды. Ответ: «n = 3» (не проверяя, неправильно).

Reasoning model (o1):

Думает 25 секунд внутри:

[invisible thinking]
- 2^n mod 7 цикличен с периодом 3: {2, 4, 1, 2, 4, 1, ...}
- n^2 mod 7 цикличен с периодом 7: {1, 4, 2, 2, 4, 1, 0, 1, 4, ...}
- Общий период = НОК(3, 7) = 21
- Перебираю n от 1 до 21, проверяю (2^n + n^2) mod 7 == 0
- n=1: 2+1=3, n=2: 4+4=8≡1, n=3: 1+9=10≡3, n=4: 2+16=18≡4...
- ...полный перебор...
- Нашёл: n ∈ {6, 10, 13, 17, 20} (mod 21)
- Значит ответ: n ≡ 6, 10, 13, 17, 20 (mod 21)

Финальный ответ: правильный + объяснение для проверки.

Скорость: o1 — 25 секунд vs GPT-4o — 2 секунды. Цена: o1 в ~10× дороже.

import openai

client = openai.OpenAI()

response = client.chat.completions.create(
    model="o1",
    messages=[{"role": "user", "content": problem}],
    reasoning_effort="high"  # сколько думать
)

print(response.choices[0].message.content)

ComfyUI пока в основном работает с обычными LLM, но через API можно подключить reasoning-модели для control-логики в сложных workflow.

С чем часто путают

  • Reasoning Models и Chain-of-Thought (CoT) prompting — CoT это техника промпта (попросить модель «think step-by-step»). Reasoning Models — модели, у которых CoT встроен в обучение, его не надо просить.
  • o1 и o3 — o1 (2024) — первая. o3 (2025) — наследник, существенно умнее.
  • Reasoning и Agentic — Reasoning это про «глубоко подумать». Agentic — про «выполнить действия». Они дополняют друг друга, не противоречат.
  • Reasoning Models и большие LLM — большие классические LLM (GPT-5) умнее средних, но не reasoning. Reasoning — это другая ось: дать модели время на сложную задачу.
  • DeepSeek R1 и DeepSeek V3 — V3 это обычная LLM. R1 — reasoning-модель, обученная на базе V3.

Частые ошибки и заблуждения

  • «Reasoning заменит обычные LLM». Не заменит. Для 80% задач избыточен. Дороже, медленнее. Используется точечно.
  • «Reasoning = более умная модель». Не «умнее во всём». Сильнее в задачах, где нужно длинное последовательное рассуждение. На простых может работать хуже обычных LLM (over-thinking).
  • «Можно увидеть мысли o1». Нет, скрыты. Видимы только в Claude Thinking, DeepSeek R1, Grok Think.
  • «Цена та же». Нет. o3 стоит ~$60 за 1M output токенов (vs $10 у GPT-4o). И токенов больше — модель «думает» сотнями.
  • «Reasoning не глючит». Глючит реже, но всё равно ошибается. Особенно на задачах, где правильный ответ требует знаний, которых у модели нет.

Связанные термины

  • LLM — общая категория, к которой относится reasoning-подкласс.
  • Chain-of-Thought (CoT) — техника, на которой построены reasoning-модели.
  • DeepSeekDeepSeek R1 — open-source reasoning.
  • ChatGPT — содержит OpenAI o1/o3 в подписке.
  • Claude — Claude Thinking — reasoning от Anthropic.
  • Gemini — Gemini 2.5 Thinking — reasoning от Google.

Частые вопросы

Когда использовать reasoning, а когда обычную LLM? Reasoning: математика, многошаговая логика, сложный код, стратегические решения. Обычная: чат, стиль, простые факты, скорость важна.

Сколько стоит? В разы больше обычных. o3: ~$60/1M output (vs $10 у GPT-4o). Claude Thinking ~$75/1M output. DeepSeek R1: open + ~$2/1M через провайдеров.

Можно ли запустить локально? Reasoning — самые большие модели. DeepSeek R1 (671B MoE) — open, но требует кластера. Маленькие reasoning-модели (Qwen QwQ, o3-mini) — точнее, но всё равно тяжёлые.

Reasoning умнее доктора/учёного? В узких бенчмарках (PhD-level science) — да, сравнимо. На реальной экспертной работе — нет, не хватает контекста, доступа к данным, экспериментов. Хороший «помощник», не «замена».

А зачем тогда обычные LLM? Скорость и цена. Если задача простая — обычная LLM в 10-30× быстрее и дешевле. Reasoning — премиум для сложного.

Главное

Reasoning Models — категория LLM, которые перед финальным ответом проходят расширенный chain-of-thought, пробуя решения и исправляя ошибки. OpenAI o1 (2024) задал стандарт; к 2026 у каждого фронтира — свой reasoning-режим. Сильнее обычных LLM в математике, олимпиадных задачах, сложном кодинге, логике, scientific reasoning. Дороже и медленнее в 10×. Главный сдвиг — новая ось масштабирования AI: качество растёт не только от размера, но и от test-time compute («дать модели подумать дольше»). Использовать точечно: для сложных задач — да, для простых чатов — over-kill. Open-source реальность есть (DeepSeek R1, Qwen QwQ), но индустриальный стандарт — закрытые o3 и Claude Thinking.