Benchmark

benchmark — стандартизированный тест способностей AI-модели

Раздел: Языковые модели
Обновлено: 18.05.26

Benchmark — стандартизированный набор задач для сравнения моделей. MMLU тестирует знания, HumanEval — программирование, GSM8K — арифметику, MATH — математику, SWE-bench — реальные баг-фиксы. К 2026-му главные бенчмарки сатурировались (топ-модели на 95%+), индустрия перешла на ARC-AGI, FrontierMath, HLE — задачи, которые ещё не решены. Главный риск — benchmark contamination и обучение моделей «под тест».

Коротко

Коротко. Benchmark — это стандартизированный экзамен для AI-моделей. Один и тот же набор задач прогоняется через все модели, считается процент правильных ответов. Так сравнивают GPT-4, Claude, Gemini, Llama. Главные бенчмарки на 2026: MMLU (общие знания), HumanEval (код), GSM8K (арифметика), MATH (математика), SWE-bench (реальные баг-фиксы), ARC-AGI (логика). Но: топ-модели уже выбили большинство классических тестов на 95%+, и реальная разница не видна по бенчмаркам.

Что это такое

OpenAI выпускает новую модель. В блог-посте: «GPT-4.5 достигла 92% на MMLU, 89% на HumanEval, 95% на GSM8K». Эти цифры — главный язык, на котором AI-индустрия общается между собой.

Без бенчмарков нельзя сказать, какая модель «лучше». Каждый пользователь говорит своё: «Claude мне больше нравится для писательства», «GPT для кода». Бенчмарки дают объективное сравнение: одинаковый тест → одинаковые условия → числа можно ставить рядом.

Главные категории бенчмарков на 2026:

Знания: MMLU (массовый зачёт по 57 предметам), GPQA (продвинутые научные вопросы), HLE (Humanity's Last Exam — самый сложный).
Программирование: HumanEval, MBPP, SWE-bench (реальные GitHub-issues), LiveCodeBench.
Математика: GSM8K (школьные задачи), MATH (олимпиадные), FrontierMath (фронтир).
Reasoning: ARC-AGI (логические паттерны), BIG-Bench Hard, MUSR.
Агенты: AgentBench, OSWorld, WebArena.
Мультимодальные: MMMU, MathVista, VideoMME.

Как это работает

Стандартный workflow бенчмаркинга:

Загрузка датасета. Например, MMLU = 15 908 вопросов с 4 вариантами ответа.
Стандартный формат промпта. Каждой модели даём одинаковый промпт + вопрос.
Сэмплинг. Модель возвращает ответ — букву A/B/C/D или развёрнутый текст.
Парсинг. Извлекаем ответ из вывода.
Подсчёт точности. Доля совпадений с правильным ответом.
Публикация на leaderboard.

Главные риски:

Contamination (загрязнение). Если бенчмарк попал в обучающие данные модели — она «помнит» ответы, не «думает». MMLU-вопросы в интернете давно, многие модели их видели.
Goodhart's Law. Как только метрика стала целью, она перестаёт её отражать. Модели оптимизируются «под тест».
Narrow coverage. Бенчмарк проверяет ограниченный аспект. Высокий MMLU не значит «хорошо пишет художественные тексты».

Чтобы избежать contamination, делают:

Holdout sets — закрытые наборы, не публикуют.
Динамические бенчмарки — задачи генерируются программно (например, GSM-Symbolic).
Real-world benchmarks — SWE-bench из реальных GitHub-issues, заменяется регулярно.

Пример на практике

Команда тестирует, какую LLM использовать в своём продукте — code-assistant для разработчиков. Бюджет — $500 на каждый месяц API-вызовов.

Кандидаты: GPT-4o ($30/1M output), Claude 3.5 Sonnet ($15/1M), Gemini 1.5 Pro ($20/1M), Llama 3.1 405B Instruct ($8/1M через Together AI), Qwen 2.5 72B ($5/1M).

Бенчмарки, которые смотрят:

HumanEval (синтез кода): Claude 3.5 — 92%, GPT-4o — 90%, Llama 3.1 — 88%, Gemini — 84%, Qwen — 86%.
SWE-bench Verified (реальные баги): Claude 3.5 — 49%, GPT-4o — 33%, Llama 3.1 — 22%, Qwen — 19%, Gemini — 24%.
LiveCodeBench (новые задачи, без contamination): похожие результаты.

На бумаге Claude Sonnet — лидер. Но команда делает свой тест: 50 реальных задач из их codebase. Прогоняют все 5 моделей.

Результат внутреннего бенчмарка:

Claude 3.5 решает 33/50, тон ответов нравится команде.
GPT-4o решает 30/50, но даёт более длинные ответы.
Qwen 2.5 решает 22/50, в 3 раза дешевле.

Решение: для production — Claude 3.5. Для batch-задач (генерация документации к существующему коду) — Qwen 2.5.

В Stable Diffusion-мире свои бенчмарки: ImageReward (preference oracle), GenEval (точность следования промпту), HPSv2 (human preference). Бенчмаркинг диффузионных моделей сложнее — субъективнее.

С чем часто путают

Benchmark и Evaluation — Evaluation — общий термин для оценки модели. Benchmark — конкретный стандартизированный набор.
Benchmark и Leaderboard — Leaderboard — таблица результатов на одном бенчмарке. Бенчмарк — это сам тест.
MMLU и HumanEval — MMLU тестирует знания (физика, история, биология). HumanEval — код.
Contamination и Overfitting — Contamination — модель видела бенчмарк в обучении. Overfitting — модель переобучилась на тренировочных данных в принципе.
Open и Closed benchmarks — Open публично доступны (риск contamination). Closed закрыты (нет загрязнения, но прозрачность ниже).

Частые ошибки и заблуждения

«Высокий MMLU = модель умнее». Не обязательно. MMLU — про знания, не про reasoning или творчество. Высокий MMLU при слабом ARC — обычное дело.
«Бенчмарки гарантируют качество в проде». Не гарантируют. Реальные задачи — другие. Делайте свой бенчмарк.
«Все бенчмарки честные». Многие давно загрязнены (опубликованы в интернете, модели видели). Доверяйте только новым/закрытым.
«Топ leaderboard — лучшая модель». Топ-1 и топ-3 обычно различаются меньше, чем noise. Часто разные модели «лучшие» в своей нише.
«Бенчмарки одинаковы для всех». Нет, prompt-формат, sampling, temperature разные у разных оценщиков. Цифры из разных репортов не всегда сопоставимы.

Связанные термины

MMLU / HumanEval — топ-2 классических бенчмарка.
Leaderboard — таблица результатов.
Evaluation — общий термин оценки.
Contamination — загрязнение данных.
Goodhart's Law — почему бенчмарки портятся.
Alignment — что бенчмарки часто не проверяют.
ARC-AGI / HLE — новые «несатурированные» бенчмарки 2026.

Частые вопросы

Какие бенчмарки смотреть в первую очередь? Для общей способности — MMLU + ARC-AGI. Для кода — SWE-bench Verified. Для математики — MATH. Для агентов — OSWorld или AgentBench.

Где смотреть результаты? HuggingFace Open LLM Leaderboard (open-source модели), LMSYS Chatbot Arena (human preference), Vellum AI Leaderboard, papers с claim'ами от провайдеров.

Что такое Chatbot Arena? LMSYS-проект: пользователи общаются с двумя моделями вслепую, голосуют за лучший ответ. Дает ELO-рейтинг на основе человеческих предпочтений. Считается одним из самых надёжных бенчмарков.

Бенчмарки работают для Stable Diffusion? Да, но субъективнее: ImageReward, GenEval, HPSv2. Качество изображений тяжелее измерить, чем правильность ответа на тест.

Что такое HLE (Humanity's Last Exam)? Бенчмарк 2024 года, специально собранный из самых сложных задач во всех дисциплинах. Цель — задачи, которые никакая модель пока не решает. К 2026-му топ-модели делают ~10–15%.

Можно ли создать свой бенчмарк? Да. Соберите 30–100 реальных задач из вашего домена с правильными ответами. Прогоните кандидатов через одинаковый prompt. Это лучший «тест на ваш use-case».

Главное

Benchmark — стандартизированный экзамен для AI-моделей. Главные категории: знания (MMLU), код (HumanEval, SWE-bench), математика (MATH), reasoning (ARC-AGI), агенты (OSWorld). Главный риск — contamination (модель видела тест в обучении) и Goodhart's Law (оптимизация под метрику убивает её ценность). К 2026-му классика сатурировалась, индустрия перешла на новые тесты (HLE, ARC-AGI-2). Для выбора модели для своего продукта: публичные бенчмарки — отправная точка, свой тест из 30–100 реальных задач — финальное решение. Не доверяйте marketing-цифрам в блогах провайдеров — на их собственных бенчмарках обычно красивее, чем в жизни.

Большие разборы по теме

Все разборы →

Большой разбор 25 мин чтения

LLM простыми словами: разбор как работают ChatGPT, Claude и Gemini

Большая языковая модель — это нейросеть, которая прочитала почти весь интернет и научилась предсказывать следующее слово настолько хорошо, что выглядит как собеседник.…

Что дальше:

Этот раздел Все термины: Языковые модели → Изучить тему системно — от базовых понятий до продвинутых. Если вы новичок Начать с основ: что такое AI → Один термин, с которого стоит начать знакомство с темой. Удиви меня Случайный термин → Серендипити: попасть на что-то неожиданное из 156 статей.