Benchmark
benchmark — стандартизированный тест способностей AI-модели
Benchmark — стандартизированный набор задач для сравнения моделей. MMLU тестирует знания, HumanEval — программирование, GSM8K — арифметику, MATH — математику, SWE-bench — реальные баг-фиксы. К 2026-му главные бенчмарки сатурировались (топ-модели на 95%+), индустрия перешла на ARC-AGI, FrontierMath, HLE — задачи, которые ещё не решены. Главный риск — benchmark contamination и обучение моделей «под тест».
Коротко
Коротко. Benchmark — это стандартизированный экзамен для AI-моделей. Один и тот же набор задач прогоняется через все модели, считается процент правильных ответов. Так сравнивают GPT-4, Claude, Gemini, Llama. Главные бенчмарки на 2026: MMLU (общие знания), HumanEval (код), GSM8K (арифметика), MATH (математика), SWE-bench (реальные баг-фиксы), ARC-AGI (логика). Но: топ-модели уже выбили большинство классических тестов на 95%+, и реальная разница не видна по бенчмаркам.
Что это такое
OpenAI выпускает новую модель. В блог-посте: «GPT-4.5 достигла 92% на MMLU, 89% на HumanEval, 95% на GSM8K». Эти цифры — главный язык, на котором AI-индустрия общается между собой.
Без бенчмарков нельзя сказать, какая модель «лучше». Каждый пользователь говорит своё: «Claude мне больше нравится для писательства», «GPT для кода». Бенчмарки дают объективное сравнение: одинаковый тест → одинаковые условия → числа можно ставить рядом.
Главные категории бенчмарков на 2026:
- Знания: MMLU (массовый зачёт по 57 предметам), GPQA (продвинутые научные вопросы), HLE (Humanity's Last Exam — самый сложный).
- Программирование: HumanEval, MBPP, SWE-bench (реальные GitHub-issues), LiveCodeBench.
- Математика: GSM8K (школьные задачи), MATH (олимпиадные), FrontierMath (фронтир).
- Reasoning: ARC-AGI (логические паттерны), BIG-Bench Hard, MUSR.
- Агенты: AgentBench, OSWorld, WebArena.
- Мультимодальные: MMMU, MathVista, VideoMME.
Как это работает
Стандартный workflow бенчмаркинга:
- Загрузка датасета. Например, MMLU = 15 908 вопросов с 4 вариантами ответа.
- Стандартный формат промпта. Каждой модели даём одинаковый промпт + вопрос.
- Сэмплинг. Модель возвращает ответ — букву A/B/C/D или развёрнутый текст.
- Парсинг. Извлекаем ответ из вывода.
- Подсчёт точности. Доля совпадений с правильным ответом.
- Публикация на leaderboard.
Главные риски:
- Contamination (загрязнение). Если бенчмарк попал в обучающие данные модели — она «помнит» ответы, не «думает». MMLU-вопросы в интернете давно, многие модели их видели.
- Goodhart's Law. Как только метрика стала целью, она перестаёт её отражать. Модели оптимизируются «под тест».
- Narrow coverage. Бенчмарк проверяет ограниченный аспект. Высокий MMLU не значит «хорошо пишет художественные тексты».
Чтобы избежать contamination, делают:
- Holdout sets — закрытые наборы, не публикуют.
- Динамические бенчмарки — задачи генерируются программно (например, GSM-Symbolic).
- Real-world benchmarks — SWE-bench из реальных GitHub-issues, заменяется регулярно.
Пример на практике
Команда тестирует, какую LLM использовать в своём продукте — code-assistant для разработчиков. Бюджет — $500 на каждый месяц API-вызовов.
Кандидаты: GPT-4o ($30/1M output), Claude 3.5 Sonnet ($15/1M), Gemini 1.5 Pro ($20/1M), Llama 3.1 405B Instruct ($8/1M через Together AI), Qwen 2.5 72B ($5/1M).
Бенчмарки, которые смотрят:
- HumanEval (синтез кода): Claude 3.5 — 92%, GPT-4o — 90%, Llama 3.1 — 88%, Gemini — 84%, Qwen — 86%.
- SWE-bench Verified (реальные баги): Claude 3.5 — 49%, GPT-4o — 33%, Llama 3.1 — 22%, Qwen — 19%, Gemini — 24%.
- LiveCodeBench (новые задачи, без contamination): похожие результаты.
На бумаге Claude Sonnet — лидер. Но команда делает свой тест: 50 реальных задач из их codebase. Прогоняют все 5 моделей.
Результат внутреннего бенчмарка:
- Claude 3.5 решает 33/50, тон ответов нравится команде.
- GPT-4o решает 30/50, но даёт более длинные ответы.
- Qwen 2.5 решает 22/50, в 3 раза дешевле.
Решение: для production — Claude 3.5. Для batch-задач (генерация документации к существующему коду) — Qwen 2.5.
В Stable Diffusion-мире свои бенчмарки: ImageReward (preference oracle), GenEval (точность следования промпту), HPSv2 (human preference). Бенчмаркинг диффузионных моделей сложнее — субъективнее.
С чем часто путают
- Benchmark и Evaluation — Evaluation — общий термин для оценки модели. Benchmark — конкретный стандартизированный набор.
- Benchmark и Leaderboard — Leaderboard — таблица результатов на одном бенчмарке. Бенчмарк — это сам тест.
- MMLU и HumanEval — MMLU тестирует знания (физика, история, биология). HumanEval — код.
- Contamination и Overfitting — Contamination — модель видела бенчмарк в обучении. Overfitting — модель переобучилась на тренировочных данных в принципе.
- Open и Closed benchmarks — Open публично доступны (риск contamination). Closed закрыты (нет загрязнения, но прозрачность ниже).
Частые ошибки и заблуждения
- «Высокий MMLU = модель умнее». Не обязательно. MMLU — про знания, не про reasoning или творчество. Высокий MMLU при слабом ARC — обычное дело.
- «Бенчмарки гарантируют качество в проде». Не гарантируют. Реальные задачи — другие. Делайте свой бенчмарк.
- «Все бенчмарки честные». Многие давно загрязнены (опубликованы в интернете, модели видели). Доверяйте только новым/закрытым.
- «Топ leaderboard — лучшая модель». Топ-1 и топ-3 обычно различаются меньше, чем noise. Часто разные модели «лучшие» в своей нише.
- «Бенчмарки одинаковы для всех». Нет, prompt-формат, sampling, temperature разные у разных оценщиков. Цифры из разных репортов не всегда сопоставимы.
Связанные термины
- MMLU / HumanEval — топ-2 классических бенчмарка.
- Leaderboard — таблица результатов.
- Evaluation — общий термин оценки.
- Contamination — загрязнение данных.
- Goodhart's Law — почему бенчмарки портятся.
- Alignment — что бенчмарки часто не проверяют.
- ARC-AGI / HLE — новые «несатурированные» бенчмарки 2026.
Частые вопросы
Какие бенчмарки смотреть в первую очередь? Для общей способности — MMLU + ARC-AGI. Для кода — SWE-bench Verified. Для математики — MATH. Для агентов — OSWorld или AgentBench.
Где смотреть результаты? HuggingFace Open LLM Leaderboard (open-source модели), LMSYS Chatbot Arena (human preference), Vellum AI Leaderboard, papers с claim'ами от провайдеров.
Что такое Chatbot Arena? LMSYS-проект: пользователи общаются с двумя моделями вслепую, голосуют за лучший ответ. Дает ELO-рейтинг на основе человеческих предпочтений. Считается одним из самых надёжных бенчмарков.
Бенчмарки работают для Stable Diffusion? Да, но субъективнее: ImageReward, GenEval, HPSv2. Качество изображений тяжелее измерить, чем правильность ответа на тест.
Что такое HLE (Humanity's Last Exam)? Бенчмарк 2024 года, специально собранный из самых сложных задач во всех дисциплинах. Цель — задачи, которые никакая модель пока не решает. К 2026-му топ-модели делают ~10–15%.
Можно ли создать свой бенчмарк? Да. Соберите 30–100 реальных задач из вашего домена с правильными ответами. Прогоните кандидатов через одинаковый prompt. Это лучший «тест на ваш use-case».
Главное
Benchmark — стандартизированный экзамен для AI-моделей. Главные категории: знания (MMLU), код (HumanEval, SWE-bench), математика (MATH), reasoning (ARC-AGI), агенты (OSWorld). Главный риск — contamination (модель видела тест в обучении) и Goodhart's Law (оптимизация под метрику убивает её ценность). К 2026-му классика сатурировалась, индустрия перешла на новые тесты (HLE, ARC-AGI-2). Для выбора модели для своего продукта: публичные бенчмарки — отправная точка, свой тест из 30–100 реальных задач — финальное решение. Не доверяйте marketing-цифрам в блогах провайдеров — на их собственных бенчмарках обычно красивее, чем в жизни.