Benchmark

benchmark — стандартизированный тест способностей AI-модели

Раздел
Языковые модели
Обновлено
18.05.26

Benchmark — стандартизированный набор задач для сравнения моделей. MMLU тестирует знания, HumanEval — программирование, GSM8K — арифметику, MATH — математику, SWE-bench — реальные баг-фиксы. К 2026-му главные бенчмарки сатурировались (топ-модели на 95%+), индустрия перешла на ARC-AGI, FrontierMath, HLE — задачи, которые ещё не решены. Главный риск — benchmark contamination и обучение моделей «под тест».

Коротко

Коротко. Benchmark — это стандартизированный экзамен для AI-моделей. Один и тот же набор задач прогоняется через все модели, считается процент правильных ответов. Так сравнивают GPT-4, Claude, Gemini, Llama. Главные бенчмарки на 2026: MMLU (общие знания), HumanEval (код), GSM8K (арифметика), MATH (математика), SWE-bench (реальные баг-фиксы), ARC-AGI (логика). Но: топ-модели уже выбили большинство классических тестов на 95%+, и реальная разница не видна по бенчмаркам.

Что это такое

OpenAI выпускает новую модель. В блог-посте: «GPT-4.5 достигла 92% на MMLU, 89% на HumanEval, 95% на GSM8K». Эти цифры — главный язык, на котором AI-индустрия общается между собой.

Без бенчмарков нельзя сказать, какая модель «лучше». Каждый пользователь говорит своё: «Claude мне больше нравится для писательства», «GPT для кода». Бенчмарки дают объективное сравнение: одинаковый тест → одинаковые условия → числа можно ставить рядом.

Главные категории бенчмарков на 2026:

  • Знания: MMLU (массовый зачёт по 57 предметам), GPQA (продвинутые научные вопросы), HLE (Humanity's Last Exam — самый сложный).
  • Программирование: HumanEval, MBPP, SWE-bench (реальные GitHub-issues), LiveCodeBench.
  • Математика: GSM8K (школьные задачи), MATH (олимпиадные), FrontierMath (фронтир).
  • Reasoning: ARC-AGI (логические паттерны), BIG-Bench Hard, MUSR.
  • Агенты: AgentBench, OSWorld, WebArena.
  • Мультимодальные: MMMU, MathVista, VideoMME.

Как это работает

Стандартный workflow бенчмаркинга:

  1. Загрузка датасета. Например, MMLU = 15 908 вопросов с 4 вариантами ответа.
  2. Стандартный формат промпта. Каждой модели даём одинаковый промпт + вопрос.
  3. Сэмплинг. Модель возвращает ответ — букву A/B/C/D или развёрнутый текст.
  4. Парсинг. Извлекаем ответ из вывода.
  5. Подсчёт точности. Доля совпадений с правильным ответом.
  6. Публикация на leaderboard.

Главные риски:

  • Contamination (загрязнение). Если бенчмарк попал в обучающие данные модели — она «помнит» ответы, не «думает». MMLU-вопросы в интернете давно, многие модели их видели.
  • Goodhart's Law. Как только метрика стала целью, она перестаёт её отражать. Модели оптимизируются «под тест».
  • Narrow coverage. Бенчмарк проверяет ограниченный аспект. Высокий MMLU не значит «хорошо пишет художественные тексты».

Чтобы избежать contamination, делают:

  • Holdout sets — закрытые наборы, не публикуют.
  • Динамические бенчмарки — задачи генерируются программно (например, GSM-Symbolic).
  • Real-world benchmarks — SWE-bench из реальных GitHub-issues, заменяется регулярно.

Пример на практике

Команда тестирует, какую LLM использовать в своём продукте — code-assistant для разработчиков. Бюджет — $500 на каждый месяц API-вызовов.

Кандидаты: GPT-4o ($30/1M output), Claude 3.5 Sonnet ($15/1M), Gemini 1.5 Pro ($20/1M), Llama 3.1 405B Instruct ($8/1M через Together AI), Qwen 2.5 72B ($5/1M).

Бенчмарки, которые смотрят:

  • HumanEval (синтез кода): Claude 3.5 — 92%, GPT-4o — 90%, Llama 3.1 — 88%, Gemini — 84%, Qwen — 86%.
  • SWE-bench Verified (реальные баги): Claude 3.5 — 49%, GPT-4o — 33%, Llama 3.1 — 22%, Qwen — 19%, Gemini — 24%.
  • LiveCodeBench (новые задачи, без contamination): похожие результаты.

На бумаге Claude Sonnet — лидер. Но команда делает свой тест: 50 реальных задач из их codebase. Прогоняют все 5 моделей.

Результат внутреннего бенчмарка:

  • Claude 3.5 решает 33/50, тон ответов нравится команде.
  • GPT-4o решает 30/50, но даёт более длинные ответы.
  • Qwen 2.5 решает 22/50, в 3 раза дешевле.

Решение: для production — Claude 3.5. Для batch-задач (генерация документации к существующему коду) — Qwen 2.5.

В Stable Diffusion-мире свои бенчмарки: ImageReward (preference oracle), GenEval (точность следования промпту), HPSv2 (human preference). Бенчмаркинг диффузионных моделей сложнее — субъективнее.

С чем часто путают

  • Benchmark и Evaluation — Evaluation — общий термин для оценки модели. Benchmark — конкретный стандартизированный набор.
  • Benchmark и Leaderboard — Leaderboard — таблица результатов на одном бенчмарке. Бенчмарк — это сам тест.
  • MMLU и HumanEval — MMLU тестирует знания (физика, история, биология). HumanEval — код.
  • Contamination и Overfitting — Contamination — модель видела бенчмарк в обучении. Overfitting — модель переобучилась на тренировочных данных в принципе.
  • Open и Closed benchmarks — Open публично доступны (риск contamination). Closed закрыты (нет загрязнения, но прозрачность ниже).

Частые ошибки и заблуждения

  • «Высокий MMLU = модель умнее». Не обязательно. MMLU — про знания, не про reasoning или творчество. Высокий MMLU при слабом ARC — обычное дело.
  • «Бенчмарки гарантируют качество в проде». Не гарантируют. Реальные задачи — другие. Делайте свой бенчмарк.
  • «Все бенчмарки честные». Многие давно загрязнены (опубликованы в интернете, модели видели). Доверяйте только новым/закрытым.
  • «Топ leaderboard — лучшая модель». Топ-1 и топ-3 обычно различаются меньше, чем noise. Часто разные модели «лучшие» в своей нише.
  • «Бенчмарки одинаковы для всех». Нет, prompt-формат, sampling, temperature разные у разных оценщиков. Цифры из разных репортов не всегда сопоставимы.

Связанные термины

  • MMLU / HumanEval — топ-2 классических бенчмарка.
  • Leaderboard — таблица результатов.
  • Evaluation — общий термин оценки.
  • Contamination — загрязнение данных.
  • Goodhart's Law — почему бенчмарки портятся.
  • Alignment — что бенчмарки часто не проверяют.
  • ARC-AGI / HLE — новые «несатурированные» бенчмарки 2026.

Частые вопросы

Какие бенчмарки смотреть в первую очередь? Для общей способности — MMLU + ARC-AGI. Для кода — SWE-bench Verified. Для математики — MATH. Для агентов — OSWorld или AgentBench.

Где смотреть результаты? HuggingFace Open LLM Leaderboard (open-source модели), LMSYS Chatbot Arena (human preference), Vellum AI Leaderboard, papers с claim'ами от провайдеров.

Что такое Chatbot Arena? LMSYS-проект: пользователи общаются с двумя моделями вслепую, голосуют за лучший ответ. Дает ELO-рейтинг на основе человеческих предпочтений. Считается одним из самых надёжных бенчмарков.

Бенчмарки работают для Stable Diffusion? Да, но субъективнее: ImageReward, GenEval, HPSv2. Качество изображений тяжелее измерить, чем правильность ответа на тест.

Что такое HLE (Humanity's Last Exam)? Бенчмарк 2024 года, специально собранный из самых сложных задач во всех дисциплинах. Цель — задачи, которые никакая модель пока не решает. К 2026-му топ-модели делают ~10–15%.

Можно ли создать свой бенчмарк? Да. Соберите 30–100 реальных задач из вашего домена с правильными ответами. Прогоните кандидатов через одинаковый prompt. Это лучший «тест на ваш use-case».

Главное

Benchmark — стандартизированный экзамен для AI-моделей. Главные категории: знания (MMLU), код (HumanEval, SWE-bench), математика (MATH), reasoning (ARC-AGI), агенты (OSWorld). Главный риск — contamination (модель видела тест в обучении) и Goodhart's Law (оптимизация под метрику убивает её ценность). К 2026-му классика сатурировалась, индустрия перешла на новые тесты (HLE, ARC-AGI-2). Для выбора модели для своего продукта: публичные бенчмарки — отправная точка, свой тест из 30–100 реальных задач — финальное решение. Не доверяйте marketing-цифрам в блогах провайдеров — на их собственных бенчмарках обычно красивее, чем в жизни.