MMLU и HumanEval

Q: Можно ли прогнать MMLU самому?

Да: pip install lm-eval (EleutherAI evaluation harness) и одна команда. Занимает 1–2 часа на GPU для 8B-моделей.

mmlu и humaneval — главные классические бенчмарки LLM

Раздел: Языковые модели
Обновлено: 18.05.26

MMLU и HumanEval — два самых цитируемых бенчмарка LLM. MMLU (Massive Multitask Language Understanding) — 15 908 вопросов из 57 предметов с 4 вариантами ответа: проверка знаний. HumanEval — 164 задачи по программированию: «напиши функцию, которая делает X». К 2026-му оба сатурировались (топ-модели 90%+), но всё ещё стандарт для отчётов.

Коротко

Коротко. MMLU и HumanEval — два классических бенчмарка LLM, на которые ссылаются почти все блоги моделей. MMLU — 15 908 вопросов с выбором из 4 вариантов по 57 предметам (физика, биология, история, право). HumanEval — 164 задачи на Python: дана сигнатура функции и docstring, нужно написать тело. К 2026-му оба сатурировались на уровне 90%+, и реальная разница между топ-моделями уже не видна по этим цифрам.

Что это такое

Декабрь 2022-го. OpenAI публикует ChatGPT, в техническом отчёте — 70% на MMLU. Через год GPT-4 — 86%. К 2026-му Claude 3.5, Gemini 2, GPT-4o — все 90%+. Когда читаете «новая модель X», в блоге обязательно будут две цифры: MMLU и HumanEval. Это лингва-франка AI-индустрии.

MMLU (Massive Multitask Language Understanding) — опубликован в 2020 (Dan Hendrycks et al.). 57 предметов: от элементарной математики до клинических знаний, от мировой истории до электронной инженерии. Каждый вопрос — 4 варианта ответа, один правильный. Стандартный формат тестов из американских колледжей.

HumanEval — опубликован OpenAI в 2021 одновременно с Codex. 164 функции на Python. Каждая задача: имя функции + docstring с примерами вызовов + тесты. Модель должна написать тело. Прогоняется через pytest, считается доля прошедших.

К 2026-му оба используются в каждом релиз-отчёте, но индустрия знает: они сатурированы. Реальное сравнение моделей делают через свежие бенчмарки (HLE, ARC-AGI, SWE-bench).

Как это работает

MMLU

Пример вопроса:

Question: What is the difference between mitosis and meiosis?
A) Mitosis produces 4 cells, meiosis produces 2
B) Mitosis is for somatic cells, meiosis is for gametes
C) Mitosis involves recombination, meiosis does not
D) Mitosis is faster than meiosis
Answer:

Стандартный протокол — 5-shot prompting: к каждому вопросу добавляют 5 примеров с правильными ответами для калибровки формата. Модель должна вернуть B.

Точность по предметам неравномерная: физика и биология обычно 95%+, профессиональное право и виртуология — 60–80%. Средневзвешенная по 57 предметам — это и есть MMLU score.

HumanEval

Пример задачи:

def has_close_elements(numbers: List[float], threshold: float) -> bool:
    """ Check if in given list of numbers, are any two numbers closer to each other than
    given threshold.
    >>> has_close_elements([1.0, 2.0, 3.0], 0.5)
    False
    >>> has_close_elements([1.0, 2.8, 3.0, 4.0, 5.0, 2.0], 0.3)
    True
    """

Модель должна вернуть тело функции. Запускается через pytest с дополнительными тестами. Метрика — pass@1: доля задач, прошедших с первого ответа.

Пример на практике

ML-инженер сравнивает 5 моделей для своего стартапа: open-source кандидаты для локального деплоя.

Бенчмаркит сам через lm-evaluation-harness (стандартная библиотека EleutherAI):

lm_eval --model hf \
        --model_args pretrained=meta-llama/Llama-3.1-8B-Instruct \
        --tasks mmlu,humaneval \
        --device cuda:0 \
        --batch_size 16

Результаты на одной RTX 4090 за 2 часа:

Модель	MMLU	HumanEval
Llama 3.1 8B Instruct	73%	67%
Qwen 2.5 7B Instruct	74%	84%
Mistral 7B Instruct	60%	41%
Gemma 2 9B Instruct	72%	51%
DeepSeek-Coder 6.7B	50%	75%

Анализ:

Для общего использования: Qwen 2.5 7B — лучший MMLU + лучший HumanEval.
Для кода: DeepSeek-Coder при меньшем MMLU даёт хороший HumanEval — узкая специализация.
Mistral для своего веса проигрывает обоим — но более «свободная» в плане refusal.

В блогах провайдеров обычно красивые цифры (90%+), у open-source 7-8B — реалистичные 60–80%. Это нормально: размер модели сильно решает.

В ComfyUI с локальными LLM-нодами эти цифры тоже актуальны: если используете Llama/Qwen для генерации промптов внутри workflow, выбирайте модели с MMLU 70%+.

С чем часто путают

MMLU и MMLU-Pro — MMLU-Pro (2024) — улучшенная версия с 10 вариантами ответа вместо 4, более сложными вопросами, дополнительной проверкой. К 2026-му топ-модели на ней ~75%, есть куда расти.
HumanEval и SWE-bench — HumanEval это синтез коротких функций. SWE-bench — реальные баги из GitHub. Сильно разные задачи.
HumanEval и MBPP — оба бенчмарка для кода, MBPP проще (написать функцию по описанию), HumanEval сложнее (часто требует алгоритмов).
MMLU и Big-Bench — Big-Bench шире, 200+ задач разных типов. MMLU узкоспецилизирован на школьно-вузовских знаниях.
5-shot и 0-shot — стандарт MMLU — 5-shot. Некоторые модели лучше работают с 0-shot. Цифры разные при разных протоколах.

Частые ошибки и заблуждения

«MMLU 90% = модель знает всё». Нет. Только то, что в распределении 57 предметов. Знания специфичных профессиональных областей (бухучёт РФ, юриспруденция СНГ) — отдельная история.
«HumanEval 90% = модель пишет любой код». Не пишет. HumanEval — короткие самостоятельные функции. Реальная разработка с архитектурой, рефакторингом, debugging — другие задачи.
«Цифры из блогов сопоставимы». Часто нет: разные prompt-форматы, разные sampling-настройки. Считать строго только по одному и тому же протоколу.
«MMLU честный, потому что multiple choice». Multiple-choice формат уязвим к sampling-shortcuts: модель может научиться выбирать букву без понимания контента.
«Если модель плохо на MMLU, она плохая». Не обязательно. Специализированные модели (DeepSeek-Coder, Med-PaLM) часто проигрывают в MMLU, но отлично делают свою задачу.

Связанные термины

Benchmark — общая категория, MMLU и HumanEval — конкретные представители.
Leaderboard — таблицы с MMLU/HumanEval всех моделей.
MMLU-Pro — обновлённая, более сложная версия.
SWE-bench — преемник HumanEval для реальных задач.
HLE / ARC-AGI — новые «несатурированные» бенчмарки.
lm-evaluation-harness — стандартный инструмент бенчмаркинга.
5-shot prompting — стандартный протокол для MMLU.

Частые вопросы

Где смотреть результаты? HuggingFace Open LLM Leaderboard (для open-source), papers-with-code (исторические данные), Vellum AI Leaderboard, блоги провайдеров (для closed моделей).

Можно ли прогнать MMLU самому? Да: pip install lm-eval (EleutherAI evaluation harness) и одна команда. Занимает 1–2 часа на GPU для 8B-моделей.

MMLU подходит для русскоязычных моделей? Только частично: MMLU — на английском. Для русских — есть Russian SuperGLUE, MERA, RU-MMLU.

Что лучше: HumanEval или SWE-bench? SWE-bench честнее для real-world (реальные баги, не загрязнён). HumanEval остаётся как стандарт по инерции.

Может ли модель «жульничать»? Может — это benchmark contamination. Если MMLU попал в обучающие данные, модель «помнит» правильные ответы. Поэтому смотрят также на свежие бенчмарки.

Есть ли мультимодальные версии? Да: MMMU (Massive Multimodal MMLU) — то же, но с картинками. MathVista — математика по визуальному контенту.

Главное

MMLU и HumanEval — два классических бенчмарка LLM, на которые ссылаются почти все провайдеры. MMLU — 15 908 multiple-choice вопросов по 57 предметам (знания). HumanEval — 164 функции на Python (синтез кода). Стандартные протоколы: 5-shot для MMLU, pass@1 для HumanEval. К 2026-му оба сатурировались на уровне 90%+ для фронтир-моделей, и реальной разницы по ним уже не видно. Поэтому индустрия переходит на свежие бенчмарки: MMLU-Pro (сложнее), SWE-bench (реальные задачи), HLE (фронтир). Для выбора локальной модели MMLU/HumanEval всё ещё хороший быстрый фильтр: MMLU < 55% — пропускайте, > 70% — рассматривайте серьёзно.

Что дальше:

Этот раздел Все термины: Языковые модели → Изучить тему системно — от базовых понятий до продвинутых. Если вы новичок Начать с основ: что такое AI → Один термин, с которого стоит начать знакомство с темой. Удиви меня Случайный термин → Серендипити: попасть на что-то неожиданное из 156 статей.