MMLU и HumanEval
mmlu и humaneval — главные классические бенчмарки LLM
MMLU и HumanEval — два самых цитируемых бенчмарка LLM. MMLU (Massive Multitask Language Understanding) — 15 908 вопросов из 57 предметов с 4 вариантами ответа: проверка знаний. HumanEval — 164 задачи по программированию: «напиши функцию, которая делает X». К 2026-му оба сатурировались (топ-модели 90%+), но всё ещё стандарт для отчётов.
Коротко
Коротко. MMLU и HumanEval — два классических бенчмарка LLM, на которые ссылаются почти все блоги моделей. MMLU — 15 908 вопросов с выбором из 4 вариантов по 57 предметам (физика, биология, история, право). HumanEval — 164 задачи на Python: дана сигнатура функции и docstring, нужно написать тело. К 2026-му оба сатурировались на уровне 90%+, и реальная разница между топ-моделями уже не видна по этим цифрам.
Что это такое
Декабрь 2022-го. OpenAI публикует ChatGPT, в техническом отчёте — 70% на MMLU. Через год GPT-4 — 86%. К 2026-му Claude 3.5, Gemini 2, GPT-4o — все 90%+. Когда читаете «новая модель X», в блоге обязательно будут две цифры: MMLU и HumanEval. Это лингва-франка AI-индустрии.
MMLU (Massive Multitask Language Understanding) — опубликован в 2020 (Dan Hendrycks et al.). 57 предметов: от элементарной математики до клинических знаний, от мировой истории до электронной инженерии. Каждый вопрос — 4 варианта ответа, один правильный. Стандартный формат тестов из американских колледжей.
HumanEval — опубликован OpenAI в 2021 одновременно с Codex. 164 функции на Python. Каждая задача: имя функции + docstring с примерами вызовов + тесты. Модель должна написать тело. Прогоняется через pytest, считается доля прошедших.
К 2026-му оба используются в каждом релиз-отчёте, но индустрия знает: они сатурированы. Реальное сравнение моделей делают через свежие бенчмарки (HLE, ARC-AGI, SWE-bench).
Как это работает
MMLU
Пример вопроса:
Question: What is the difference between mitosis and meiosis?
A) Mitosis produces 4 cells, meiosis produces 2
B) Mitosis is for somatic cells, meiosis is for gametes
C) Mitosis involves recombination, meiosis does not
D) Mitosis is faster than meiosis
Answer:
Стандартный протокол — 5-shot prompting: к каждому вопросу добавляют 5 примеров с правильными ответами для калибровки формата. Модель должна вернуть B.
Точность по предметам неравномерная: физика и биология обычно 95%+, профессиональное право и виртуология — 60–80%. Средневзвешенная по 57 предметам — это и есть MMLU score.
HumanEval
Пример задачи:
def has_close_elements(numbers: List[float], threshold: float) -> bool:
""" Check if in given list of numbers, are any two numbers closer to each other than
given threshold.
>>> has_close_elements([1.0, 2.0, 3.0], 0.5)
False
>>> has_close_elements([1.0, 2.8, 3.0, 4.0, 5.0, 2.0], 0.3)
True
"""
Модель должна вернуть тело функции. Запускается через pytest с дополнительными тестами. Метрика — pass@1: доля задач, прошедших с первого ответа.
Пример на практике
ML-инженер сравнивает 5 моделей для своего стартапа: open-source кандидаты для локального деплоя.
Бенчмаркит сам через lm-evaluation-harness (стандартная библиотека EleutherAI):
lm_eval --model hf \
--model_args pretrained=meta-llama/Llama-3.1-8B-Instruct \
--tasks mmlu,humaneval \
--device cuda:0 \
--batch_size 16
Результаты на одной RTX 4090 за 2 часа:
| Модель | MMLU | HumanEval |
|---|---|---|
| Llama 3.1 8B Instruct | 73% | 67% |
| Qwen 2.5 7B Instruct | 74% | 84% |
| Mistral 7B Instruct | 60% | 41% |
| Gemma 2 9B Instruct | 72% | 51% |
| DeepSeek-Coder 6.7B | 50% | 75% |
Анализ:
- Для общего использования: Qwen 2.5 7B — лучший MMLU + лучший HumanEval.
- Для кода: DeepSeek-Coder при меньшем MMLU даёт хороший HumanEval — узкая специализация.
- Mistral для своего веса проигрывает обоим — но более «свободная» в плане refusal.
В блогах провайдеров обычно красивые цифры (90%+), у open-source 7-8B — реалистичные 60–80%. Это нормально: размер модели сильно решает.
В ComfyUI с локальными LLM-нодами эти цифры тоже актуальны: если используете Llama/Qwen для генерации промптов внутри workflow, выбирайте модели с MMLU 70%+.
С чем часто путают
- MMLU и MMLU-Pro — MMLU-Pro (2024) — улучшенная версия с 10 вариантами ответа вместо 4, более сложными вопросами, дополнительной проверкой. К 2026-му топ-модели на ней ~75%, есть куда расти.
- HumanEval и SWE-bench — HumanEval это синтез коротких функций. SWE-bench — реальные баги из GitHub. Сильно разные задачи.
- HumanEval и MBPP — оба бенчмарка для кода, MBPP проще (написать функцию по описанию), HumanEval сложнее (часто требует алгоритмов).
- MMLU и Big-Bench — Big-Bench шире, 200+ задач разных типов. MMLU узкоспецилизирован на школьно-вузовских знаниях.
- 5-shot и 0-shot — стандарт MMLU — 5-shot. Некоторые модели лучше работают с 0-shot. Цифры разные при разных протоколах.
Частые ошибки и заблуждения
- «MMLU 90% = модель знает всё». Нет. Только то, что в распределении 57 предметов. Знания специфичных профессиональных областей (бухучёт РФ, юриспруденция СНГ) — отдельная история.
- «HumanEval 90% = модель пишет любой код». Не пишет. HumanEval — короткие самостоятельные функции. Реальная разработка с архитектурой, рефакторингом, debugging — другие задачи.
- «Цифры из блогов сопоставимы». Часто нет: разные prompt-форматы, разные sampling-настройки. Считать строго только по одному и тому же протоколу.
- «MMLU честный, потому что multiple choice». Multiple-choice формат уязвим к sampling-shortcuts: модель может научиться выбирать букву без понимания контента.
- «Если модель плохо на MMLU, она плохая». Не обязательно. Специализированные модели (DeepSeek-Coder, Med-PaLM) часто проигрывают в MMLU, но отлично делают свою задачу.
Связанные термины
- Benchmark — общая категория, MMLU и HumanEval — конкретные представители.
- Leaderboard — таблицы с MMLU/HumanEval всех моделей.
- MMLU-Pro — обновлённая, более сложная версия.
- SWE-bench — преемник HumanEval для реальных задач.
- HLE / ARC-AGI — новые «несатурированные» бенчмарки.
- lm-evaluation-harness — стандартный инструмент бенчмаркинга.
- 5-shot prompting — стандартный протокол для MMLU.
Частые вопросы
Где смотреть результаты? HuggingFace Open LLM Leaderboard (для open-source), papers-with-code (исторические данные), Vellum AI Leaderboard, блоги провайдеров (для closed моделей).
Можно ли прогнать MMLU самому?
Да: pip install lm-eval (EleutherAI evaluation harness) и одна команда. Занимает 1–2 часа на GPU для 8B-моделей.
MMLU подходит для русскоязычных моделей? Только частично: MMLU — на английском. Для русских — есть Russian SuperGLUE, MERA, RU-MMLU.
Что лучше: HumanEval или SWE-bench? SWE-bench честнее для real-world (реальные баги, не загрязнён). HumanEval остаётся как стандарт по инерции.
Может ли модель «жульничать»? Может — это benchmark contamination. Если MMLU попал в обучающие данные, модель «помнит» правильные ответы. Поэтому смотрят также на свежие бенчмарки.
Есть ли мультимодальные версии? Да: MMMU (Massive Multimodal MMLU) — то же, но с картинками. MathVista — математика по визуальному контенту.
Главное
MMLU и HumanEval — два классических бенчмарка LLM, на которые ссылаются почти все провайдеры. MMLU — 15 908 multiple-choice вопросов по 57 предметам (знания). HumanEval — 164 функции на Python (синтез кода). Стандартные протоколы: 5-shot для MMLU, pass@1 для HumanEval. К 2026-му оба сатурировались на уровне 90%+ для фронтир-моделей, и реальной разницы по ним уже не видно. Поэтому индустрия переходит на свежие бенчмарки: MMLU-Pro (сложнее), SWE-bench (реальные задачи), HLE (фронтир). Для выбора локальной модели MMLU/HumanEval всё ещё хороший быстрый фильтр: MMLU < 55% — пропускайте, > 70% — рассматривайте серьёзно.