Исследования

Конец эпохи бенчмарков: чем теперь измеряют AI в мае 2026

К маю 2026 года все главные тесты для языковых моделей — MMLU, HumanEval, GSM8K — упёрлись в потолок. Фронтиры от OpenAI, Anthropic, Google и DeepSeek набирают одни и те же 95%+, отличаясь на десятые доли. Универсальные бенчмарки исчерпались, и индустрия ищет новый язык измерения. Разбираемся, почему «vibe check» от Карпаты стал важнее лидерборда — и кто занял место старых таблиц.

Автор: Александр Ежов
Опубликовано: 31.05.26

Сцена первая: лидерборд замер

Конец мая 2026 года. На экране — главный сайт сравнения языковых моделей, Chatbot Arena от Berkeley. В верхушке таблицы стоят пятнадцать моделей. Их Elo-рейтинги отличаются на десятки очков из тысячи четырёхсот: GPT-5o-think — 1421, Claude Opus 4.5 — 1418, Gemini 2.5 Ultra — 1416, DeepSeek R2 — 1408, Qwen 3 Max — 1404. Разница на уровне статистического шума.

В соседней вкладке — leaderboard на Hugging Face. То же самое. Сверху — Llama 4 405B, DeepSeek V3, Qwen 3 Max, Kimi K2. У каждого 92-95% на MMLU. Между ними — десятые доли процента, как у спортсменов, бегущих сто метров с фотофинишем.

Эта картина повторяется на каждом большом бенчмарке. HumanEval (программирование) — взят, 95%+. GSM8K (школьная математика) — взят, 96%+. MATH (олимпиадная) — 88%+ у фронтиров. ARC (рассуждение) — взят. BBH (Big Bench Hard) — взят.

Спор у исследователей идёт уже не о том, чья модель умнее, а о том, какие цифры — сигнал, а какие — шум. К маю 2026 стало окончательно ясно: эпоха универсальных бенчмарков подошла к концу. Цифр стало много, информации в них — мало. Индустрия впервые за десятилетие осталась без надёжного способа сказать «эта модель лучше той».

Лидерборд языковых моделей с пятнадцатью именами в верхушке, между которыми разница в десятые доли процента — Май 2026: пятнадцать фронтирных моделей упёрлись в потолок одних и тех же бенчмарков. Различия — в пределах шума измерений.

Хроника падения

Чтобы понять масштаб, достаточно короткой хронологии MMLU — главного «теста IQ» для языковых моделей. Он был создан в 2020 году: 14 042 вопроса по 57 темам — от элементарной математики до медицинской этики и юриспруденции.

2020. GPT-3 — 43%. Воспринималось как сильный результат для первой действительно крупной языковой модели.
Март 2023. GPT-4 — 86%. Прыжок на сорок процентных пунктов за три года. Все охнули. Индустрия перешла в режим «у кого больше число».
Октябрь 2024. Claude 3.5 Sonnet — 88%. OpenAI o1 — 92%. Психологическая граница «90%+» взята.
Май 2026. Все фронтирные модели — 95% и выше. GPT-5o-think — 95.7%. Claude Opus 4.5 — 95.2%. Gemini 2.5 Ultra — 95.4%. DeepSeek R2 — 94.8%. Между ними — единицы десятых.

Та же история со всеми остальными большими тестами. На HumanEval разница между топ-5 моделями измеряется в единицах правильных ответов из 164 задач. На GSM8K — в долях процента. Сами по себе модели в реальной работе остаются разными: одна аккуратнее с длинным текстом, другая лучше думает поэтапно, третья остроумнее в диалоге. Но бенчмарки этого не видят. Они мерят то, чего больше нет — разрыв между «умной» и «не очень умной» моделью.

Почему сломались

Три причины наложились одновременно.

Первая — насыщение. Когда модель набирает 95%+, оставшиеся 5% — это аномалии: вопросы с неточными формулировками, спорные эталонные ответы, опечатки в датасете. Двигаться дальше некуда. Сравнивать модели на разнице между 95.2 и 95.7 — это как замерять скорость двух самолётов на участке, где оба уже упёрлись в звуковой барьер. Разница есть, но смысла в ней нет.

Вторая — загрязнение обучающих данных. Современные модели обучаются на петабайтах текста из интернета. В этом тексте есть всё — включая сами бенчмарки. MMLU опубликован в 2020-м, с тех пор многократно перепечатан, обсуждён, разобран в статьях и блогах. Модель, обученная на современном корпусе, видит вопросы MMLU прямо в обучении. Когда её просят решить — она не «думает», она узнаёт. Грань между запоминанием и пониманием размывается.

В апреле 2026 года команда Scale AI опубликовала исследование, прозвучавшее как тихий взрыв. Они взяли топовые модели и прогнали через закрытую «исследовательскую» версию MMLU, в которой те же 14 тысяч вопросов были переформулированы — с сохранением смысла, но другими словами. Результат: разница до десяти процентных пунктов. Модели «помнили» оригинальный тест, а не «понимали» предмет.

Третья — закон Гудхарта. Старое правило: когда метрика становится целью, она перестаёт быть хорошей метрикой. Лаборатории, конкурирующие за первую строчку leaderboard, начинают оптимизировать под бенчмарк: подгонять данные, переучивать на синтетических примерах в формате MMLU, делать post-training специально под вопросы с четырьмя вариантами ответа. Цифра растёт. Реальная универсальность модели — нет. С каждым новым поколением разрыв между «мерим хорошо на тесте» и «работает хорошо в жизни» становится больше.

Что приходит на замену

К лету 2026-го индустрия пробует одновременно пять разных подходов. Ни один не идеален. Ни один не покрывает всё. Все вместе они кое-как заменяют утраченный универсальный язык.

1. Chatbot Arena: слепые человеческие сравнения

Проект LMSys от Berkeley запустил Chatbot Arena ещё в 2023 году. Логика простая: пользователь задаёт вопрос, получает два анонимных ответа, голосует за лучший. Через миллионы голосов рассчитывается Elo-рейтинг — как в шахматах.

К 2026-му это стало самым уважаемым из всех ranking'ов. Не потому что точнее, а потому что труднее обмануть. Нельзя натренировать модель «угадывать» предпочтение случайного пользователя по случайной теме. Можно сделать ответы более вежливыми, более многословными, чаще использовать эмодзи — но и это сообщество замечает и через несколько недель «штрафует».

Минус известен и обсуждается: Arena измеряет то, что нравится среднему пользователю, а не объективное качество. Многословные ответы с эмодзи нередко побеждают короткие и точные. Учёные ругают Arena за «оптимизацию под лайки». Это правда. И всё равно лучше, чем MMLU.

Интерфейс Chatbot Arena с двумя анонимными ответами и кнопками голосования — слепое сравнение языковых моделей — Chatbot Arena: пользователь видит два анонимных ответа и голосует за лучший. Через миллионы голосов получается рейтинг, который сложно подделать.

2. LiveBench: задачи, которые модель не могла видеть

Концепция LiveBench и LiveCodeBench (2025), к 2026-му дозрели до зрелости. Это датасеты, которые обновляются каждый месяц. Старые вопросы выбрасываются, новые добавляются. Контаминации не может быть по определению: модель училась до того, как задача была сочинена.

Это лучший на 2026 год способ измерить общую способность к рассуждению без подгонки. Минус: организация дорогая, требует постоянной работы команды, и маленькая лаборатория не может позволить себе свой live-bench.

3. Agent-evals: реальные задачи разработки

Новое поколение бенчмарков — SWE-bench, TerminalBench, GAIA. Логика: дать модели настоящий GitHub-issue из open-source проекта и проверить, закроет ли её агент issue корректным pull request.

Это честная проверка для agent harness: не вопрос-ответ, а полноценная задача со многими шагами, файлами, тестами. Самые сильные модели в апреле 2026 закрывали 65-72% задач из SWE-bench Verified. Год назад топ-результат был 40%. Прогресс есть, и он реальный — задачи новые, подделать невозможно. Цифры на этом бенчмарке цитируют сейчас чаще, чем на MMLU.

4. Доменные evals

Появляются специализированные бенчмарки под отдельные предметные области: медицину (USMLE-style), юриспруденцию (LegalBench), переводы редких языков (FLEURS), мультимодальность (MMMU), кодинг под конкретный стек (Codeforces для алгоритмов).

К 2026 году крупные компании при выборе модели редко смотрят MMLU. Чаще — гоняют свой собственный, закрытый eval-набор, собранный из реальных запросов своих пользователей. Это и есть evaluation harness в его прямом инженерном смысле: воспроизводимая методика измерять «работает ли модель именно на нашей задаче».

5. Vibe checks: репутация экспертов

Самый честный, и самый смешной способ — vibe check. Группа уважаемых в сообществе экспертов берёт новую модель в личную работу на неделю-две и пишет блогпост: «вот что мне понравилось, вот что разочаровало». Karpathy, Simon Willison, Swyx, Шакир Мохамед из Anthropic, Латент Спейс — их разборы влияют на рынок сильнее, чем большинство leaderboard'ов.

Это полностью субъективно. И именно поэтому работает: бенчмарки лаборатории оптимизируют, vibe-checker'ов — нет.

Engineer at desk designing a custom evaluation suite — multiple monitors with code, datasets, dashboards — AI Evaluation Engineering — новая профессия 2026 года. Задача: придумать, как в конкретном продукте честно померять, стала ли модель лучше после очередного обновления.

Что это значит на практике

Несколько следствий, важных для всех, кто работает с AI в 2026.

Покупательский выбор стал сложнее. Раньше можно было ткнуть в табличку MMLU и сказать «эта модель лучше». Сейчас — нет. Решение «какая модель под нашу задачу» — отдельная инженерная работа, занимающая у небольшой команды дни, а иногда и недели. Свой evaluation harness, свои данные, свои метрики.

Маркетинг стал хрупче. Anthropic, OpenAI, Google всё чаще делают релизы с обещаниями «новой философии», «глубокого мышления», «улучшенной интуиции» — потому что цифры на коробке больше не впечатляют. Кто-то называет это «эпохой vibe marketing». В мае 2026-го Anthropic в релизе Claude Opus 4.5 даже не упомянула MMLU — только SWE-bench и TerminalBench, реальные агентские задачи. Это конец большой эпохи.

Появилась новая дисциплина: AI Evaluation Engineering. Должность eval engineer стала появляться в крупных AI-компаниях. Задача — придумать, как в конкретном продукте измерять прогресс модели от обновления к обновлению. Это в десять раз сложнее, чем кажется. И в три раза важнее, чем общие бенчмарки.

Open-source догнал. На бенчмарках open-source модели (DeepSeek, Qwen, Llama, Kimi) идут уже плечом к плечу с фронтирами от OpenAI, Anthropic и Google. Закрытым лабораториям становится трудно аргументировать премиум-цену. В мае 2026-го Anthropic неожиданно снизила цену Claude Opus 4.5 на 30% — впервые в истории компании. Аналитики связывают это именно с давлением открытых моделей.

Открытие новых рубежей. Если универсальные бенчмарки кончились, значит цикл «лучшая модель года» теряет смысл. Зато выигрывают специализации: модель, доминирующая в медицинском eval, важнее в клинике, чем модель с +1 на MMLU. Это разворот от «гонки IQ» к «гонке инструментов под задачу». Похожее видно в мире генерации изображений: на FID и CLIPScore все современные модели почти одинаковы, но в ComfyUI сообществе уже год спорят не о том «какая модель лучше», а о том «какая лучше под мой стиль с моим набором LoRA».

Эпилог

В мае 2026-го MMLU тихо ушёл на пенсию. Не было официального заявления, не было церемонии прощания. Просто все ведущие лаборатории один за другим перестали хвастаться MMLU-цифрами в анонсах. Anthropic, OpenAI, Google, DeepSeek — никто. Тест, который пять лет был синонимом «продвинутости языковых моделей», стал упоминаться только в исторических обзорах.

Это конец большой эпохи. С 2020-го по 2025-й AI-индустрия жила в режиме «у кого больше число». Числа были понятным языком: журналисты их цитировали, инвесторы по ним принимали решения, инженеры на них опирались, маркетинг на них строился. Теперь этот язык исчез.

Что приходит взамен — пока не оформилось. Слепые человеческие голосования. Закрытые корпоративные eval-наборы. Vibe checks отдельных экспертов. Доменные тесты. Это разрозненно, шумно, частично субъективно — и одновременно гораздо ближе к реальности.

Возможно, мы наконец вырастаем из подростковой фазы AI, где важна была одна большая цифра. Возможно, входим во взрослую — где приходится разбираться, для какой задачи какой инструмент. Это медленнее. Это менее эффектно. Но это, наверное, правильно.

Связанные термины из словаря

Что дальше:

Раздел Все новости AI → Главное о нейросетях за неделю, без воды. База AI-словарь 156 терминов → Понятные определения с инфографикой и FAQ. Удиви меня Случайный термин → Серендипити: попасть на что-то неожиданное.