World Models

world models — нейросети, которые не показывают видео, а симулируют мир, в котором можно жить

Раздел
Генеративные модели
Обновлено
04.06.26

World Models (мировые модели) — нейросети, которые не просто рисуют видео, а строят интерактивную симуляцию мира: помнят его состояние и пересчитывают каждый следующий кадр в ответ на ваши действия. В отличие от видеогенерации (Veo, Sora), где ролик задан заранее, в мировой модели можно идти куда хочешь — и мир реагирует. Главные примеры 2025–2026: Genie 3 (Google DeepMind), NVIDIA Cosmos и Marble (World Labs); их используют, чтобы обучать роботов и автопилоты там, где снимать реальное видео дорого или опасно.

Коротко

Коротко. World Model (мировая модель) — это не видеогенератор, а симулятор мира с памятью. Видеомодель показывает заранее сгенерированный ролик: нажать на клавишу и заставить героя прыгнуть нельзя. Мировая модель работает в замкнутом цикле: вы делаете шаг — она пересчитывает состояние мира и выдаёт следующий кадр. Genie 3 от Google DeepMind (август 2025) держит такой мир в реальном времени: 720p, 24 кадра в секунду, несколько минут навигации. Зачем это нужно: дешёвый и безопасный тренажёр для роботов и автопилотов.

Что это такое

Представьте два экрана. На первом — красивый ролик из Sora: камера летит над городом, блики на стёклах, всё идеально. Но это запись. Вы не можете свернуть в переулок — там просто нет переулка, его никто не придумал. На втором экране картинка чуть проще, зато она слушается. Нажимаете «вперёд» — идёте вперёд. Поворачиваете — видите то, чего секунду назад не было в кадре. Возвращаетесь назад — и дом стоит на том же месте, где вы его оставили.

Первый экран — это видеогенерация. Второй — мировая модель.

Разница не косметическая, а принципиальная. Видеомодель работает в открытом цикле: она статистически предсказывает следующие пиксели и не «понимает», что в кадре происходит. Мировая модель работает в замкнутом цикле: у неё внутри есть сжатое представление мира — его состояние, — и каждое ваше действие это состояние меняет. Следующий кадр рождается не из текстового промпта, а из пары «текущее состояние мира + ваше действие».

Идея старая. Ещё в 2018-м Дэвид Ха и Юрген Шмидхубер выпустили работу с буквальным названием «World Models»: агент учился действовать целиком внутри «выдуманной» среды, а потом переносил навык в реальную задачу. Но чтобы такая модель заработала в реальном времени и в 3D, понадобились ещё семь лет вычислений.

К 2026-му мировые модели стали одной из самых горячих ставок индустрии. Ян Лекун — человек, получивший премию Тьюринга, — ушёл из Meta именно ради них, заявив, что у больших языковых моделей «нет модели мира, поэтому они не умеют по-настоящему рассуждать и планировать». Fei-Fei Li, создательница ImageNet, основала World Labs под лозунгом «пространственный интеллект — следующий рубеж». А Дженсен Хуанг из NVIDIA называет это «большим взрывом физического ИИ».

Как это работает

Сердце мировой модели — состояние мира (world state). Это не картинка, а сжатое внутреннее представление: что где находится, как объекты связаны, какая «физика» в этой сцене. Цикл выглядит так:

  1. Вход — ваше действие: нажатие клавиши, движение мыши, команда «прыгни».
  2. Обновление состояния — модель предсказывает, как мир изменится: мяч покатится, дверь откроется, вода плеснёт.
  3. Декодирование кадра — из нового состояния рисуется следующий кадр и показывается вам.
  4. Возврат к шагу 1 — уже с новым состоянием.

Главная боль ранних моделей — несогласованность. Вы отвернулись, повернулись обратно — а стена уже другого цвета, дерево исчезло, геометрия «поплыла». Genie 3 лечит это пространственной памятью: модель держит в буфере то, что ушло из поля зрения, примерно на минуту назад, и восстанавливает сцену при возврате. Для робота это критично — реальная навигация требует помнить, где что лежит.

Чтобы выдать 24 кадра в секунду при 720p, на один кадр есть меньше 42 миллисекунд. Поэтому модели дистиллируют — обучают компактную «студенческую» версию, которая генерирует кадр за кадром быстро.

У World Labs подход ещё иной: их продукт Marble генерирует не «видео от первого лица», а полноценное 3D-пространство, которое можно скачать. Под капотом — 3D Gaussian Splatting, технология представления сцены миллионами полупрозрачных «шариков». Получается измеримая геометрия, по которой можно ходить и которую можно экспортировать в обычные 3D-форматы.

Пример на практике

Самое неожиданное применение мировых моделей — не игры, а тренажёр для машин, которым нельзя ошибаться.

Waymo обучает беспилотные автомобили. Проблема: самые важные сценарии — самые редкие. Торнадо на шоссе. Лось, выбежавший на трассу ночью. Одновременный отказ двух датчиков. Снять такое в реальности невозможно, опасно или незаконно. И вот Genie 3 генерирует эти ситуации синтетически — столько вариантов, сколько нужно, дешевле любого тестового полигона.

NVIDIA построила вокруг этого целую платформу Cosmos (дебют на CES в январе 2025): мировые модели делают синтетические данные, на которых учатся роботы и автопилоты. Цифры показательные: робот, обученный с примесью синтетики из мировой модели, поднимает успех выполнения задач на десятки процентов по сравнению с обучением только на реальных данных.

А World Labs в ноябре 2025-го выпустила Marble — первый коммерческий продукт: по тексту, фото или видео он собирает постоянный 3D-мир, в который можно зайти в VR-шлеме (Vision Pro, Quest 3). Архитектор прототипирует здание, геймдизайнер набрасывает локацию, а ИИ-инженер штампует 3D-сцены для обучения робота — без съёмочной группы.

С чем часто путают

  • Мировая модель и видеогенерация — Veo и Sora делают красивое видео, но это запись: повлиять на происходящее внутри нельзя. Мировая модель интерактивна — каждый кадр реагирует на действие. Кстати, Sora, которую OpenAI продавала как «симулятор мира», закрыли в апреле 2026 — технически это была видеомодель, а не мировая.
  • Мировая модель и игровой движок — Unreal и Unity детерминированы: один и тот же ввод всегда даёт один и тот же результат, физика прописана формулами. Мировая модель вероятностна, физику она выучила из данных и может «галлюцинировать». Поэтому честный соревновательный мультиплеер на ней пока не построить.
  • Мировая модель и физический симулятор — MuJoCo или Isaac Sim считают физику по точным уравнениям. Мировая модель угадывает физику из видео и берёт сцены, которые трудно описать формулами: ткань, дым, жидкости.
  • Мировая модель и NeRF / Gaussian Splatting — последние реконструируют существующую сцену по фотографиям. Мировая модель генерирует новые сцены и их динамику. NeRF — это 3D-фотография, мировая модель — 3D-фантазия с физикой.
  • Мировая модель и «модель мира внутри LLM» — когда говорят, что языковая модель строит «внутреннюю модель мира», имеют в виду метафору про знания о реальности из текста. Мировая модель в техническом смысле 2025–2026 — это конкретная архитектура, которая интерактивно симулирует среду и принимает действия на вход.

Частые ошибки и заблуждения

  • «Это просто очень красивое видео». Нет. Видео — открытый цикл: нажатие клавиши не меняет следующий кадр. Мировая модель — замкнутый: каждое действие меняет состояние мира. Внешне похоже, внутри противоположно.
  • «Это игровой движок, нарисованный ИИ». Движок детерминирован и верифицируем — на этом стоит честная игра. Мировая модель вероятностна и забывчива: пока она держит мир лишь минуты и в ограниченных сценариях.
  • «Уже можно играть как в полноценную игру». Genie 3 — закрытое превью без прогрессии, инвентаря и постоянного сохранения. Ранний открытый Oasis (2024) выдавал 360p и быстро «забывал» мир. До настоящей игры — годы инженерной работы.
  • «World model — это и есть AGI». Нет. Это один класс архитектур для симуляции сред. Даже Лекун, главный их адвокат, называет мировые модели необходимым, но не достаточным шагом к машинному здравому смыслу.

Связанные термины

  • Diffusion Model — архитектурная основа многих мировых моделей; кадр рождается через шумоподавление.
  • Text-to-Video — «плоский» родственник: видео без интерактивности и состояния мира.
  • Multimodal AI — мировые модели становятся мультимодальными: на вход текст и видео, на выход кадры и даже действия робота.
  • Synthetic Data — главное сегодняшнее применение: генерация обучающих данных для роботов и автопилотов.
  • VLA (Vision-Language-Action) — «мозг» робота; мировая модель служит ему тренажёром и предсказателем будущего.
  • Neural Network — базовый строительный материал всех этих систем.

Частые вопросы

Чем мировая модель отличается от Sora? Sora генерирует видео — заранее заданный ролик, в который нельзя вмешаться. Мировая модель интерактивна: вы управляете, мир реагирует и помнит своё состояние. OpenAI закрыла Sora в апреле 2026.

Можно ли уже поиграть в Genie 3? Нет. На июнь 2026 это ограниченное исследовательское превью. Публичного доступа и полноценной игры с прогрессией пока нет.

Зачем мировые модели роботам? Это дешёвый и безопасный тренажёр. Робот учится в синтетическом мире (sim-to-real), где можно прогнать миллионы ситуаций, прежде чем выходить в реальную комнату.

Почему Ян Лекун поставил на мировые модели? Он считает, что языковые модели уперлись в потолок: у них нет модели физического мира с причинами и следствиями. Его аналогия — «учить вождению только через разговоры». В 2026-м он привлёк под эту идею около миллиарда долларов.

Мировая модель заменит игровые движки? Пока нет. Движкам нужен детерминизм и предсказуемость, а мировые модели вероятностны. Скорее они будут сосуществовать: движок — для честной механики, мировая модель — для генерации контента и тренировки агентов.

Главное

World Model — это сдвиг от «ИИ, который показывает мир» к «ИИ, который этот мир симулирует». Ключевое отличие от видеогенерации — замкнутый цикл: модель держит состояние мира, обновляет его в ответ на ваши действия и помнит то, что ушло из кадра. За полтора года технология прошла путь от 2D-платформеров Genie 1 (2024) до интерактивного 720p в реальном времени у Genie 3 (2025) и скачиваемых 3D-миров Marble (2025). Сегодня её главная ценность не в играх, а в обучении роботов и автопилотов на синтетических данных — там, где реальная съёмка дорога или смертельно опасна. Это всё ещё ранняя и сырая область: миры живут минуты, физика плывёт, доступа почти нет. Но ставка индустрии огромна — от NVIDIA и Google DeepMind до Fei-Fei Li и Яна Лекуна, — потому что мировая модель отвечает на вопрос, который текст решить не может: как машине научиться действовать в трёхмерной реальности.