Большой разбор

LLM простыми словами: разбор как работают ChatGPT, Claude и Gemini

Большая языковая модель — это нейросеть, которая прочитала почти весь интернет и научилась предсказывать следующее слово настолько хорошо, что выглядит как собеседник. Внутри — архитектура Transformer с десятками и сотнями миллиардов параметров. ChatGPT, Claude, Gemini — это всё LLM на одной базе, но с разной обвязкой. Разбираем, что такое токенизация, attention, контекстное окно и RLHF — и где у моделей реальные пределы.

Автор: Александр Ежов
Чтение: 25 мин
Уровень: Средний
Обновлено: 31.05.26

Сцена первая: ночь у дата-центра

Орегон, штат на северо-западе США. Тихий городок Прайнвилл, население пятнадцать тысяч человек. Километрах в трёх от центра — ангар без окон размером с десять футбольных полей. Внутри — двести тысяч видеокарт Nvidia H100 (каждая стоит как новая Toyota Camry, и каждая делает миллиард операций в секунду). Они работают круглосуточно, без перерывов, без выходных. Внутри ангара — двадцать пять градусов даже зимой, потому что выделяемого тепла хватает, чтобы отапливать городскую больницу.

Здесь учат языковую модель. Не запускают — учат.

В первую неделю модель не умеет почти ничего. На запрос «Привет» она отвечает «Купите квартиру в Дубае со скидкой 30%». На вопрос «Сколько будет два плюс два» — пишет цитату из Виктора Пелевина. Это нормально: она ещё не знает, что такое «вопрос» и что такое «ответ». Она просто видит миллионы предложений и пытается угадать, какое слово идёт следующим.

Через три месяца GPU отрабатывают столько, сколько одна видеокарта работала бы две тысячи лет. Электричества потрачено на сумму небольшого города. Модель прочла всю Википедию на ста языках, все книги Гутенберг-проекта, миллионы статей с Reddit, ArXiv, GitHub, форумов, новостных сайтов. Терабайты. Петабайты.

Когда обучение заканчивается, выходит файл. Один файл размером триста гигабайт. В нём — числа. Восемьдесят миллиардов чисел, расставленных строго в нужном порядке. Сами по себе они ничего не значат. Но если подать им любой текст и пропустить через все триста гигабайт по определённой формуле — на выходе появится продолжение этого текста, которое неотличимо от написанного человеком.

Это и есть LLM — Large Language Model, большая языковая модель. Когда вы открываете ChatGPT или Claude и видите чат-интерфейс — вы видите всего лишь окно к одному такому файлу, лежащему в дата-центре где-нибудь в Орегоне или Атланте.

В этом разборе — как этот файл устроен, как его обучают, чем он умеет и где у него границы.

Большая языковая модель — стеклянная сфера с потоками слов, превращающихся в осмысленный текст — LLM проще всего представить как огромную мельницу: на вход идут слова, внутри — миллиарды связей, на выходе — следующее слово. И так раз за разом, пока не получится целый ответ.

Важно

Главное. LLM — это нейросеть на архитектуре Transformer, обученная предсказывать следующее слово в тексте на огромном корпусе данных. У современной модели — от 7 до 1 700 миллиардов параметров. После базового обучения (pre-training) её дообучают быть собеседником (instruction tuning + RLHF). ChatGPT, Claude, Gemini, LLaMA, DeepSeek, Qwen, Kimi — всё это разные LLM с разной обвязкой и разной философией обучения. LLM не «думает» и не «знает», она статистически продолжает текст так, как её научили. Этого хватает, чтобы решать огромный класс задач — от написания письма до правки кода.

Что такое LLM

Если разобрать аббревиатуру:

Large — большая. По числу параметров. У современной фронтирной модели — сотни миллиардов или триллионы. GPT-3 в 2020 имела 175 миллиардов и тогда это казалось безумием. GPT-4 — около 1.7 триллиона (по утечкам, OpenAI официально не подтверждает). Claude Opus 4 — несколько сотен миллиардов. LLaMA 3 405B — четыреста пять миллиардов. Размер влияет на «мощность», но не линейно: дважды большая модель не вдвое умнее, разница часто на 10–20%.
Language — языковая. Не картинная, не звуковая (хотя бывают и такие — мы их называем «мультимодальными»). Базовый материал — текст. Любой: русский, английский, китайский, японский, код на пятидесяти языках программирования, математические формулы, эмодзи, разметка LaTeX. Для модели всё это — одинаковая последовательность символов, которую она научилась продолжать.
Model — модель. В математическом смысле. Функция, которая принимает на вход одно (текст) и выдаёт другое (следующий кусочек текста). Не «искусственный интеллект» в романтическом смысле. Не «разум». Не «существо». Функция.

Когда говорят «модель Claude 4 Opus» — имеют в виду конкретный обученный файл. Он лежит на серверах Anthropic, никуда не двигается, ни о чём не «думает». Когда вы открываете чат — каждый ваш запрос проходит через этот файл и получает на выходе следующие куски текста. Это называется inference — работа уже обученной модели. Учить эту же модель параллельно никто не учит — обучение давно закончилось.

Главный фокус: предсказание следующего слова

Если запомнить из всей этой статьи только одну вещь, пусть это будет вот эта.

LLM ничего не «знает». Она предсказывает следующий токен в последовательности.

Это весь принцип. Когда вы пишете «Москва — столица», модель внутри запускает огромный набор математики и приходит к выводу: вероятнее всего следующий токен — «России» (вероятность 0.84), реже — «нашей» (0.06), ещё реже — «страны» (0.03). Выбирает «России», добавляет в текст, и теперь у неё на входе уже «Москва — столица России». Запускает математику снова. Получает «—» или «.» с высокой вероятностью. И так раз за разом, токен за токеном, пока не доберётся до конца ответа.

Когда GPT-4 пишет вам эссе на пять страниц — он не «придумывает» эссе целиком и не «помнит» план. Он генерирует одно слово, потом следующее, потом следующее. Каждое — на основе всего, что было написано до. Это, по сути, очень умная автодополнялка. Просто настолько умная, что её внутренние веса учитывают не только грамматику, но и факты, стиль, логику, тон, контекст и многое другое.

Это не недостаток модели. Это её природа. Понимая это, легко перестать удивляться многим её странностям — и легче её использовать.

Краткая история — от Attention до Кремниевой долины 2026

LLM, как и многое в AI, появились не вчера, и не одним прыжком. Это десятилетие постепенных открытий, каждое из которых казалось маленьким, а в сумме они дали то, что мы видим сейчас.

2013. Том Миколов в Google показывает word2vec — алгоритм, который превращает слова в числовые векторы так, что близкие по смыслу слова оказываются близко в пространстве. «Король − мужчина + женщина = королева». Первый намёк, что машина может «понимать» смысл, а не только сравнивать буквы.
2017. Восемь инженеров Google публикуют статью «Attention Is All You Need». Они придумывают Transformer — новую архитектуру для работы с последовательностями. Старые рекуррентные сети (RNN) читали текст по одному слову, теряли память. Трансформер смотрит на весь текст сразу через механизм «внимания» (attention). Это оказывается прорывом. Все современные LLM построены на трансформере.
2018. OpenAI выпускает GPT-1 — 117 миллионов параметров, обучена на BookCorpus. Слабая, но первая. В том же году Google показывает BERT — другую вариацию трансформера, более ориентированную на понимание (а не генерацию).
2019. Выходит GPT-2 с 1.5 миллиардами параметров. Внутри OpenAI решают, что она слишком опасная, и сначала не публикуют веса. Потом публикуют. На дворе истерия по поводу «AI напишет фейковые новости и разрушит демократию». В 2026-м это выглядит как осторожный детский сад на фоне Sora и Claude Computer Use.
2020. GPT-3 с 175 миллиардами параметров. Уже впечатляет всех, кто пробует. Доступа широкому миру нет — только через закрытую бету и API. Появляются первые публикации по prompt engineering. В России про неё знает максимум десять тысяч человек.
2022, 30 ноября. OpenAI выпускает ChatGPT — обёртка над GPT-3.5 (улучшенной версией GPT-3, дообученной через RLHF). Через пять дней — миллион пользователей. Через два месяца — сто миллионов. Самый быстрый рост user base в истории интернета. Мир меняется на ходу.
2023. Anthropic выпускает Claude (бывшие выпускники OpenAI), Meta — LLaMA (открытые веса для исследователей, через две недели слиты в торренты), Google — Bard (потом переименован в Gemini), Mistral AI во Франции — Mistral 7B (свободная маленькая модель европейского качества). Стартует «LLM-гонка».
2024. Появляются reasoning-модели — OpenAI o1, потом o3. Они не отвечают сразу, а сначала «думают» сами с собой — генерируют скрытую цепочку рассуждений, и только потом отвечают. На математических и научных задачах это даёт скачок качества. Также набирают силу DeepSeek (китайская команда, открытые веса 671B), Qwen (от Alibaba), Mistral Large, Claude 3.5 Sonnet и Claude Opus 4.
2025–2026. AI-агенты, Computer Use, MCP-стандарт (Model Context Protocol), Cursor и другие AI-IDE, генерация видео в реальном времени, мультимодальные модели с пониманием звука и картинок наравне с текстом. Год Агента (мы писали про это в новостях). LLM перестаёт быть «чат-ботом» и становится рабочим элементом любого софта.

Десятилетие — от вектора слова до агента, выполняющего недельную задачу за полчаса.

Как LLM работает

Теперь заглянем внутрь. Не до уровня формул — до уровня рабочих метафор, которые помогают понимать поведение модели в реальной жизни.

Механизм внимания внутри Transformer — каждое слово соединено линиями со всеми остальными — Главный фокус Transformer — внимание. Каждое слово в тексте «смотрит» на все остальные одновременно и решает, какие из них для него важны.

Шаг 1: токенизация — текст превращается в числа

Модель не видит букв. Она видит числа. Поэтому первое, что происходит с вашим запросом — он режется на токены.

Токен — это не слово и не буква. Это кусок текста, обычно от трёх до семи символов. Слово «привет» — один токен. Слово «компьютеризация» — несколько токенов: «компьютер», «иза», «ция». Английское «hello» — один токен. Эмодзи — один токен. Знак препинания — обычно отдельный токен. Пробел между словами — иногда отдельный, иногда часть следующего слова.

У каждой модели своя таблица токенов — обычно от 50 000 до 200 000 уникальных. После токенизации текст «Привет, мир!» превращается, например, в [15496, 11, 1917, 0] — список индексов в этой таблице.

Зачем такая хитрость? Потому что слов в любом языке миллионы, а букв — десятки. Токены — золотая середина: их не слишком много, чтобы таблица была разумного размера, и не слишком мало, чтобы потерять смысл. Корни и часто встречающиеся куски слов — отдельные токены, что эффективно. Редкие слова — режутся на части, и модель собирает смысл из кусков.

Шаг 2: эмбеддинги — слова в пространстве смыслов

Дальше каждому токену сопоставляется эмбеддинг — вектор чисел длиной обычно 4 096 или 12 288. Этот вектор — координаты токена в семантическом пространстве.

Идея простая, но мощная: близкие по смыслу слова должны иметь близкие векторы. «Король» и «королева» в пространстве оказываются рядом. «Кот» и «собака» — рядом (оба животные). «Кот» и «синусоида» — далеко.

И самое волшебное: можно делать арифметику. «Король − мужчина + женщина ≈ королева». «Париж − Франция + Германия ≈ Берлин». Это не фокус: семантическое пространство в обученной модели геометрически отражает смыслы. Это и есть основа того, что модель «понимает» слова.

В современных LLM эмбеддинги уже не делают отдельно — они вшиты в первый слой трансформера и учатся вместе со всем остальным.

Шаг 3: внимание — главный механизм Transformer

Теперь — самая важная часть. Когда у вас есть последовательность токенов с их эмбеддингами, как модель понимает связи между ними? Через attention — внимание.

Представьте, что вы читаете предложение «Аня сидела у окна. Она читала книгу про снег.» И вот вам встречается слово «снег». Чтобы понять его смысл в этом контексте, ваш мозг автоматически проверяет: где здесь определяющие связи? «Снег» — это объект чтения. Книга про снег. Кто читает? Она. Кто «она»? Аня.

Внимание делает то же самое, только не последовательно, а параллельно для всех слов сразу. Каждое слово в тексте «спрашивает» все остальные слова: «насколько ты для меня важно?» — и получает ответ от каждого. Эти веса важности — и есть «внимание».

В трансформере это происходит много раз, в несколько слоёв. На первом слое внимание ловит самые простые связи: «эта пунктуация относится к этому слову». На пятом — «это местоимение относится к этому существительному». На пятидесятом — уже сложные семантические связи через весь текст. Каждое слово — это уже не просто токен, а смысл, обогащённый контекстом всех остальных токенов.

У GPT-4, по оценкам, 96 слоёв трансформера. У Claude Opus 4 — больше. У LLaMA 405B — 126 слоёв. На каждом — своё внимание со своими настройками.

Шаг 4: следующий токен — финал

После прохождения всех слоёв трансформера у нас на выходе — большой вектор, описывающий «состояние» текста. К нему прикладывается специальный слой, который превращает это состояние в вероятности для всех 100 000 токенов из словаря. Какой-то токен — 0.84, другой — 0.07, третий — 0.03, и так далее. В сумме всё это даёт 1.

Дальше модель выбирает следующий токен. Не обязательно самый вероятный — на это влияет настройка temperature (температура). Если 0 — всегда самый вероятный, выходит сухо и предсказуемо. Если 1 или выше — модель чаще выбирает менее вероятные варианты, выходит креативнее, но рискованнее.

Выбранный токен добавляется к тексту, и весь процесс запускается заново с новой последовательностью. Так, токен за токеном, генерится ответ длиной хоть в 4 000 слов. Каждый токен — отдельная прогонка по всем 96 слоям трансформера. Поэтому генерация длинных ответов занимает секунды, а на больших моделях — минуты.

Важно

Когда вы видите, что модель «рассуждает по шагам» — на самом деле она просто генерирует токены, которые выглядят как рассуждение. У неё нет «внутреннего голоса», она не «обдумывает». Но если её научили в обучающих данных писать рассуждения сначала, а потом ответ — она будет так делать. Это и есть Chain-of-Thought prompting. Reasoning-модели вроде o1 идут дальше: они сначала пишут длинную скрытую цепочку рассуждений, и только потом — короткий ответ пользователю. Скрытое рассуждение помогает им решать сложные задачи лучше.

Как LLM учится

Если архитектура и работа на inference — это «как функция считается», то обучение — это «откуда в ней взялись правильные веса». Этот процесс занимает месяцы и стоит десятки и сотни миллионов долларов.

Этапы обучения LLM — pre-training, instruction tuning, RLHF, доводка — Современная LLM проходит три этапа: pre-training на сыром тексте, instruction tuning на парах «запрос-ответ» и RLHF на оценках людей.

Этап 1: pre-training — модель читает интернет

На вход даются петабайты сырого текста: Википедия на ста языках, миллионы книг, форумы Reddit и Stack Overflow, code-репозитории GitHub, новости, научные статьи. Иногда — синтетические данные, сгенерированные предыдущей моделью.

Задача на этом этапе одна и единственная: предсказать следующий токен в последовательности. Без объяснений «вот это вопрос, ответь правильно». Просто — вот текст «Москва — столица», предскажи следующее. Если модель ошиблась — корректируем веса. И так миллионы миллиардов раз через алгоритм обратного распространения ошибки.

Через три-четыре месяца на тысячах GPU модель усваивает грамматику, факты, стиль, логику — всё то, что встречается в обучающих данных. На выходе получается «базовая модель» (base model). Она умеет продолжать текст, но не умеет вести диалог. Если ей написать «Привет, как дела?» — она может продолжить «…— спросил он у незнакомца». Потому что в книгах часто такая конструкция.

Параметров у базовой модели — те же самые миллиарды или триллионы. Датасет — терабайты или петабайты. Стоимость одного полного запуска — от 5 до 100 миллионов долларов.

Этап 2: instruction tuning — модель учится отвечать

Базовая модель не годится для пользователя. Её нужно научить следовать инструкциям: «суммируй текст», «переведи на русский», «напиши код». Это делается через fine-tuning на наборе пар «запрос — хороший ответ».

Этих пар — десятки и сотни тысяч. Их пишут люди (раньше — дешёвый труд аннотаторов в Кении и Индии, сейчас всё чаще — другие LLM генерируют тренировочные данные, а люди проверяют). На каждой паре модель дообучается: запрос → правильный ответ. Через несколько тысяч итераций она начинает отвечать на инструкции, а не просто продолжать текст.

Это уже сильно дешевле pre-training — недели вместо месяцев, тысячи долларов вместо миллионов. Но результат всё ещё далёк от идеала.

Этап 3: RLHF — учим модель быть «хорошей»

После instruction tuning модель умеет отвечать, но не всегда так, как нужно. Бывает многословной, бывает резкой, бывает повторяет себя, бывает галлюцинирует, бывает соглашается на сомнительные просьбы. Чтобы сгладить эти углы, нужен ещё один шаг — RLHF (Reinforcement Learning from Human Feedback).

Идея простая. Модели дают один и тот же запрос несколько раз — получают разные ответы. Человек-аннотатор оценивает: «вот этот ответ лучше, чем этот». Эти предпочтения скармливаются второй, маленькой модели — «модели наград» (reward model). Она учится угадывать, какой ответ человек оценит выше.

Потом основную модель обучают через обратное распространение на эту reward model: ответы, которые она хвалит — усиливаем, которые ругает — ослабляем. Через миллион итераций модель становится значительно человечнее: меньше галлюцинаций, аккуратнее тон, меньше повторов, лучше следование инструкциям.

RLHF — это то, что отличает GPT-3 (без него) от ChatGPT (с ним). По сути — без RLHF не было бы массового AI-бума. Технологически GPT-3 уже была в 2020-м, но в чате с ней мало кто захотел бы сидеть.

Современные альтернативы RLHF — DPO (Direct Preference Optimization, проще и быстрее RLHF, не требует отдельной reward-модели) и Constitutional AI от Anthropic, где модель оценивает свои ответы по набору принципов, а не по оценкам людей.

На практике

У тех, кто работает с LLM каждый день, быстро формируется одно наблюдение: разные модели имеют разный «характер», и это прямое следствие того, как именно их обучали на стадии RLHF. Claude — аккуратный, длинно отвечающий, осторожный. GPT-4o — энергичный, иногда переусердствует с эмодзи и восторгом. Gemini — лаконичный, лучше пишет код, но в формальном русском менее свободен. Деловое письмо клиенту — лучше Claude. Накидать варианты идей — GPT-4o. Быстро отредактировать SQL — Gemini Flash, дёшево и быстро. Для локальной работы с черновиками, которые не хочется отправлять в облако, подходят LLaMA или Qwen через LM Studio.

Этап 4 (опционально): дообучение под задачу

Уже выпущенную модель можно дообучить под свою специфику. Это снова fine-tuning, но уже не от компании-производителя, а от вас.

OpenAI и Anthropic предоставляют API для дообучения своих моделей на ваших данных — в облаке. У открытых моделей (LLaMA, DeepSeek, Qwen) можно дообучать локально. Самый дешёвый способ — LoRA, при котором меняются не все веса, а только небольшая «приставка» — десятки мегабайт вместо сотен гигабайт.

В индустрии это используют для медицинских ассистентов (дообучают на медицинских текстах), юридических ботов (на корпусе договоров), SMM-инструментов (на стиле конкретного бренда). В видеопроде распространённая практика — дообучать Stable Diffusion через LoRA на 30 картинках в нужном стиле; для LLM логика та же.

Контекст, токены и стоимость

Если у LLM есть один числовой параметр, который всё время приходится держать в голове при работе — это контекстное окно.

Контекстное окно — это максимальная длина текста, которую модель может «видеть» за один раз. Считается в токенах. Сюда входит и ваш запрос, и предыдущие сообщения в диалоге, и системный промпт, и (если модель отвечает) её ответ.

Модель	Окно (токенов)	Окно (слов рус)
GPT-3 (2020)	2 048	~1 500
GPT-4 Turbo	128 000	~95 000
Claude 3.5 Sonnet	200 000	~150 000
Claude Opus 4 (1M)	1 000 000	~750 000
Gemini 1.5 / 2.5 Pro	1 000 000	~750 000
Gemini Ultra (бета)	2 000 000	~1 500 000

Двести тысяч токенов — это примерно 150 000 русских слов или одна большая книга на 300 страниц. Миллион — это «Война и мир» с запасом. Два миллиона — практически вся серия про Гарри Поттера.

Чем больше окно — тем сложнее задачу можно решить за один проход. Можно загрузить весь договор и спросить «найди в нём пять рисков», можно скормить кодовую базу из 50 файлов и попросить рефакторинг, можно загрузить расшифровку часового интервью и попросить выжимку.

Но есть ловушка. Чем шире окно, тем дороже и медленнее работа. Стоимость обработки растёт примерно квадратично с длиной (внутри трансформера каждый токен «смотрит» на каждый, это O(N²)). А ещё — на длинных контекстах модели «забывают середину»: лучше всего обращают внимание на начало и конец, в середине могут пропустить важное. Это известный эффект «потерянного в середине» (lost in the middle), исследован отдельно.

Сколько это стоит

Цены на API-моделях считаются за миллион токенов, отдельно за вход (то, что вы посылаете) и выход (то, что генерит модель). Выход обычно в 3–5 раз дороже входа — потому что генерация ресурсоёмче проверки.

Примерные цены на середину 2026:

Модель	Вход $/1M	Выход $/1M
GPT-4o	2.50	10.00
GPT-4o mini	0.15	0.60
Claude 3.5 Sonnet	3.00	15.00
Claude Opus 4	15.00	75.00
Claude Haiku	0.25	1.25
Gemini 2.5 Pro	1.25	5.00
Gemini Flash	0.075	0.30
DeepSeek V3	0.27	1.10

На практике для личного использования через API — даже у самых дорогих моделей десять долларов в месяц закроют большую часть задач. У OpenAI и Anthropic есть подписки на чат за $20 — там безлимитное использование с небольшими ограничениями. Для серьёзной интеграции в продукт счёт идёт уже на тысячи долларов.

Виды LLM

Хотя все большие языковые модели делают одно и то же — предсказывают следующий токен — между ними есть существенные различия. Разберём основные оси.

Семейство LLM — ветви и компании: OpenAI GPT, Anthropic Claude, Google Gemini, Meta LLaMA, Mistral, DeepSeek, Qwen — В 2026-м LLM-ландшафт делится на несколько ветвей: американские закрытые гиганты, китайские открытые гиганты, европейские альтернативы и куча специализированных моделей под нишевые задачи.

Закрытые vs Открытые

Закрытые (proprietary): GPT (OpenAI), Claude (Anthropic), Gemini (Google), Grok (xAI), Mistral Large. Веса не публикуются. Доступ только через API или чат-интерфейс компании. Плюсы: лучший среднестатистический результат, профессиональная инфраструктура, поддержка. Минусы: ваши данные уходят в облако, цена зависит от компании, нельзя дообучить локально.

Открытые (open-source AI): LLaMA (Meta), DeepSeek, Qwen (Alibaba), Mistral 7B/8x7B, Kimi K2, Phi (Microsoft), Gemma (Google). Веса публикуются — можно скачать и запустить локально, дообучить, встроить в свой продукт. Плюсы: контроль, приватность, возможность работать без интернета. Минусы: качество на 5–15% ниже фронтиров, нужно своё железо или облако.

В 2026-м разрыв между открытыми и закрытыми сильно сократился. DeepSeek V3 671B на ряде бенчмарков сопоставима с GPT-4 и Claude. LLaMA 405B держится близко к Sonnet. Открытые модели стали реальной альтернативой для тех, кто не хочет зависеть от больших корпораций.

По размеру

SLM (Small Language Models) — 1–8 миллиардов параметров. Запускаются на ноутбуке или телефоне. Phi-3, LLaMA 3 8B, Gemma 7B, Mistral 7B. Качество — ограниченное, но достаточное для специализированных задач: суммаризация писем, классификация, базовый чат. Для пользователя главное — работают локально, без интернета.
Mid-size — 30–80 миллиардов. Качество близко к старшим GPT-3.5. Можно запустить на одной мощной игровой машине (RTX 4090 + квантизация). LLaMA 3 70B, DeepSeek V2, Mistral Small.
Frontier — 200+ миллиардов или MoE с эквивалентом. GPT-4, Claude Opus, Gemini Ultra, LLaMA 405B, DeepSeek V3 (671B MoE). Запускаются только в больших дата-центрах. Качество — лучшее, что человечество умеет в 2026.

Reasoning-модели

Отдельная ветвь, появившаяся с OpenAI o1 в 2024. Эти модели обучены сначала «думать про себя» — генерировать длинную скрытую цепочку рассуждений — и только потом давать пользователю ответ. Это резко улучшает результат на математике, программировании, научных задачах.

Цена — больше токенов и больше времени. Простой ответ из ChatGPT — секунда. Reasoning-ответ из o3 — десятки секунд или даже минуты. Но на сложной задаче (например, доказательство теоремы или отладка хитрого алгоритма) разница может быть катастрофической: GPT-4o неуверенно крутится вокруг, o3 — даёт правильный ответ.

В 2026 у Claude есть «extended thinking» режим, у DeepSeek — R1, у Gemini — Deep Think. Reasoning стал стандартным режимом для сложных задач.

Mixture of Experts (MoE)

Архитектурная хитрость. Вместо одного большого слоя — несколько маленьких экспертов, и роутер, который для каждого токена выбирает 1–2 из них. На бумаге модель имеет 400 миллиардов параметров. На практике для каждого конкретного токена работает только 30 миллиардов — те, что выбрал роутер.

Результат: качество как у большой плотной модели, скорость как у средней. Mixtral 8x7B, DeepSeek V3, Gemini Pro используют MoE. В 2026 это де-факто стандарт для фронтирных моделей.

Мультимодальные

Если модель умеет работать не только с текстом, её называют мультимодальной. К 2026 практически все фронтиры — GPT-4o, Claude 3.5 Sonnet, Gemini 2.5, Qwen-VL — умеют:

Смотреть на картинки и описывать их (vision)
Слушать речь и расшифровывать (audio in)
Генерировать речь (audio out, у GPT-4o особенно хорошо)
Иногда — генерировать картинки и видео (Gemini, Grok)

Это не «другая модель» — это та же LLM, у которой словарь токенов расширен: помимо текстовых токенов, в нём есть «картинно-токены» (фрагменты пикселей) и «звуко-токены» (фрагменты звуковой волны). Всё проходит через тот же трансформер. На выходе — токены того типа, который вы попросили.

С чем не путать

В разговорах вокруг LLM полно слов, которые звучат похоже, но обозначают разное.

LLM ≠ ChatGPT. ChatGPT — это продукт (приложение, чат-интерфейс). Внутри ChatGPT работают разные LLM от OpenAI: на бесплатном тарифе — GPT-4o mini, на платном — GPT-4o, на ультра-тарифе — o3. Это всё разные модели, ChatGPT — обёртка над ними. Аналогично: Claude.ai — продукт от Anthropic, использующий модели Claude (Haiku/Sonnet/Opus). А вот когда говорят «GPT-4» — речь именно про модель.

LLM ≠ AI-агент. AI-агент — это система поверх LLM: цикл, который умеет вызывать инструменты, держать память, выполнять действия по очереди. LLM сама — статична: запрос → ответ. Агент — динамичен: запрос → план → шаги → действия → проверка → следующий шаг. Cursor, Claude Code, Manus — это агенты, а не «продвинутые LLM».

LLM ≠ поисковик. Поисковик ищет в индексе документов. LLM генерирует текст из весов, накопленных при обучении. Когда вы просите цитату из книги — поисковик найдёт точный фрагмент, LLM может сгенерировать правдоподобно выглядящий, но выдуманный. Это и есть галлюцинации. Чтобы скрестить LLM с поиском по фактам — используют RAG (Retrieval-Augmented Generation).

LLM ≠ база знаний. У LLM есть cutoff date — момент, после которого её перестали учить. У GPT-4o — апрель 2024. У Claude 3.5 Sonnet — апрель 2024. У Claude Opus 4 — конец 2024. Всё, что произошло после, для модели не существует. Спросите её, кто выиграл выборы в США в 2024-м — может ответить, может сослаться на «у меня нет данных». Спросите про 2026-й — почти гарантированно галлюцинация.

LLM ≠ chat. Чат — самая популярная форма взаимодействия, но не единственная. LLM можно использовать как API-функцию: на вход даёшь текст, получаешь текст. Никакого «диалога», просто функция. Так LLM встраивают в продукты — для классификации обращений, автоматического написания описаний товаров, проверки грамматики, извлечения структурированных данных из неструктурированного текста, перевода.

LLM ≠ ИИ (AI). AI — общее поле, в котором LLM — один из видов моделей. Есть много AI-моделей, которые не LLM: распознавание лиц, диффузионные модели для картинок, классификаторы для медицинских снимков, рекомендательные системы. Когда журналист пишет «AI пишет картины» — это вообще про диффузию, не про LLM. Точность важна.

Частые ошибки и заблуждения

«LLM понимает то, что я ей пишу». Это самое распространённое и самое путаное заблуждение. LLM не понимает в человеческом смысле. Она находит статистически вероятное продолжение текста. Часто этого хватает, чтобы выглядело как понимание. Иногда — не хватает: модель выдаёт абсурд с уверенным тоном (это галлюцинация), не может удержать длинную многошаговую логику, путается на задачах, требующих настоящего рассуждения. Чем абстрактнее и многоступенчатее задача — тем чаще видны ограничения статистической природы LLM.

«LLM запоминает то, что я ей сказал, на будущее». Не запоминает. Каждый новый разговор начинается с чистого листа. То, что в ChatGPT и Claude есть «память» (memory feature) — это внешняя надстройка: отдельный механизм, который вашу историю записывает в файл и подкладывает в системный промпт. Сама LLM каждый раз стартует с пустого контекста.

«Чем больше параметров — тем умнее». До определённого предела — да. Но в 2026 видно, что архитектура и качество данных значат больше, чем чистый размер. DeepSeek V3 (671B MoE, но фактически активны 37B) обгоняет на ряде бенчмарков GPT-4 (около триллиона). Reasoning-модель o3 (по слухам, меньше 100B) — лучше любой большой модели без reasoning на математике. Размер — лишь один фактор.

«LLM нельзя запустить дома». Можно. Маленькие модели (1–8B) — спокойно на ноутбуке с 16 ГБ RAM. Mid-size (30–70B) — на машине с RTX 4090 или Mac Studio с 64+ ГБ. Через квантизацию (4-bit или 8-bit) модель занимает в 4–8 раз меньше VRAM с минимальной потерей качества. Самые удобные инструменты: LM Studio, Ollama, llama.cpp, ComfyUI с LLM-нодами.

«ChatGPT — это самый умный AI». В 2026 это уже не очевидно. На разных задачах лидируют разные модели:

Длинные тексты и аккуратное программирование — Claude Opus 4
Мультимодальность и голос — GPT-4o
Сложная математика и наука — OpenAI o3, DeepSeek R1
Очень длинный контекст (1M+) — Gemini 2.5
Дешёвая работа в больших объёмах — Gemini Flash, DeepSeek V3, Qwen
Запуск локально — LLaMA 3.3, Qwen 2.5, DeepSeek V3 (через квантизацию)

«Лучшая» зависит от задачи и бюджета.

«LLM скоро заменит программистов / писателей / врачей». Не заменит — изменит. Программисты используют Cursor и Claude Code как «второго пилота», но архитектурные решения и ответственность остаются на человеке. Писатели применяют LLM для черновиков и редактуры, финальная работа — авторская. Врачи получают AI-ассистенты для чтения снимков, но диагноз и решения — врачебные. Происходит перераспределение труда: рутинная часть автоматизируется, остаётся ядро профессии.

«LLM никогда не врёт намеренно». «Намеренно» — нет, у неё нет намерений. Но в обучающих данных есть масса противоречий, искажений, устаревших фактов. Модель усваивает всё это статистически и может выдавать систематически неверные ответы. Особенно — в граничных областях знаний или там, где обучающих данных мало. Всегда сверяйте важное.

Карта дальше — куда копать

Если этот разбор зацепил, дальше — погружаться по конкретным веткам. У нас в словаре 146 терминов, каждый — отдельная статья с примерами и кейсами.

Если интересуют конкретные модели:

ChatGPT — самый известный, флагман OpenAI
Claude — лучший для длинных текстов и кода, от Anthropic
Gemini — глубокий контекст и мультимодальность, от Google
GPT — модель внутри ChatGPT
DeepSeek — китайский фронтир, открытые веса
Qwen — мощная открытая модель от Alibaba
Grok — модель Илона Маска
Kimi — конкурент DeepSeek от Moonshot AI
Reasoning Models — o1, o3 и аналоги

Если интересна архитектура и устройство:

Transformer — архитектура, на которой стоят все LLM
Token — единица, которой считается всё
Context Window — сколько модель помнит за раз
Embedding — слова в пространстве смыслов
Parameters — «знания» модели в виде чисел
Inference — работа уже обученной модели

Если интересует обучение и дообучение:

Training — основной цикл обучения
Dataset — на чём учат
RLHF/DPO — обучение с человеческими предпочтениями
Alignment — как сделать модель безопасной
Fine-tuning — дообучение под свою задачу
LoRA — дешёвый и быстрый способ дообучить
Open-source AI — открытые модели как альтернатива

Если интересует работа с LLM как пользователь:

Prompt — как формулировать запрос
Prompt Engineering — искусство задавать вопросы
System Prompt — установка «личности» модели
Hallucination — когда модель уверенно врёт
Zero-shot / Few-shot — с примерами и без

Если интересует разработка и интеграция:

API — как использовать модели в коде
Function Calling и Tool Calling — как модель вызывает действия
Structured Output и JSON Mode — машинно-читаемые ответы
MCP — стандарт подключения инструментов
AI Agent и Agentic AI — модели, которые работают сами
Cursor — главное AI-IDE для программистов

Если интересует, как нейросети устроены вообще:

Большой разбор: Что такое нейросеть — устройство, обучение, виды
Или просто полный каталог 146 терминов с поиском и фильтром.

Частые вопросы

Чем LLM отличается от нейросети вообще? Нейросеть — общее понятие, охватывающее любую модель из связанных «нейронов». LLM — это подвид нейросети: с архитектурой Transformer, обученный на тексте, с миллиардами параметров. Все LLM — нейросети, но не все нейросети — LLM. Системы для распознавания лиц, медицинской диагностики, beating-detection в музыке — это тоже нейросети, но они не LLM.

Что значит «70B» или «405B»? Число параметров в миллиардах. LLaMA 3 70B = 70 миллиардов параметров. DeepSeek V3 671B = 671 миллиард параметров (но это MoE, активных на каждом токене — около 37B). У GPT-4 точное число OpenAI не раскрывает, по утечкам около 1.7 триллиона (1700B).

Сколько весит файл с LLM? Зависит от размера модели и квантизации. Полная LLaMA 3 70B в FP16 (стандартная точность) — около 140 ГБ. С 4-bit квантизацией — около 40 ГБ, поместится на одну видеокарту с 48 ГБ VRAM. SLM (8B) в 4-bit — около 4 ГБ, поместится на средний ноутбук. Полная GPT-4 в FP16 (если бы были веса) — несколько терабайт.

Что такое temperature? Параметр, регулирующий «креативность» модели при выборе следующего токена. При temperature=0 модель всегда выбирает самый вероятный токен — ответы становятся одинаковыми между запусками, сухие и предсказуемые. При temperature=1 — выбор более случайный, ответы вариативнее. При temperature>1.5 — модель может «съезжать» в бессвязный текст. Для технических задач (код, факты) — 0–0.3. Для творческих — 0.7–1.0.

Что такое top_p / top_k? Альтернативы temperature. Top_k=50 значит «при выборе следующего токена рассматривай только топ-50 наиболее вероятных». Top_p=0.9 значит «рассматривай тех, кто в сумме набирает 90% вероятности». Помогают избежать совсем редких и плохих вариантов, не теряя при этом всей вариативности.

Как LLM может «забывать середину»? Технически — она «видит» всё одинаково, но из-за статистики обучения у трансформера есть смещение: лучше всего модель «обращает внимание» на начало и конец длинного текста, в середине внимание распределяется хуже. Это значит, что если вы загрузили 100-страничный документ и важная деталь — на странице 50, она может пройти мимо. Решение: либо ставить важное в начало/конец, либо использовать RAG с целевым извлечением кусков, либо reasoning-модель с расширенным думанием.

Можно ли обучить свою LLM с нуля? Технически — да. Практически — почти невозможно для отдельного человека. Pre-training даже маленькой 7B модели требует тысяч GPU-часов и сотен тысяч долларов. Для серьёзной фронтирной модели — десятки миллионов долларов и сотни инженеров. Поэтому реальный путь — дообучение существующей открытой модели через LoRA на своих данных. Это под силу одному разработчику с RTX 4090 за выходные.

Сколько данных нужно для обучения LLM? Для pre-training современных фронтиров — от 1 до 15 триллионов токенов. Это терабайты или петабайты сырого текста. Для instruction tuning — сотни тысяч пар «запрос — ответ». Для RLHF — десятки тысяч человеческих предпочтений. Для LoRA-дообучения — от 50 до нескольких тысяч примеров.

Что значит «cutoff date»? Дата, после которой модель не видела данных. Текущее знание модели заморожено на этом дне. Чтобы дать ей актуальную информацию — нужны отдельные инструменты: web search (как у Perplexity, ChatGPT в режиме веб-поиска), RAG (подгрузка свежих документов в контекст), function calling (модель сама запрашивает свежие данные).

Чем reasoning-модели отличаются от обычных? Они обучены сначала писать длинную цепочку рассуждений «про себя», и только потом давать ответ пользователю. Эта внутренняя цепочка не показывается (или показывается частично) и помогает решать сложные многошаговые задачи. Цена — больше токенов и больше времени, но качество на математике, программировании, науке — заметно выше. OpenAI o1/o3, Claude extended thinking, DeepSeek R1, Gemini Deep Think — все это reasoning-модели.

Что такое RAG? Retrieval-Augmented Generation. Гибрид LLM и поисковика. Перед тем как модель отвечает на ваш вопрос, отдельная система ищет в вашей базе документов (или интернете) релевантные куски и подкладывает их в контекст. Так LLM может отвечать про факты, которых не было в её обучающем датасете, и при этом не галлюцинирует — потому что фактический материал у неё перед глазами. Стандартный приём для корпоративных чат-ботов: загружают всю базу знаний компании, и LLM отвечает строго по ней.

Можно ли использовать LLM в России? Через VPN — да. Прямого доступа у OpenAI, Anthropic, Google для российских IP в 2026 нет. Локально — да, через открытые модели (LLaMA, DeepSeek, Qwen, Kimi). Через российские сервисы — YandexGPT, GigaChat от Сбера, MTС AI; качество ниже фронтиров, но для базовых задач достаточно. Также есть OpenRouter и подобные прокси, где можно купить доступ к GPT/Claude/Gemini через стороннего поставщика.

Сколько стоит ChatGPT/Claude в месяц? Базовый чат — бесплатно с ограничениями. ChatGPT Plus / Claude Pro — $20 в месяц, на нём флагманские модели и большие лимиты. ChatGPT Pro — $200 в месяц, доступ к o3 и максимальным лимитам. На API цены отдельные, считаются по токенам (см. таблицу выше).

Что такое промпт-инжиниринг и стоит ли его учить? Промпт-инжиниринг — это искусство формулировать запросы так, чтобы получать максимально полезный ответ. Базовые приёмы — задавать роль («ты эксперт по…»), давать примеры (few-shot), просить структурированный ответ, разбивать большую задачу на шаги. Учить — точно стоит: разница между сырым запросом и хорошо составленным — часто между «бесполезный ответ» и «отличный».

Главное

Большая языковая модель — это не «искусственный разум» и не «следующий шаг эволюции человечества». Это очень умная функция, обученная на огромном количестве текста, которая хорошо угадывает, какое слово идёт следующим. Этого хватает, чтобы вести диалог, писать код, переводить с одного языка на другой, суммировать тексты, отвечать на сложные вопросы, помогать с творческими задачами.

Внутри — архитектура Transformer, миллиарды параметров, токенизация, механизм внимания, контекстное окно от 8 тысяч до 2 миллионов токенов. Снаружи — чат, API, агенты, плагины, голосовые помощники.

В 2026-м LLM перестали быть «новой технологией» и стали рабочим инструментом. Их используют каждый день миллионы людей: для писем, для черновиков, для отладки кода, для исследования незнакомых тем, для генерации идей. LLM не заменяют профессии — они меняют их состав. Рутина уходит. Решения остаются.

Главное, что нужно понять про LLM, чтобы работать с ними эффективно:

Они не думают — они статистически продолжают текст. Это не недостаток, это природа. Понимая это, легче формулировать запросы и проверять ответы.
У них есть пределы знаний — cutoff date, ограниченное окно, склонность к галлюцинациям. Не относитесь к ответам LLM как к истине в последней инстанции. Сверяйте важное.
Разные LLM — разные сильные стороны. Нет «лучшей модели на всё». Для длинного текста — Claude, для голоса и мультимодальности — GPT-4o, для очень длинного контекста — Gemini, для дешёвой массовой работы — Flash и Haiku.
Промпт важен. Качество ответа на 70% зависит от качества запроса. Учитесь формулировать.
Не бойтесь экспериментировать. Лучший способ понять модель — много с ней говорить. Бесплатные тарифы и пробные кредиты у всех API позволяют попробовать каждую.

Если дочитали досюда — вы уже знаете о LLM больше, чем 95% людей, которые ими пользуются. Это не магия и не угроза. Это инструмент. И как любой инструмент — он наиболее полезен в руках того, кто понимает, как он работает.

Если зацепило — полный каталог 146 терминов словаря ждёт. Там можно копнуть в любую сторону.

Карта дальше — термины из словаря

Если хотите идти глубже — вот все термины, упомянутые в этом гиде. Можно открыть в новой вкладке и читать параллельно.

Что дальше:

Словарь AI-словарь 156 терминов → Понятные определения с инфографикой и FAQ. Новости Новости AI → Главное о нейросетях за неделю. Удиви меня Случайный термин → Серендипити: попасть на что-то неожиданное.