Alignment

alignment — настройка модели на безопасное и полезное поведение

Раздел
Языковые модели
Обновлено
18.05.26

Alignment — процесс настройки LLM на поведение, согласованное с человеческими ценностями: быть полезной, честной, безопасной (helpful, honest, harmless). Без alignment модель просто продолжает текст, не различая «сказать правду» и «сделать вид, что знает». С alignment — отказывается от вредных запросов, признаёт незнание, держит указанный стиль. Главные методы: RLHF, DPO, Constitutional AI.

Коротко

Коротко. Alignment — это «дрессировка» LLM, чтобы она вела себя так, как ожидает разработчик и пользователь. Базовая модель после pre-training умеет продолжать текст, но не понимает, что «помочь пользователю» важнее «продолжить случайный шаблон». Alignment добавляет это понимание через RLHF (обучение на предпочтениях людей), DPO (то же без RL), Constitutional AI (Anthropic-подход с принципами). Цель — Helpful, Honest, Harmless (HHH).

Что это такое

Базовая GPT-3 в 2020-м: на запрос «Объясни квантовую запутанность» возвращала что-то вроде «…как и в случае с дисперсией света. Прежде, чем продолжить, важно отметить, что данная статья не является научной и…». То есть продолжала текст в стиле «как могла бы выглядеть статья».

ChatGPT в 2022-м (та же базовая модель + alignment): «Квантовая запутанность — это явление, при котором две частицы становятся связанными так, что измерение одной мгновенно определяет состояние другой…». Прямой ответ.

Разница не в знаниях. Разница в поведении: alignment научил модель вести себя как помощник. Это и был breakthrough: с тех пор все большие LLM проходят alignment-тренировку.

К 2026-му стандартный alignment-стек:

  1. Pre-training — базовая модель (просто продолжает текст).
  2. SFT (Supervised Fine-Tuning) — учат отвечать как ассистент по примерам.
  3. RLHF / DPO — учат предпочитать «хорошие» ответы (по оценкам людей или другой модели).
  4. Constitutional AI (Anthropic) — добавляют слой принципов («не помогай в незаконном»).
  5. Red-teaming + iterative refinement — найденные дыры закрываются.

Целевые свойства (HHH-фреймворк от Anthropic):

  • Helpful — даёт полезный ответ, не отказывается без причины.
  • Honest — говорит «не знаю» вместо выдумок, признаёт неуверенность.
  • Harmless — не помогает в опасном (создание оружия, манипуляции, harm).

Как это работает

Самый распространённый метод — RLHF (Reinforcement Learning from Human Feedback):

  1. Сбор данных предпочтений. Людям показывают пары ответов, они выбирают лучший. Получается тысячи пар «A лучше B».
  2. Reward Model. Обучается отдельная модель: «насколько хорош ответ X на промпт Y». Reward Model — это судья.
  3. PPO (Proximal Policy Optimization). Главная модель тренируется максимизировать reward, оставаясь близко к исходному поведению.

Альтернатива — DPO (Direct Preference Optimization):

  • Тот же сигнал предпочтений.
  • Без отдельной reward model.
  • Один проход обучения вместо двух.
  • Стабильнее и проще, к 2026-му стал стандартом.

Anthropic-подход — Constitutional AI (CAI):

  • Вместо человеческих оценок — модель сама оценивает ответы по «конституции».
  • Конституция — список принципов: «не вреди», «уважай автономию пользователя», «будь честным».
  • Меньше человеческого труда, больше последовательности.

К 2026-му главная боль — alignment tax: попытки усилить safety снижают полезность модели на нейтральных задачах. GPT-4-turbo стал «менее живым» по сравнению с GPT-3.5, чтобы быть безопаснее.

Пример на практике

OpenAI выпускает новую версию GPT (например, GPT-4.5):

  1. Pre-training: 6 месяцев на кластере, базовая модель готова. Она пишет любой текст, включая опасный.
  2. SFT: 50 000 примеров «вопрос → правильный ответ ассистента». Модель учится формату чата.
  3. RLHF/DPO: 100 000 пар «ответ A vs ответ B», людские оценщики выбирают лучшее. Модель обучается предпочитать «хорошие» ответы.
  4. Red-teaming: команда из 50 security-исследователей пытается сломать модель неделю. Находят 200+ дыр. Модель дофайнтюнивается против них.
  5. Iterative: ещё несколько раундов red-teaming + alignment.
  6. Release: модель идёт в production. Параллельно начинается публичный red-teaming через bug bounty.

Anthropic делает то же, но в шаге 3 заменяет RLHF на Constitutional AI. Google — гибрид RLHF + RLAIF (RL from AI Feedback).

В контексте Stable Diffusion alignment работает иначе — через safety checker (отдельный classifier на NSFW) и фильтры в датасете при обучении. Там нет RLHF в чистом виде.

С чем часто путают

  • Alignment и Fine-tuning — Fine-tuning это любое дообучение. Alignment — конкретный тип fine-tuning'а с целью HHH-поведения.
  • Alignment и Censorship — Alignment это технический процесс. Цензура — субъективная оценка результата. Один и тот же refusal один назовёт alignment, другой — цензурой.
  • RLHF и DPO — RLHF использует отдельную reward model + PPO. DPO без них, проще. Цель та же.
  • Alignment и Safety Filters — Safety Filters это runtime-проверка ответа (post-processing). Alignment — внутреннее свойство модели после обучения.
  • Alignment Tax и Capability — Alignment Tax это снижение способностей ради безопасности. Не путать с просто разной capability.

Частые ошибки и заблуждения

  • «Aligned модель = модель без галлюцинаций». Не так. Alignment учит модель признавать незнание, но не делает её всезнающей. Галлюцинации остаются.
  • «Лучший alignment = больше отказов». Не лучший. Хороший alignment = разумный баланс. Чрезмерные refusals — плохой alignment.
  • «Open-source модели без alignment». Многие имеют (Llama 3 Instruct, Qwen Instruct). Без alignment — только base-модели, обычно явно помечены.
  • «Alignment делает модель политически нейтральной». Не делает. Любой alignment отражает ценности команды-разработчика.
  • «Alignment работает на 100%». Никогда. Jailbreak'и существуют, потому что alignment не идеален.

Связанные термины

  • RLHF — главный метод alignment.
  • DPO — современная альтернатива RLHF.
  • Constitutional AI — Anthropic-подход к alignment.
  • Jailbreak — обход alignment.
  • Prompt Injection — атака на инструкции, иногда обходит alignment.
  • Red Teaming — практика тестирования.
  • HHH (Helpful, Honest, Harmless) — цели alignment.

Частые вопросы

В каких моделях есть alignment? Во всех instruct-вариантах: ChatGPT, Claude, Gemini, Llama Instruct, Qwen Chat, Mistral Instruct. Base-модели (без -instruct суффикса) — без alignment.

Можно ли «снять» alignment с модели? Для open-source — да, через abliteration / un-RLHF файнтюнинг. Получите base-модель без refusals. Юридический вопрос — отдельный.

RLHF или DPO — что лучше? К 2026-му DPO чаще выбирают: проще, стабильнее, не нужна отдельная reward model. RLHF всё ещё работает, исторически проверен.

Что такое RLAIF? RL from AI Feedback — preference labels от другой LLM, не от людей. Дешевле, быстрее. Качество близко к human-RLHF на многих задачах.

Кто решает, что считать «вредным»? Команда AI safety каждого провайдера. Anthropic публикует Acceptable Use Policy; OpenAI — Usage Policies; у каждого свой документ. Спорные кейсы решаются итеративно.

Alignment = censorship? Зависит от точки зрения. Технически — нет (alignment делает модель более полезной по определённым критериям). Критически — некоторые refusals воспринимаются как цензура.

Главное

Alignment — процесс настройки LLM на поведение, соответствующее ожиданиям разработчика и пользователя. Цели — HHH (Helpful, Honest, Harmless). Главные методы: RLHF (классика), DPO (современный стандарт), Constitutional AI (Anthropic). Без alignment модель просто продолжает текст; с alignment — становится помощником, который отказывается от опасного и признаёт незнание. Главные вызовы — баланс helpful/harmless (alignment tax) и устойчивость против jailbreak. К 2026-му все production-модели проходят alignment, и это считается базовым стандартом для безопасного развёртывания LLM. Open-source имеет instruct-варианты с alignment и base-варианты без него.