AI Safety

ai safety — защита от рисков ai-систем

Раздел
Этика и регулирование
Обновлено
18.05.26

AI Safety — широкая дисциплина: как делать AI-системы, которые не причинят вреда людям и обществу. Включает alignment (модель делает то, что хотим), robustness (не ломается на нестандартных входах), security (защита от манипуляций), evaluations (тесты опасных способностей), governance (правила релиза). Не путать с alignment — это часть AI Safety. К 2026 — отдельные команды Safety в OpenAI, Anthropic, Google DeepMind; растущий research-фронт.

Коротко

Коротко. AI Safety — широкая дисциплина: как делать AI-системы, которые не причинят вреда. Включает alignment (модель делает что хотим), robustness (не ломается), security (защита от prompt-injection и атак), evaluations (тесты опасных способностей), governance (правила релиза, red-teaming, kill-switches), misuse prevention (блокировка bio/cyber/CBRN-сценариев). Не путать с alignment — это подмножество AI Safety. К 2026 — у OpenAI, Anthropic, Google DeepMind есть отдельные команды Safety; растущий research-фронт; обязательные safety-evaluations перед релизом фронтир-моделей.

Что это такое

AI Safety родилась как академическая дисциплина в 2010-х (Stuart Russell, Nick Bostrom, MIRI). К 2024-2026 стала индустриальной необходимостью: перед каждым релизом фронтир-модели — недели safety-тестов и red-teaming. После случаев типа Microsoft Tay (расистский бот за 24 часа) и Bing Sydney (странные галлюцинации) ни одна serious компания не выпускает AI без safety-аудита.

Зонтичный термин, под который попадает много вещей:

  1. Alignment — поведение модели соответствует человеческим намерениям. Не делать вред, не врать, не манипулировать.
  2. Robustness — модель не ломается на edge-cases, adversarial inputs, distribution shift.
  3. Security — защита от атак: prompt injection, jailbreak, data poisoning, model extraction.
  4. Evaluations — измеримые тесты: способность к bio-weapons reasoning, cyber-attacks, autonomy, deception.
  5. Misuse Prevention — блокировка опасных запросов в production (CBRN — Chemical, Biological, Radiological, Nuclear).
  6. Governance — правила корпоративные и государственные: когда выпускать, какие лицензии, kill-switches.
  7. Interpretability — понять, что внутри модели, чтобы предсказывать поведение.
  8. Long-term safety — что будет, если AI становится умнее людей. AGI, superintelligence-сценарии.

Главные команды:

  • Anthropic Frontier Red Team — главные пионеры industrial safety. Constitutional AI.
  • OpenAI Safety Systems — после ухода Ilya Sutskever и роспуска Superalignment команды (2024) — переформировано.
  • Google DeepMind AGI Safety — крупная research-команда.
  • MIRI, FHI, ARC, Apollo Research — независимые академические/non-profit.
  • AI Safety Institutes — UK AISI, US AISI — государственные с 2024.

Как это работает

Pre-deployment safety pipeline

Стандартный пайплайн перед релизом фронтир-модели в 2026:

1. Капитальный pre-training.
2. Post-training (RLHF / DPO / Constitutional AI) для alignment.
3. Internal red-teaming — попытки jailbreak, тесты опасных capabilities.
4. External red-teaming — независимые эксперты пытаются вскрыть.
5. Capability evaluations:
   - bio-weapons reasoning
   - cyber-attacks (CTF challenges)
   - autonomy (может ли копировать себя, манипулировать)
   - deception (врёт ли намеренно)
6. Misuse-фильтры в production (модерация на input + output).
7. Kill-switches на уровне инфры (можно ли быстро отключить).
8. Bug bounty + responsible disclosure.
9. Релиз.
10. Continuous monitoring в production.

Каждый этап — отдельная sub-disciplina. На больших lab-ах (Anthropic, OpenAI) — десятки людей в каждой.

Risk Levels (RSP / Responsible Scaling Policy)

Anthropic ввели Responsible Scaling Policy (RSP) — формальную классификацию риска моделей:

  • ASL-1 — модели, не представляющие катастрофического риска (ChatGPT уровня).
  • ASL-2 — текущие фронтир-модели (Claude Opus 4, GPT-4). Существенные safety-меры.
  • ASL-3 — потенциал значительного misuse в био/кибер. Усиленный security.
  • ASL-4 — autonomous threat. Не существуют.
  • ASL-5 — exists existential threat. Не существуют.

Каждый level = ужесточённые требования к безопасности перед релизом.

Production safety stack

Для конкретного приложения с LLM:

  1. Input filter — модерация запросов (OpenAI Moderation API, Anthropic, Llama Guard).
  2. System prompt с правилами — что нельзя обсуждать.
  3. Output filter — проверка ответов на запрещённый контент.
  4. Rate limits + abuse detection — защита от bot-массивов.
  5. Audit log — все запросы записываются для post-mortem.
  6. Red-teaming — регулярные попытки сломать собственный продукт.

Пример на практике

Стартап делает медицинский чат-бот. Без AI Safety:

USER: «Я хочу убить себя, посоветуй способ»
BOT: [тривиально вылезающая болтовня про методы]
→ судебный иск, новости, закрытие компании.

С AI Safety stack:

import openai

def safe_chat(user_input):
    # 1. Input moderation
    mod = openai.moderations.create(input=user_input)
    if mod.results[0].flagged:
        return CRISIS_RESPONSE_TEMPLATE  # сразу горячая линия

    # 2. Безопасный system prompt
    system = """Ты — медицинский ассистент. Никогда не давай советов
    по самоповреждению. На любые суицидальные намёки — направляй на
    кризисную линию 8-800-2000-122."""

    # 3. Запрос
    response = openai.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system},
            {"role": "user", "content": user_input}
        ]
    )

    # 4. Output filter
    answer = response.choices[0].message.content
    if has_crisis_signals(answer):
        return CRISIS_RESPONSE_TEMPLATE

    # 5. Audit log
    log_interaction(user_input, answer)
    return answer

В реальности — в 5-10× больше слоёв (детект чувствительной медицинской информации, проверка alignment модели через separate verifier, monthly red-teaming сессии).

В ComfyUI safety менее критична (картинки, не диалог), но: проверки на NSFW для публичных сервисов, watermarking генерации, блокировка генерации deepfakes реальных людей — это всё AI Safety на уровне продукта.

С чем часто путают

  • AI Safety и Alignment — Alignment это подмножество Safety (модель делает что хотим). Safety — broader: ещё security, robustness, governance.
  • AI Safety и AI Ethics — Ethics — про что должно быть (нормативные вопросы). Safety — про как сделать чтобы не навредило (инженерия). Связаны, но разные.
  • AI Safety и Cybersecurity — Cybersecurity: защита систем от атак. AI Safety: защита от рисков самой AI. Перекрытие — security аспекты.
  • AI Safety и Responsible AI — Responsible AI это корпоративный термин, обычно включает Safety + Ethics + Privacy + Fairness + Transparency.
  • AI Safety и AGI Safety — AGI Safety — узкий подкласс, про safety для будущего AGI/superintelligence. Текущий AI Safety — про практику с current LLMs.

Частые ошибки и заблуждения

  • «Safety замедляет AI». Да, и это нормально. Если ваш AI выдаёт совет о суициде — компания закрывается. Safety — страховой полис.
  • «Safety это только для big-labs». Нет. Любой production AI должен иметь moderation + system prompt + audit. Минимум 1 день работы.
  • «AI Safety — это паника про роботов». Нет, это инженерия. Тесты, метрики, processes.
  • «Если модель открытая — safety не работает». Open weights можно зафайнтюнить и убрать защиту. Поэтому открытые модели — отдельная safety-дилемма.
  • «Constitutional AI решает всё». Нет. CAI — один из методов, не серебряная пуля. Нужны слои.

Связанные термины

  • Alignment — главное подмножество AI Safety.
  • Explainable AI (XAI) — interpretability как часть Safety.
  • Prompt Injection — атака, защита от которой — задача Safety.
  • Jailbreak — обход safety-ограничений модели.
  • Hallucination — один из safety-рисков.
  • EU AI Act — регулирует ряд safety-требований.

Частые вопросы

Где учиться AI Safety? Anthropic blog, Alignment Forum, ARENA bootcamp, MATS program. Курсы Stanford CS25 / Berkeley CS294. Anthropic Safety Fellow / OpenAI Safety Researcher — позиции для входа.

Минимальный safety для AI-стартапа?

  1. Moderation API на input/output. 2) System prompt с явными ограничениями. 3) Audit log всех взаимодействий. 4) Crisis response template. 5) Bug bounty или email для отчётов о проблемах.

Что такое red-teaming? Профессиональные «атакующие» пытаются сломать вашу AI-систему — заставить её выдать опасный контент, обойти ограничения. Anthropic, OpenAI делают это месяцами перед релизом.

AI Safety vs Privacy? Privacy: защита данных пользователей. Safety: защита от вреда от модели. Связано (например, утечка через jailbreak), но разные дисциплины.

Будет ли AGI? Открытый вопрос. AI Safety готовится к разным сценариям. Главное — быть готовым к более capable моделям, чем сегодня, через 1-3 года.

Главное

AI Safety — широкая инженерная дисциплина: как делать AI-системы, которые не причинят вреда людям и обществу. Включает alignment (модель делает что хотим), robustness (не ломается), security (prompt injection, jailbreak), evaluations (тесты опасных capabilities), misuse prevention (блокировка bio/cyber-сценариев), governance (правила релиза, red-teaming, kill-switches). К 2026 — у каждого фронтир-лаба отдельная safety-команда; обязательные evaluations перед релизом; Anthropic RSP и аналоги. Главные методы: Constitutional AI, RLHF, capability evaluations, red-teaming, moderation API, audit logging. Не путать с alignment (это подмножество) и AI Ethics (нормативное направление). Минимальный safety-stack для production AI — день работы; полноценный — недели и месяцы. Безопасность — обязательный day-1 артефакт, не «потом починим».