AI Safety
ai safety — защита от рисков ai-систем
AI Safety — широкая дисциплина: как делать AI-системы, которые не причинят вреда людям и обществу. Включает alignment (модель делает то, что хотим), robustness (не ломается на нестандартных входах), security (защита от манипуляций), evaluations (тесты опасных способностей), governance (правила релиза). Не путать с alignment — это часть AI Safety. К 2026 — отдельные команды Safety в OpenAI, Anthropic, Google DeepMind; растущий research-фронт.
Коротко
Коротко. AI Safety — широкая дисциплина: как делать AI-системы, которые не причинят вреда. Включает alignment (модель делает что хотим), robustness (не ломается), security (защита от prompt-injection и атак), evaluations (тесты опасных способностей), governance (правила релиза, red-teaming, kill-switches), misuse prevention (блокировка bio/cyber/CBRN-сценариев). Не путать с alignment — это подмножество AI Safety. К 2026 — у OpenAI, Anthropic, Google DeepMind есть отдельные команды Safety; растущий research-фронт; обязательные safety-evaluations перед релизом фронтир-моделей.
Что это такое
AI Safety родилась как академическая дисциплина в 2010-х (Stuart Russell, Nick Bostrom, MIRI). К 2024-2026 стала индустриальной необходимостью: перед каждым релизом фронтир-модели — недели safety-тестов и red-teaming. После случаев типа Microsoft Tay (расистский бот за 24 часа) и Bing Sydney (странные галлюцинации) ни одна serious компания не выпускает AI без safety-аудита.
Зонтичный термин, под который попадает много вещей:
- Alignment — поведение модели соответствует человеческим намерениям. Не делать вред, не врать, не манипулировать.
- Robustness — модель не ломается на edge-cases, adversarial inputs, distribution shift.
- Security — защита от атак: prompt injection, jailbreak, data poisoning, model extraction.
- Evaluations — измеримые тесты: способность к bio-weapons reasoning, cyber-attacks, autonomy, deception.
- Misuse Prevention — блокировка опасных запросов в production (CBRN — Chemical, Biological, Radiological, Nuclear).
- Governance — правила корпоративные и государственные: когда выпускать, какие лицензии, kill-switches.
- Interpretability — понять, что внутри модели, чтобы предсказывать поведение.
- Long-term safety — что будет, если AI становится умнее людей. AGI, superintelligence-сценарии.
Главные команды:
- Anthropic Frontier Red Team — главные пионеры industrial safety. Constitutional AI.
- OpenAI Safety Systems — после ухода Ilya Sutskever и роспуска Superalignment команды (2024) — переформировано.
- Google DeepMind AGI Safety — крупная research-команда.
- MIRI, FHI, ARC, Apollo Research — независимые академические/non-profit.
- AI Safety Institutes — UK AISI, US AISI — государственные с 2024.
Как это работает
Pre-deployment safety pipeline
Стандартный пайплайн перед релизом фронтир-модели в 2026:
1. Капитальный pre-training.
2. Post-training (RLHF / DPO / Constitutional AI) для alignment.
3. Internal red-teaming — попытки jailbreak, тесты опасных capabilities.
4. External red-teaming — независимые эксперты пытаются вскрыть.
5. Capability evaluations:
- bio-weapons reasoning
- cyber-attacks (CTF challenges)
- autonomy (может ли копировать себя, манипулировать)
- deception (врёт ли намеренно)
6. Misuse-фильтры в production (модерация на input + output).
7. Kill-switches на уровне инфры (можно ли быстро отключить).
8. Bug bounty + responsible disclosure.
9. Релиз.
10. Continuous monitoring в production.
Каждый этап — отдельная sub-disciplina. На больших lab-ах (Anthropic, OpenAI) — десятки людей в каждой.
Risk Levels (RSP / Responsible Scaling Policy)
Anthropic ввели Responsible Scaling Policy (RSP) — формальную классификацию риска моделей:
- ASL-1 — модели, не представляющие катастрофического риска (ChatGPT уровня).
- ASL-2 — текущие фронтир-модели (Claude Opus 4, GPT-4). Существенные safety-меры.
- ASL-3 — потенциал значительного misuse в био/кибер. Усиленный security.
- ASL-4 — autonomous threat. Не существуют.
- ASL-5 — exists existential threat. Не существуют.
Каждый level = ужесточённые требования к безопасности перед релизом.
Production safety stack
Для конкретного приложения с LLM:
- Input filter — модерация запросов (OpenAI Moderation API, Anthropic, Llama Guard).
- System prompt с правилами — что нельзя обсуждать.
- Output filter — проверка ответов на запрещённый контент.
- Rate limits + abuse detection — защита от bot-массивов.
- Audit log — все запросы записываются для post-mortem.
- Red-teaming — регулярные попытки сломать собственный продукт.
Пример на практике
Стартап делает медицинский чат-бот. Без AI Safety:
USER: «Я хочу убить себя, посоветуй способ»
BOT: [тривиально вылезающая болтовня про методы]
→ судебный иск, новости, закрытие компании.
С AI Safety stack:
import openai
def safe_chat(user_input):
# 1. Input moderation
mod = openai.moderations.create(input=user_input)
if mod.results[0].flagged:
return CRISIS_RESPONSE_TEMPLATE # сразу горячая линия
# 2. Безопасный system prompt
system = """Ты — медицинский ассистент. Никогда не давай советов
по самоповреждению. На любые суицидальные намёки — направляй на
кризисную линию 8-800-2000-122."""
# 3. Запрос
response = openai.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": system},
{"role": "user", "content": user_input}
]
)
# 4. Output filter
answer = response.choices[0].message.content
if has_crisis_signals(answer):
return CRISIS_RESPONSE_TEMPLATE
# 5. Audit log
log_interaction(user_input, answer)
return answer
В реальности — в 5-10× больше слоёв (детект чувствительной медицинской информации, проверка alignment модели через separate verifier, monthly red-teaming сессии).
В ComfyUI safety менее критична (картинки, не диалог), но: проверки на NSFW для публичных сервисов, watermarking генерации, блокировка генерации deepfakes реальных людей — это всё AI Safety на уровне продукта.
С чем часто путают
- AI Safety и Alignment — Alignment это подмножество Safety (модель делает что хотим). Safety — broader: ещё security, robustness, governance.
- AI Safety и AI Ethics — Ethics — про что должно быть (нормативные вопросы). Safety — про как сделать чтобы не навредило (инженерия). Связаны, но разные.
- AI Safety и Cybersecurity — Cybersecurity: защита систем от атак. AI Safety: защита от рисков самой AI. Перекрытие — security аспекты.
- AI Safety и Responsible AI — Responsible AI это корпоративный термин, обычно включает Safety + Ethics + Privacy + Fairness + Transparency.
- AI Safety и AGI Safety — AGI Safety — узкий подкласс, про safety для будущего AGI/superintelligence. Текущий AI Safety — про практику с current LLMs.
Частые ошибки и заблуждения
- «Safety замедляет AI». Да, и это нормально. Если ваш AI выдаёт совет о суициде — компания закрывается. Safety — страховой полис.
- «Safety это только для big-labs». Нет. Любой production AI должен иметь moderation + system prompt + audit. Минимум 1 день работы.
- «AI Safety — это паника про роботов». Нет, это инженерия. Тесты, метрики, processes.
- «Если модель открытая — safety не работает». Open weights можно зафайнтюнить и убрать защиту. Поэтому открытые модели — отдельная safety-дилемма.
- «Constitutional AI решает всё». Нет. CAI — один из методов, не серебряная пуля. Нужны слои.
Связанные термины
- Alignment — главное подмножество AI Safety.
- Explainable AI (XAI) — interpretability как часть Safety.
- Prompt Injection — атака, защита от которой — задача Safety.
- Jailbreak — обход safety-ограничений модели.
- Hallucination — один из safety-рисков.
- EU AI Act — регулирует ряд safety-требований.
Частые вопросы
Где учиться AI Safety? Anthropic blog, Alignment Forum, ARENA bootcamp, MATS program. Курсы Stanford CS25 / Berkeley CS294. Anthropic Safety Fellow / OpenAI Safety Researcher — позиции для входа.
Минимальный safety для AI-стартапа?
- Moderation API на input/output. 2) System prompt с явными ограничениями. 3) Audit log всех взаимодействий. 4) Crisis response template. 5) Bug bounty или email для отчётов о проблемах.
Что такое red-teaming? Профессиональные «атакующие» пытаются сломать вашу AI-систему — заставить её выдать опасный контент, обойти ограничения. Anthropic, OpenAI делают это месяцами перед релизом.
AI Safety vs Privacy? Privacy: защита данных пользователей. Safety: защита от вреда от модели. Связано (например, утечка через jailbreak), но разные дисциплины.
Будет ли AGI? Открытый вопрос. AI Safety готовится к разным сценариям. Главное — быть готовым к более capable моделям, чем сегодня, через 1-3 года.
Главное
AI Safety — широкая инженерная дисциплина: как делать AI-системы, которые не причинят вреда людям и обществу. Включает alignment (модель делает что хотим), robustness (не ломается), security (prompt injection, jailbreak), evaluations (тесты опасных capabilities), misuse prevention (блокировка bio/cyber-сценариев), governance (правила релиза, red-teaming, kill-switches). К 2026 — у каждого фронтир-лаба отдельная safety-команда; обязательные evaluations перед релизом; Anthropic RSP и аналоги. Главные методы: Constitutional AI, RLHF, capability evaluations, red-teaming, moderation API, audit logging. Не путать с alignment (это подмножество) и AI Ethics (нормативное направление). Минимальный safety-stack для production AI — день работы; полноценный — недели и месяцы. Безопасность — обязательный day-1 артефакт, не «потом починим».