AI-словарь · Адаптеры

Адаптеры

Адаптеры — небольшие надстройки, которые меняют поведение базовой модели без полного переобучения: LoRA добавляет стиль или персонажа, ControlNet задаёт позу и композицию, IP-Adapter переносит образ с готовой картинки. Раздел о том, как управлять генерацией точечно и предсказуемо.

Указатель

  1. 01
    Tile / Tiling

    Tile (тайлинг) в Stable Diffusion — две связанные техники. Первая — деление большого изображения на маленькие квадраты для пошаговой обработки на слабом железе (Ultimate SD Upscale,…

    Средний
  2. 02
    Segmentation Map

    Segmentation Map — цветная карта изображения, где каждый пиксель окрашен по категории объекта: небо одним цветом, человек другим, дерево третьим. В Stable Diffusion через ControlNet Seg…

    Средний
  3. 03
    Canny Edge

    Canny Edge — алгоритм извлечения контуров изображения, изобретённый Джоном Канни в 1986-м. В Stable Diffusion через ControlNet Canny используется как «обводка», на которой модель строит новую…

    Средний
  4. 04
    Depth Map

    Depth Map — чёрно-белое изображение, где яркость каждого пикселя означает расстояние до камеры: ближе — светлее, дальше — темнее. В Stable Diffusion через ControlNet Depth используется…

    Средний
  5. 05
    OpenPose

    OpenPose — препроцессор и модель ControlNet для управления позой человека в Stable Diffusion. Превращает любое фото в палочную фигуру (skeleton), где точки — суставы, линии —…

    Средний
  6. 06
    DreamBooth

    DreamBooth — техника тонкой настройки диффузионной модели под конкретный объект, разработанная Google Research в 2022 году. Отличие от LoRA и Textual Inversion — тренируется вся модель…

    Средний
  7. 07
    Hypernetwork

    Hypernetwork — техника тонкой настройки Stable Diffusion 2022 года. Подключает к U-Net дополнительную маленькую нейросеть, которая модифицирует cross-attention слои на лету. Файлы 50–200 МБ, тренировка ~1–2…

    Средний
  8. 08
    Textual Inversion TI

    Textual Inversion (TI) — самая лёгкая техника настройки диффузионной модели: тренируется эмбеддинг одного нового токена в словаре CLIP, веса модели не трогаются. Файл получается ~5–50 КБ,…

    Средний
  9. 09
    IP-Adapter Image Prompt Adapter

    IP-Adapter (Image Prompt Adapter) — адаптер от Tencent, выпущенный в августе 2023 года, который позволяет использовать картинку как «промпт». Модель читает референс через CLIP Image Encoder…

    Средний
  10. 10
    ControlNet

    ControlNet — техника управления композицией в диффузионных моделях через зрительную подсказку: скелет позы (OpenPose), контур (Canny), карту глубины (Depth), набросок (Lineart). Промпт задаёт «что нарисовать», ControlNet…

    Средний