Обучение ИИ под стиль Delovarya на Dafes

Концепция проекта

Целью проекта стало исследование возможностей генеративной модели Stable Diffusion в воспроизведении моего художественного стиля (Delovarya).

Я обучила нейросеть на собственном наборе работ — чтобы посмотреть, какие изображения она сможет создать по текстовому запросу.

Датасет

Для обучения LoRA‑модели я использовала подборку из 12 собственных работ — ситуативные и фигуративные композиции.

Исходный размер 3007x972

Процесс обучения ИИ

На первом этапе я загрузила базу данных своих изображений. С помощью модели BLIP я автоматически сгенерировала промпты для каждого изображения, завершая их единой фразой «Delovarya style» для чёткой фокусировки на моём авторском стиле.

Исходный размер 1852x596

Для повышения точности запросов я дополнительно использовала инструмент Perplexity, чтобы детализировать промпты и учесть нюансы моего стиля. Это позволило точнее передать особенности цветовой палитры, работы со светом и тенью, а также характерные композиционные решения, заметные в оригинальных работах.

Обучение модели Delovarya_LoRA выполнялось с помощью скрипта train_dreambooth_lora_sdxl.py через утилиту accelerate launch на базе модели Stable Diffusion XL. В процессе использовались оптимизированные параметры: разрешение 200 пикселей, 300 шагов обучения, скорость обучения 1e−4, смешанная точность и оптимизатор 8‑bit Adam.

В ходе обучения система анализировала данные и усваивала ключевые визуальные маркеры моего стиля — специфику линий, контрастность и цветовые сочетания. Благодаря настройкам --gradient_accumulation_steps=2 и сохранению контрольных точек каждые 150 шагов удалось добиться эффективного обучения даже на небольшом датасете.

Исходный размер 2192x1323

Исходный размер 3030x1582

После завершения обучения модель Delovarya_LoRA стала готова к генерации новых изображений по текстовым промптам. Она воспроизводит узнаваемые черты моего авторского стиля — манеру письма, цветовые решения и графическую выразительность — и адаптирует их к новым сюжетам.

На финальном этапе я подготовила карточку модели с метаданными через функцию save_model_card, указав базовую модель и параметры обучения. Затем я загрузила папку Delovarya_LoRA в репозиторий на Hugging Face Hub с помощью upload_folder, сделав обученную LoRA‑модель доступной для дальнейшего использования и экспериментов.

Исходный размер 2941x1414

В процессе тестирования модель успешно воспроизвела цветовую палитру и атмосферу моих работ, но на изображениях появились артефакты: искажения пропорций, размытые линии, шумы и разрывы текстуры.

Эксперименты с параметром lora_scale показали: при значениях ниже 0.7 стиль становился неузнаваемым, а выше 0.9 — резко росло число артефактов.

Оптимальный вариант — lora_scale = 0.9: сохранились контрастность, палитра и графическая чёткость, а артефактов было немного. При этом в простых сценах (один объект на простом фоне) результаты лучше, чем в многофигурных композициях, где возникали проблемы с перспективой и взаимодействием элементов.

Блокнот

Итоги

Delovarya style, teenager lying on the floor of their room scrolling a phone while posters, snacks and cables are scattered everywhere

Delovarya style, tired office worker eating instant noodles at a messy desk while a tiny plant on the table looks happier than him

Delovarya style, person watering a houseplant that suddenly looks much bigger and happier than the owner

Delovarya style, student in a quiet library surrounded by huge stacks of books while secretly doodling little monsters in a notebook

Delovarya style, girl sitting in a laundromat late at night, watching clothes spin in the washing machine

Delovarya style, girl standing in a grocery store aisle staring at dozens of cereal boxes like it is an existential choice

Использование генеративной модели

Stable Diffusion XL (SDXL) — базовая генеративная модель (stabilityai/stable-diffusion-xl-base-1.0) — https://huggingface.co/stabilityai/stable‑diffusion‑xl‑base‑1.0;

LoRA (Low‑Rank Adaptation) — метод тонкой настройки модели для адаптации к моему стилю — https://huggingface.co/docs/diffusers/training/lora;

DreamBooth — технология персонализации модели под конкретный стиль (реализация в библиотеке Diffusers:) — https://huggingface.co/docs/diffusers/training/dreambooth;

BLIP — модель для автоматической генерации промптов на основе загруженных изображений (Salesforce/blip-image-captioning-base) — https://huggingface.co/Salesforce/blip‑image‑captioning‑base;

Perplexity — инструмент для создания подробных и точных промптов, помогающих передать нюансы моего стиля — https://www.perplexity.ai/.