Original size 1140x1600

Цифровой двойник художника

PROTECT STATUS: not protected
The project is taking part in the competition

1/ КОНЦЕПЦИЯ

Проект посвящён обучению генеративной нейросети Stable Diffusion XL моему собственному художественному стилю, который я называю «сюрреалистический метаморфоз».

В своих картинах я исследую темы трансформации, гибридности и абсурда: женские фигуры перетекают в животных, привычные предметы становятся частью сюрреалистических сцен, а реальность искажается через яркие цвета, контрастные тени и экспрессивную манеру письма.

Я выбрала этот стиль, потому что он наиболее полно отражает моё творческое видение. Обучив нейросеть на своих работах, я хотела проверить, способна ли она уловить не только внешние признаки (цветовую гамму, композиционные приёмы), но и внутреннюю логику моих образов — ту абсурдную поэтику, которая делает мои картины узнаваемыми. Кроме того, это эксперимент по созданию собственного «цифрового двойника» — инструмента, который может генерировать новые идеи в моей стилистике, расширяя границы моего творчества.

2/ ИСХОДНЫЕ ИЗОБРАЖЕНИЯ

big
Original size 3626x2900

исходный архив из моих картин

Датасет состоит из 20 моих оригинальных работ и их фрагментов. Все изображения приведены к квадратному формату 512×512 пикселей.

3/ ПРОЦЕСС ОБУЧЕНИЯ

Original size 2880x1581

Обучение проводилось в Google Colab на GPU T4 с использованием скрипта train_dreambooth_lora_sdxl.py из библиотеки diffusers.

Датасет: 20 собственных изображений в формате PNG (квадратные, обрезаны до 512×512). Все работы выполнены в моём уникальном стиле «сюрреалистический метаморфоз» — яркие цвета, гибридные формы, абсурдные сцены.

Подготовка данных: Каждое изображение автоматически подписано моделью BLIP с префиксом «in the style of мой-редактор». Подписи сохранены в файл metadata.jsonl. Это позволило модели связать визуальный стиль с текстовым идентификатором.

Метод обучения: Использован DreamBooth + LoRA на базе Stable Diffusion XL. LoRA позволяет дообучить модель эффективно, добавляя всего несколько мегабайт весов, что идеально подходит для ограниченных ресурсов Colab.

Параметры обучения:

— Базовая модель: stabilityai/stable-diffusion-xl-base-1.0 — VAE: madebyollin/sdxl-vae-fp16-fix (для экономии памяти) — Разрешение: 512×512 — Размер батча: 1 — Накопление градиента: 2 шага — Скорость обучения: 1e-4 — Оптимизатор: 8-bit Adam (экономия памяти) — Смешанная точность: fp16 — Gradient checkpointing: включён — Количество шагов: 500 — Сохранение чекпоинтов каждые 250 шагов — Идентификатор стиля: мой-редактор

Обучение заняло около 45 минут на GPU T4. Потери стабильно снижались, что указывает на успешное усвоение стиля.

После обучения получены LoRA-веса, которые позволяют генерировать новые изображения в моём стиле по текстовым запросам. Сгенерировано 6 тестовых изображений, которые демонстрируют консистентность цветовой гаммы, композиционных приёмов и общей атмосферы.

4/ РЕЗУЛЬТАТ: СЕРИЯ ИЗОБРАЖЕНИЙ

Original size 3072x2048

После обучения я сгенерировала серию из 6 изображений.

post

Промпты для генерации (все с префиксом in the style of MY_EDITOR):

  1. «a woman with a cat holds a banana in her hand» — Женщина с кошкой держит банан. Получилась композиция с яркими оранжевыми и зелёными оттенками, фигура женщины частично прозрачна, будто сливается с фоном — характерный для меня приём.
post
  1. «a woman in a cat’s body» — Женщина в теле кота. Нейросеть изобразила гибридное существо с женским лицом и кошачьим телом, лежащее на подушке. Цветовая гамма — тёплая, охристая.
post
  1. «a woman lies at a man’s feet like a dead animal» — Женщина лежит у ног мужчины как мёртвое животное. Мрачная сцена с контрастным освещением, фигура женщины почти сливается с тенью, что перекликается с моими работами на тему уязвимости.
post
  1. «The girl is reborn as a swan» — Девушка перерождается лебедем. Динамичная композиция: фигура в центре, руки превращаются в крылья, вокруг — абстрактные мазки. Удалось передать ощущение метаморфозы.
post
  1. «men in the form of a pack of monkeys» — Мужчины в виде стаи обезьян. Группа приматов в человеческих позах, фон — джунгли в моей стилистике (размытые пятна зелени).
post
  1. «The lion who eats grapes» — Лев, который ест виноград. Абсурдная сцена: лев сидит на задних лапах, передними держит гроздь винограда. Фактура шерсти и фруктов передана характерными для меня пастозными мазками.

Я ставила цель — научить нейросеть генерировать новые образы в моём стиле, а не копировать существующие работы. Полученная серия полностью соответствует этой задаче: сюжеты новые, но выполнены в узнаваемой манере.

Нейросеть хорошо усвоила мою цветовую гамму — преобладание тёплых охристых, оранжевых и контрастных сине-зелёных оттенков. Композиционные приёмы (асимметрия, частичное слияние фигур с фоном) также проявились в большинстве генераций. Атмосфера — абсурдная, сюрреалистическая, с налётом тревожности — сохранилась во всех шести изображениях.

Изображения отличаются по сюжету, но стилистически едины. Например, в первом и втором промпте используются мягкие пастельные тона, в третьем — более мрачная палитра, в пятом — активные зелёные пятна. Нейросеть варьирует плотность мазков, степень детализации и освещение в зависимости от промпта, что говорит о гибкости обучения.

5/ ИСПОЛЬЗОВАНИЕ GenAI

Помимо обучения нейросети, я применяла ChatGPT (OpenAI) для формулировки промптов на английском языке, чтобы они были лаконичными и корректными для модели.

6/ ВЫВОД

Что получилось:

— Нейросеть успешно обучилась моему стилю на относительно небольшом датасете (20 изображения). — Генерации демонстрируют консистентность цветовой гаммы и композиционных приёмов. — Удалось передать абсурдную, сюрреалистическую атмосферу, характерную для моих работ. — Интеграция с LoRA позволила дообучить модель быстро и без потери качества на других запросах.

Сложности:

— Подготовка датасета заняла много времени: нужно было привести все изображения к квадрату, очистить от шумов, проверить единообразие стиля. — Некоторые генерации теряли детализацию (например, текстура мазков становилась слишком гладкой) — возможно, из-за ограничений T4 и малого числа шагов. — Первые попытки с 250 шагами давали слабое сходство; пришлось увеличить до 500 и добавить больше фрагментов с фактурами.

Нейросеть стала моим «цифровым соавтором», способным генерировать новые идеи в моём стиле, что открывает интересные перспективы для дальнейшего творчества.

Цифровой двойник художника
Project created at 26.02.2026
Confirm your ageProject contains information not suitable for individuals under the age of 18
I am already 18 years old
Cancel
Confirm
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more