Original size 1140x1600

Обучение генеративной нейросети

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

Используя генеративную модель Stable Diffusion с применением метода дообучения LoRA, на моих рисунках 2024 года я обучила ее генерировать портреты в моем старом стиле.

Мой стиль сейчас уже несколько изменился, однако с помощью нейросети можно сделать «слепок» художественной манеры определенного периода, таким образом увековечив ее.

0

Примеры исходных изображений для обучения

Авторские права всех изображений в датасете принадлежат мне. Всего было выбрано 10 картинок, которые затем были кадрированы и приведены к единому размеру — 1800×1800 пикселей.

Серия изображений

big
Original size 1024x1024

Промпт: «soda_2024 style, girl walking away in the emptiness»

Original size 1024x1024

Промпт: «soda_2024 style, monochrome image, a man lying in the grass, his eyes are closed»

Original size 1024x1024

Промпт: «soda_2024 style, monochrome image, a girl with dark long hair in white dress near block of flats»

Original size 1024x1024

Промпт: «soda_2024 style, black and white girl holding a red rose in her hands on a empty background»

Original size 1024x1024

Промпт: «soda_2024 style, monochrome image, a character being under the water, bubbles are around them»

Original size 1024x1024

Промпт: «soda_2024 style, monochrome image, a boy in a sweater, dark eyes, freckles, nervous expression, holding a phone, dramatic lighting, surreal mood»

Описание обучения

После включения GPU и установки основных библиотек я подгружаю свой датасет в Google Colab и создаю для него директорию «my_arts». Из-за опечаток в этом месте в дальнейшем возникали ошибки, поэтому я добавила дополнительный шаг, проверяющий, что в директории действительно лежат картинки.

Original size 2608x429

Далее я импортирую библиотеку BLIP и стандартный модуль json для генерации описаний каждой картинки в моём датасете. Для идентификации моей уникальной стилистики при обучении и генерации я создаю специальный токен: «soda_2024 style».

Original size 2837x996

Перед самым важным и долгим этапом — обучением модели — важно правильно расставить настройки.

Original size 2837x996

Изначально значение max_train_steps было равно 500, однако результат оказался недостаточно хорошим. Поэтому было принято решение увеличить количество шагов до 800, чтобы модель дообучилась. Параметр checkpoint_steps был выбран кратным 800, чтобы при необходимости было удобно регулировать интенсивность обучения.

Итог

Итоговая серия иллюстраций показала, что «слепок» моего старого стиля был успешно снят. Модель довольно точно воспроизвела мой подход к объему, полупрозрачный расплывающийся лайн и черты лиц персонажей.

Однако из-за небольшого объема датасета есть некоторые ограничения: нейросеть предпочитает генерировать портреты крупного плана в простых ракурсах, в то время как что-то другое получается хуже. Например, на изображении с розой цветок выглядит несколько неестественно. Кроме того, одежда персонажей выходит однотипной — либо платье, либо свитер — что также объясняется ограниченностью исходного материала.

Использование ГенИИ

ChatGPT — помощь с ошибками в коде и непонятными моментами, улучшение промптов.

Stable Diffusion XL — обучение генеративной модели и генерация изображений.

Обучение генеративной нейросети
Project created at 22.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more