Обучение генеративной нейросети на Dafes

Концепция

Используя генеративную модель Stable Diffusion с применением метода дообучения LoRA, на моих рисунках 2024 года я обучила ее генерировать портреты в моем старом стиле.

Мой стиль сейчас уже несколько изменился, однако с помощью нейросети можно сделать «слепок» художественной манеры определенного периода, таким образом увековечив ее.

Примеры исходных изображений для обучения

Датасет

Авторские права всех изображений в датасете принадлежат мне. Всего было выбрано 10 картинок, которые затем были кадрированы и приведены к единому размеру — 1800×1800 пикселей.

Серия изображений

Исходный размер 1024x1024

Промпт: «soda_2024 style, girl walking away in the emptiness»

Исходный размер 1024x1024

Промпт: «soda_2024 style, monochrome image, a man lying in the grass, his eyes are closed»

Исходный размер 1024x1024

Промпт: «soda_2024 style, monochrome image, a girl with dark long hair in white dress near block of flats»

Исходный размер 1024x1024

Промпт: «soda_2024 style, black and white girl holding a red rose in her hands on a empty background»

Исходный размер 1024x1024

Промпт: «soda_2024 style, monochrome image, a character being under the water, bubbles are around them»

Исходный размер 1024x1024

Промпт: «soda_2024 style, monochrome image, a boy in a sweater, dark eyes, freckles, nervous expression, holding a phone, dramatic lighting, surreal mood»

Описание обучения

После включения GPU и установки основных библиотек я подгружаю свой датасет в Google Colab и создаю для него директорию «my_arts». Из-за опечаток в этом месте в дальнейшем возникали ошибки, поэтому я добавила дополнительный шаг, проверяющий, что в директории действительно лежат картинки.

Исходный размер 2608x429

Далее я импортирую библиотеку BLIP и стандартный модуль json для генерации описаний каждой картинки в моём датасете. Для идентификации моей уникальной стилистики при обучении и генерации я создаю специальный токен: «soda_2024 style».

Исходный размер 2837x996

Перед самым важным и долгим этапом — обучением модели — важно правильно расставить настройки.

Исходный размер 2837x996

Изначально значение max_train_steps было равно 500, однако результат оказался недостаточно хорошим. Поэтому было принято решение увеличить количество шагов до 800, чтобы модель дообучилась. Параметр checkpoint_steps был выбран кратным 800, чтобы при необходимости было удобно регулировать интенсивность обучения.

Итог

Итоговая серия иллюстраций показала, что «слепок» моего старого стиля был успешно снят. Модель довольно точно воспроизвела мой подход к объему, полупрозрачный расплывающийся лайн и черты лиц персонажей.

Однако из-за небольшого объема датасета есть некоторые ограничения: нейросеть предпочитает генерировать портреты крупного плана в простых ракурсах, в то время как что-то другое получается хуже. Например, на изображении с розой цветок выглядит несколько неестественно. Кроме того, одежда персонажей выходит однотипной — либо платье, либо свитер — что также объясняется ограниченностью исходного материала.

Использование ГенИИ

ChatGPT — помощь с ошибками в коде и непонятными моментами, улучшение промптов.

Stable Diffusion XL — обучение генеративной модели и генерация изображений.

Ссылка на ноутбук с кодом