Обучение ИИ созданию картин в авторском стиле на Dafes

Концепция

Проект направлен на исследование генеративных моделей как инструмента работы с авторским визуальным языком.

В рамках работы я поставила перед собой три задачи: разобраться в технической стороне обучения модели, обучить нейросеть на собственном визуальном стиле и проанализировать, насколько точно она способна интерпретировать заданные запросы.

Блокнот и датасет

База данных

Исходный размер 1682x461

Процесс обучения ИИ

На первом этапе изображения были загружены вручную в рабочую папку (my_arts). Датасет изначально был стилистически неоднородным: изображения отличались по композиции, степени детализации и визуальному наполнению.

Такая неконсистентность создавала риск «размытия» стиля при обучении, поэтому было принято решение компенсировать это через текстовый слой — промпты.

Для каждого изображения автоматически генерировались описания с помощью модели BLIP. Однако базовые описания оказались слишком краткими и не покрывали все визуальные особенности.

В связи с этим промпты были существенно расширены: добавлялись уточнения формы, композиции и визуального поведения персонажей; увеличивалась длина описания и т. д.

Таким образом, длинные промпты выполняли сразу две функции:

1. компенсировали разнородность датасета;

2. задавали более жёсткое направление генерации.

Обучение проводилось с использованием DreamBooth + LoRA на базе Stable Diffusion XL через скрипт train_dreambooth_lora_sdxl.py.

Использование оптимизированных настроек позволило обучить модель в условиях ограниченных ресурсов Colab без потери стабильности.

После обучения LoRA-веса подключались к базовой модели SDXL через библиотеку Diffusers.

Итоговые генерации с помощью ИИ

Из-за размеров промптов, было принято решение указывать их в формате изображений для сопровождения генераций.

Все промпты в текстовом виде представлены в коде на диске.

Исходный размер 2048x1024

Исходный размер 2353x1024

Исходный размер 2048x1024

Использование ИИ в проекте

Stable Diffusion XL (SDXL) — генерация изображений и обучение стилю https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

DreamBooth — персонализация модели на пользовательском датасете https://arxiv.org/abs/2208.12242

BLIP — автоматическая генерация описаний изображений https://huggingface.co/Salesforce/blip-image-captioning-base

ChatGPT — создание и расширение промптов https://chat.openai.com