Original size 1855x2782

Генеративная лошадь: исследование дообучения Stable Diffusion XL

PROTECT STATUS: not protected
The project is taking part in the competition

Идея проекта

Целью проекта является исследование возможности дообучения генеративной нейросети Stable Diffusion XL для генерации изображений конкретного объекта — лошади. В рамках проекта модель была дообучена методом DreamBooth LoRA на небольшом датасете изображений. После обучения модель получила способность генерировать изображения данного объекта в различных визуальных стилях и сценах. Основная задача проекта — изучить, насколько хорошо модель может сохранить визуальные характеристики объекта при генерации новых изображений.

big
Original size 3504x584

Для обучения был собран датасет изображений лошади. Изображения были приведены к квадратному формату и использованы для обучения модели Stable Diffusion XL методом DreamBooth LoRA. Датасет содержит 63 изображения, на которых представлен один и тот же объект. Это позволяет модели лучше выделить характерные визуальные признаки объекта: форму головы, пропорции тела и текстуру шерсти.

Процесс обучения

big
Original size 3024x1532

Процесс обучения модели Stable Diffusion XL методом DreamBooth LoRA в среде Google Colab

Обучение модели проводилось в среде Google Colab с использованием скрипта DreamBooth LoRA для Stable Diffusion XL. Изначально было выбрано высокое разрешение 1024 px для получения более детализированных результатов. Однако из-за ограниченных ресурсов Colab обучение занимало слишком много времени и несколько раз прерывалось. Поэтому параметры были скорректированы: разрешение изображений уменьшено, а количество шагов обучения оптимизировано. В процессе обучения использовался специальный токен skshorse, позволяющий модели распознавать обученный объект при генерации изображений.

Результаты генерации

Серия изображений, сгенерированных обученной моделью с использованием токена skshorse.

Original size 1024x1024

Модель генерирует портрет лошади и хорошо передает форму головы и текстуру шерсти. В промте специально указано, что у лошади должно быть четыре ноги, так как при генерации животных нейросеть иногда может ошибаться в анатомии, особенно если датасет для обучения был относительно небольшим.

Модель генерирует сцену с движущейся лошадью на открытом пространстве. Объект сохраняет основные пропорции тела и выглядит реалистично.

В данной генерации объект представлен в стиле масляной живописи. Основная форма лошади сохраняется, но изображение стилизовано под художественную картину.

Изображение выполнено в акварельном стиле. Модель сохраняет силуэт лошади, адаптируя его к мягкой художественной стилизации.

В этом изображении лошадь помещена в фантазийное окружение. Модель демонстрирует способность переносить обученный объект в различные сцены.

На изображении используется ночное освещение и более атмосферная сцена. Модель сохраняет форму объекта и адаптирует его к новой визуальной среде.

0

Для расширения серии были выполнены дополнительные генерации изображений с использованием различных сцен и условий освещения.

Анализ результата

В результате дообучения модели Stable Diffusion XL методом DreamBooth LoRA была получена серия изображений лошади, сгенерированных по различным текстовым запросам. Модель в большинстве случаев сохраняет основные визуальные характеристики объекта: форму головы, пропорции тела и текстуру шерсти.

На некоторых изображениях можно заметить небольшие ошибки в анатомии, например положение или количество ног, хотя у лошади должно быть четыре ноги. Это может быть связано с небольшим размером обучающего датасета и особенностями работы генеративных моделей.

Со всеми сгенерированными изображениями можно ознакомиться в папке с результатами генераций.

При подготовке текстов и структуры презентации использовался инструмент ChatGPT (chatgpt.com).

Генеративная лошадь: исследование дообучения Stable Diffusion XL
Project created at 18.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more