Original size 1140x1600

Генеративные лисы

PROTECT STATUS: not protected
The project is taking part in the competition

Идея проекта

Концепция

Обучить генеративную нейросеть Stable Diffusion XL (SDXL) генерировать изображения конкретного объекта — лисы — в различных сценах и ракурсах

Задача

Реализовать fine-tuning базовой модели SDXL с помощью метода DreamBooth и техники LoRA, чтобы модель научилась рисовать узнаваемую лису по текстовому описанию

Обоснование выбора объекта

Лиса — выразительный и легко узнаваемый персонаж.

Собранный датасет позволяет модели зафиксировать характерный облик и стиль

Исходные изображения для обучения

Всего 11 изображений

Формат изображения 1:1

Разрешение 512×512

Выбранные кадры показывают лису в разных позах, ракурсах и условиях освещения, что помогает модели лучше обобщать и генерализовать объект

Загрузка датасета

Обучение

Параметры обучения

Этапы

Setup

Установка diffusers, transformers, accelerate, Загрузка скрипта train_dreambooth_lora_sdxl.py

Dataset

Загрузка 11 изображений из папки, Обрезка до 1:1, Resize до 512×512, Сохранение в «fox_data/»

Training

Запуск DreamBooth с LoRA:  — Базовая модель: SDXL  — VAE: madebyollin/sdxl-vae-fp16-fix  — Instance prompt: a photo of sks fox  — Размер батча: 1, gradient accumulation: 4  — 500 шагов, learning rate 1e-4, fp16, 8-bit Adam

Inference

Загрузка обученной LoRA, генерация серии по 10 промптам

Inference

Результат

0

Промпты

«a photo of sks fox sitting in a snowy forest»,

«a photo of sks fox running through an autumn meadow»,

«a photo of sks fox resting on a mossy log in the woods»,

«a photo of sks fox looking at the camera, close-up portrait»,

«a photo of sks fox hunting in tall grass at sunset»,

«a photo of sks fox standing on a rocky hilltop, dramatic sky»,

«a photo of sks fox in a flower field, spring morning light»,

«a photo of sks fox curled up sleeping under a tree»,

«a photo of sks fox walking along a frozen river in winter»,

«a photo of sks fox playing with its cub in a forest clearing»

Серия отражает основную идею: обученная LoRA-модель генерирует изображения лисы в новых сценах по текстовому промпту. Токен sks fox закрепляет связь между описанием и визуальным образом объекта

Модель успешно связывает текст «a photo of sks fox» с образом лисы из датасета и переносит его в разные контексты. Это подтверждает работоспособность DreamBooth + LoRA для обучения на малом датасете

Детали генерации

25 шагов инференса, seed фиксирован для воспроизводимости

Постобработка не применялась, использованы только веса обученной LoRA и базовая SDXL

Изображения обрезались до квадрата по центру, ресайзились до 512×512, для всех изображений использовался один instance prompt

Использование ИИ

Для генерации промптов к созданию изображений использовался DeepSeek

Для отладки кода и обработки ошибок использовался Cursor в Auto Mode

Генеративные лисы
Project created at 24.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more