Original size 2480x3500

Обучение генеративной нейросети Stable Diffusion под аниме-стиль

PROTECT STATUS: not protected
The project is taking part in the competition

Идея проекта

Этот проект — эксперимент по созданию персональной генеративной модели, которая умеет рисовать в моем собственном аниме-стиле. На основе моих рисунков (в основном персонажи в костюмах на однотонном фоне) я обучила Stable Diffusion XL с помощью DreamBooth и LoRA. В результате нейросеть научилась генерировать новых персонажей, сохраняя характерные черты моего стиля, и теперь может служить инструментом для быстрого создания иллюстраций и концепт-артов.

Мои рисунки персонажей

Список использованных в проекте инструментов:

— Stable Diffusion — обучение генеративной нейросети под свой стиль; — Google Colab — выполнение кода и генераций; — Hugging Face — получение токена для обучения нейросети, загрузка полученной модели на сайт; — Adobe Photoshop — для коллажирования готовых работ.

Концепция и датасет

Ключевое отличие моего проекта — датасет целиком состоит из моих собственных рисунков. Это позволило модели изучить именно мою аниме-эстетику, а не копировать существующие стили.

Для обучения я отобрала 27 квадратных иллюстраций (1:1), на каждой из которых изображен персонаж в костюме или платье на однотонном фоне. Такой подход решает несколько задач:

Мои рисунки персонажей

Модель фокусируется на деталях одежды и чертах лица, не отвлекаясь на сложный фон.

Однотонный фон упрощает задачу усвоения стиля и улучшает консистентность результатов.

Все 25 изображений выполнены в единой аниме-манере, что задает вектор обучения.

Изображения были обработаны моделью BLIP для генерации текстовых описаний, которые затем использовались при обучении. Это позволило добавить к каждому рисунку индивидуальный промпт, усиливающий понимание модели.

Технический процесс

Обучение проводилось в Google Colab на GPU Tesla T4. Я использовал связку Stable Diffusion XL (SDXL) с техникой DreamBooth + LoRA, что позволило дообучить модель на моих изображениях без полного переобучения всей сети.

Original size 1093x732

Код

Original size 1058x528

Код

Основные параметры:

Базовая модель: stabilityai/stable-diffusion-xl-base-1.0

VAE: madebyollin/sdxl-vae-fp16-fix

Разрешение: 1024×1024

Шагов обучения: 300

Train batch size: 1, gradient accumulation: 4

Оптимизатор: 8-bit Adam, gradient checkpointing, смешанная точность fp16

Original size 916x654

Для генерации итоговой серии я использовал обученные LoRA-веса, слитые с базовой моделью (lora_scale=0.7), что обеспечило оптимальный баланс между сохранением моего стиля и возможностями SDXL.

Результаты и анализ

После обучения я сгенерировала серию из 9 изображений. Главный вывод: модель усвоила визуальную стилистику моих рисунков, но не запомнила конкретных персонажей — каждый раз генерируются новые, уникальные образы.

ИИ рисунок и мой рисунок в азиатской эстетике

Что удалось передать:

Стилистическое единство. Все сгенерированные изображения объединены общей эстетикой: манера прорисовки лиц, характерная для моих рисунков, цветовая гамма, качество линий. Модель стабильно воспроизводит тот визуальный язык, который был заложен в датасете.

Работа с фоном. Модель точно следует заданию — фон остается чистым, однотонным, не отвлекает внимание от персонажа. Это было одним из ключевых условий обучения.

Разнообразие персонажей. Модель не копирует конкретных героев из датасета, а создает новых, уникальных персонажей, варьируя пол, возраст, прическу, черты лица, тип костюмов. При этом все они остаются в рамках усвоенной стилистики.

Вариативность поз и настроений. В серии представлены как статичные портреты, так и динамичные сцены с пафосными позами, жестами, развевающимися плащами. Модель передает разные характеры: от спокойных и элегантных до героических и таинственных.

ИИ изображение и мой рисунок

Визуальный анализ

Сгенерированную серию можно разделить на две группы:

Статичные портреты — персонажи в разных костюмах на нейтральных и цветных фонах. Здесь модель демонстрирует чистоту стиля и внимание к деталям одежды.

Динамичные сцены — герои в действии: уверенные позы, развевающиеся плащи, драматичные повороты. В этих кадрах модель добавляет движение и эмоцию.

ИИ и мой рисунок

Промпты

1 anime style, character in elegant suit, MYSTYLE style, solid color background — нейтральный 2 anime style, character in formal dress, MYSTYLE style, solid color background — пастельный 3 anime style, character in black suit, MYSTYLE style, solid red background — красный 4 anime style, character in modern suit, MYSTYLE style, solid blue background — синий 5 anime style, character in Victorian attire, MYSTYLE style, solid purple background — фиолетовый 6 anime style, character in business suit, MYSTYLE style, solid green background — зеленый 7 anime style, character in trendy outfit, MYSTYLE style, solid yellow background — желтый 8 anime style, character in ornate suit, MYSTYLE style, solid gold background — золотой 9 anime style, character in stylish clothes, MYSTYLE style, solid pink background — розовый

Original size 1560x1582
Обучение генеративной нейросети Stable Diffusion под аниме-стиль
Project created at 24.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more