Original size 1141x1600

TAYYES_LoRA — обучение ИИ и генерация изображений

PROTECT STATUS: not protected
The project is taking part in the competition

Идея

Целью проекта стало исследование того, как генеративная модель адаптируется к заданному визуальному языку и насколько эффективно она может усвоить принципы минималистичного изображения персонажей.

Фокус был смещён не на копирование конкретного стиля, а на анализ поведения нейросети в условиях ограниченного и однородного датасета. Проект рассматривает генеративную модель как инструмент: каким образом она «понимает» форму, упрощение и визуальные акценты.

Для обучения использовался набор из 10 изображений, выполненных в минималистичной стилистике с акцентом на персонажей.

Изображения были отобраны по следующим принципам:

  1. центрированная композиция;
  2. упрощённые формы;
  3. акцент на силуэте и читаемости;
  4. минимальное количество второстепенных деталей.

Такой подход позволил нейросети быстрее зафиксировать ключевые визуальные признаки: пропорции, ритм форм и характер упрощения.

Original size 1580x629

Процесс обучения

На первом этапе был подготовлен датасет изображений в стилистике персонажей и загружен в обучающую среду.

Для каждого изображения с помощью модели BLIP были автоматически сгенерированы текстовые описания, которые задали базовую структуру промптов — их уровень детализации и способ описания визуальных характеристик.

Original size 1500x575

Далее ChatGPT использовался для воспроизведения этой структуры: на основе BLIP-подписей были сгенерированы дополнительные промпты, стилистически согласованные с исходными. Это позволило сформировать единый текстовый слой и повысить уровень взаимодействия модели с данными.

Обучение проводилось с использованием подхода DreamBooth с LoRA-адаптацией на базе модели Stable Diffusion XL (SDXL).

Запуск обучения осуществлялся через accelerate launch с использованием скрипта train_dreambooth_lora_sdxl.py.

Original size 948x614
Original size 1036x1005

Использование малого разрешения и оптимизированных параметров (fp16, 8-bit Adam, gradient checkpointing) позволило снизить вычислительную нагрузку и ускорить обучение без существенной потери качества.

В ходе обучения модель зафиксировала ключевые визуальные паттерны минималистичного стиля — упрощённые формы, силуэтность и композиционную ясность — и начала стабильно воспроизводить их в новых генерациях.

Original size 1466x1476

Финальные генерации

TAYYES_LoRA a blonde woman with glasses and a red sweater

TAYYES_LoRA a curly haired boy wearing a colorful crown

0

TAYYES_LoRA a girl with blonde hair glasses and a blue hoodie

TAYYES_LoRA a girl with long brown hair and a green jacket

TAYYES_LoRA a man with short hair glasses and light stubble

TAYYES_LoRA a sad bearded man with messy black hair

TAYYES_LoRA a smiling boy with freckles and a black shirt

TAYYES_LoRA a woman with long dark hair and a striped shirt

TAYYES_LoRA a woman with short pink hair tips and glasses

Использование генеративной модели

  1. Stable Diffusion XL: базовая генеративная модель для синтеза изображений и обучения пользовательского стиля https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

  2. LoRA: метод параметрически эффективной тонкой настройки нейросети https://arxiv.org/abs/2106.09685

  3. DreamBooth: подход к персонализации генеративных моделей на пользовательских данных https://arxiv.org/abs/2208.12242

  4. BLIP: модель для автоматической генерации описаний изображений https://huggingface.co/Salesforce/blip-image-captioning-base

  5. ChatGPT: инструмент генерации и стандартизации текстовых промптов https://chat.openai.com

  6. Hugging Face: библиотека для оптимизации и запуска обучения моделей https://huggingface.co/docs/accelerate/index

TAYYES_LoRA — обучение ИИ и генерация изображений
Project created at 18.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more