Original size 1140x1600

Генерация пиксель-арт изображений с помощью Stable Diffusion

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

Идея проекта — дообучить нейросеть Stable Diffusion на датасете пиксельной графики, чтобы она научилась генерировать изображения в стиле ретро-игр эпохи 8-bit. Пиксель-арт — это не просто визуальный стиль, это целая эстетика, связанная с культурой видеоигр 80–90-х годов: чёткие пиксельные контуры, ограниченная цветовая палитра, узнаваемые спрайты персонажей и предметов.

Примеры исходных изображений для обучения

Для обучения был собран датасет из 36 изображений пиксельной графики с платформы Kaggle — персонажи, объекты и сцены из игрового контекста. Каждое изображение обрезано до квадрата 1:1 и масштабировано до 512×512 пикселей. Метод обучения — LoRA (Low-Rank Adaptation), который позволяет дообучить модель эффективно без изменения всех её весов.

Датасет распространяется под лицензией CreativeML Open RAIL-M, которая разрешает использование материалов в исследовательских и образовательных целях.

Примеры исходных изображений для обучения

Результирующая серия изображений

Итоговая серия включает десять изображений: воин, маг, дракон, сундук с сокровищами, подземелье, слизень, зелья, рыцарь, скелет и замок.

Сгенерированные изображения воина и мага Промпты: 1. pixelart, 8-bit style, warrior character with sword and armor; 2. pixelart, 8-bit style, mage casting a spell with glowing hand.

Сгенерированные изображения дракона и сундука Промпты: 1. pixelart, 8-bit style, small dragon breathing fire; 2. pixelart, 8-bit style, treasure chest overflowing with gold.

Модели удалось передать ключевые черты пиксельной эстетики: чёткие границы объектов, характерную зернистую текстуру пикселей, контрастные цвета и узнаваемые игровые силуэты. Особенно удачными получились изображения дракона, сундука и замка — в них хорошо читается стиль классических RPG. Воин и рыцарь получили детализированные спрайты с характерными игровыми пропорциями.

Сгенерированные изображения подземелья и слизня Промпты: 1. pixelart, 8-bit style, dark dungeon corridor with torches; 2. pixelart, 8-bit style, cute slime monster with big eyes.

Сгенерированные изображения зелий и рыцаря Промпты: 1. pixelart, 8-bit style, magical potion bottles on a shelf; 2. pixelart, 8-bit style, armored knight holding a shield.

К сожалению, возник ряд технических трудностей. Изначально планировалось использовать Stable Diffusion XL, однако видеокарта T4 в Google Colab не имела достаточного объёма памяти. Несколько публичных датасетов на Hugging Face оказались несовместимы с актуальной версией библиотеки из-за устаревшего формата загрузочных скриптов, поэтому датасет был собран вручную с Kaggle. Также скрипт обучения пытался читать текстовые файлы с подписями как изображения — это решилось созданием отдельной папки только с PNG-файлами.

Сгенерированные изображения скелета и замка Промпты: 1. pixelart, 8-bit style, skeleton enemy in a dark cave; 2. pixelart, 8-bit style, pixel art castle with glowing windows.

В процессе работы была предпринята попытка улучшить результаты с помощью более детальных и сложных промптов — с описанием освещения, атмосферы и конкретных деталей сцены. Однако это дало обратный эффект: модель начала генерировать перегруженные изометрические карты с видом сверху, теряя фокус на конкретном объекте или персонаже. Итоговые изображения первого варианта выглядели как скриншоты игровых уровней, а не как отдельные спрайты. Это наглядно показывает, что для моделей обученных на пиксельном стиле краткие и конкретные промпты работают эффективнее развёрнутых описаний.

Примеры «неудавшейся» генерации с более сложными промптами (воин и сундук)

Для каждого изображения датасета автоматически сгенерированы текстовые подписи с помощью модели BLIP с префиксом pixelart, 8-bit style. В генерации использовался отрицательный промпт для исключения фотореализма, а также уникальный seed для каждого изображения.

Описание процесса обучения

Обучение проводилось в Google Colab на видеокарте Tesla T4. Базовая модель — Stable Diffusion v1.5. Метод — LoRA с официальным скриптом train_text_to_image_lora.py от Hugging Face. Параметры: 8 эпох, learning rate 1e-4, batch size 1, gradient accumulation 4 шага, mixed precision fp16. Обучение заняло около 10 минут на 36 изображениях.

Использование ИИ

В проекте помимо Stable Diffusion v1.5 использовался Claude (Anthropic) — для редактирования текстов, отладки кода и формулировки промптов. Модель BLIP использовалась для автоматической генерации подписей к изображениям датасета.

Генерация пиксель-арт изображений с помощью Stable Diffusion
Project created at 24.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more