Генерация изображений на основе покемонов на Dafes

Идея проекта

В рамках проекта я исследовал возможность обучения генеративной модели на ограниченном датасете для воспроизведения визуального языка персонажей из вселенной Pokémon. Покемоны представляют собой интересный объект для анализа: это не единичный стиль, а система устойчивых признаков — упрощённая анатомия, выразительные силуэты, яркая цветовая палитра, акцент на глазах и характерных деталях (уши, хвосты, формы тела).

Исходный размер 1880x456

Часть изображений, использованных для обучения модели

Задача заключалась не в копировании конкретных персонажей, а в том, чтобы выделить и зафиксировать эти признаки как визуальный «алфавит», который модель сможет использовать для генерации новых существ.

Для обучения был собран датасет из 32 изображений покемонов. Изображения были приведены к единому формату, что позволило модели сфокусироваться на структуре персонажей, а не на различиях в композиции или разрешении.

Процесс обучения

Исходный размер 1727x397

Для дообучения использовался подход LoRA, позволяющий адаптировать базовую модель Stable Diffusion без изменения её основных весов. Это делает обучение более быстрым и устойчивым даже при небольшом объёме данных.

Подписи к изображениям генерировались автоматически с помощью модели BLIP, после чего к ним добавлялся единый префикс («photo of a TOK character»), задающий концептуальную рамку для обучения.

Обучение и генерация выполнялись в среде Google Colab с использованием библиотек Hugging Face (Diffusers, Transformers, PEFT).

Результаты генерации

Исходный размер 1024x1024

prompt: a photo of a TOK character, turtle-like creature

В процессе обучения модели удалось зафиксировать ключевые характеристики визуального языка покемонов.

Сгенерированные изображения демонстрируют: узнаваемую стилизацию персонажей; упрощённые, но выразительные формы; характерную цветовую палитру; акцент на «персонажности» — крупные глаза, эмоциональность, читаемые силуэты.

Исходный размер 1024x1024

prompt: a photo of a TOK character, turtle alike creature with flowers on it

Модель не воспроизводит конкретных покемонов, но создаёт новых существ, которые воспринимаются как принадлежащие той же вселенной.

Особенно заметно, что нейросеть усвоила принципы: сочетания цветов (контрастные, но гармоничные); построения тела (простые геометрические формы); визуальной иерархии деталей.

Исходный размер 1024x1024

prompt: a photo of a TOK character, yellow mouse-like cartoon creature with electro powers

Ноутбук, датасет, итоговые изображения

Также в процессе работы для подготовки текста и структуры презентации был использован ИИ-инструмент ChatGPT (chatgpt.com)