Original size 1140x1600

Генерация изображений на основе покемонов

PROTECT STATUS: not protected

Идея проекта

В рамках проекта я исследовал возможность обучения генеративной модели на ограниченном датасете для воспроизведения визуального языка персонажей из вселенной Pokémon. Покемоны представляют собой интересный объект для анализа: это не единичный стиль, а система устойчивых признаков — упрощённая анатомия, выразительные силуэты, яркая цветовая палитра, акцент на глазах и характерных деталях (уши, хвосты, формы тела).

Original size 1880x456

Часть изображений, использованных для обучения модели

Задача заключалась не в копировании конкретных персонажей, а в том, чтобы выделить и зафиксировать эти признаки как визуальный «алфавит», который модель сможет использовать для генерации новых существ.

Для обучения был собран датасет из 32 изображений покемонов. Изображения были приведены к единому формату, что позволило модели сфокусироваться на структуре персонажей, а не на различиях в композиции или разрешении.

Процесс обучения

Original size 1727x397

Для дообучения использовался подход LoRA, позволяющий адаптировать базовую модель Stable Diffusion без изменения её основных весов. Это делает обучение более быстрым и устойчивым даже при небольшом объёме данных.

Подписи к изображениям генерировались автоматически с помощью модели BLIP, после чего к ним добавлялся единый префикс («photo of a TOK character»), задающий концептуальную рамку для обучения.

Обучение и генерация выполнялись в среде Google Colab с использованием библиотек Hugging Face (Diffusers, Transformers, PEFT).

Результаты генерации

Original size 1024x1024

prompt: a photo of a TOK character, turtle-like creature

В процессе обучения модели удалось зафиксировать ключевые характеристики визуального языка покемонов.

Сгенерированные изображения демонстрируют: узнаваемую стилизацию персонажей; упрощённые, но выразительные формы; характерную цветовую палитру; акцент на «персонажности» — крупные глаза, эмоциональность, читаемые силуэты.

Original size 1024x1024

prompt: a photo of a TOK character, turtle alike creature with flowers on it

Модель не воспроизводит конкретных покемонов, но создаёт новых существ, которые воспринимаются как принадлежащие той же вселенной.

Особенно заметно, что нейросеть усвоила принципы: сочетания цветов (контрастные, но гармоничные); построения тела (простые геометрические формы); визуальной иерархии деталей.

Original size 1024x1024

prompt: a photo of a TOK character, yellow mouse-like cartoon creature with electro powers

Также в процессе работы для подготовки текста и структуры презентации был использован ИИ-инструмент ChatGPT (chatgpt.com)

Генерация изображений на основе покемонов
Project created at 24.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more