Original size 896x1200

Нейрокошки

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

big
Original size 1733x1218

Коты в Средневековье были другими. Они носили шляпы, сражались с улитками и играли на странных музыкальных инструментах. Думаю, их жизни позавидовал бы каждый из нас: почему бы не сделать из этих иллюстраций нейросеть?

big
Original size 2480x623
big
Original size 2480x1218

Проект направлен на то, чтобы обучить нейросеть рисовать в самом странном и обаятельном стиле, который только придумало человечество, — в стиле средневековых книжных миниатюр. А точнее, рисовать в этом стиле тех самых котов человеческими лицами, серьёзными взглядами и полным отсутствием анатомии.

Модель тренировалась на коллекции старинных гравюр и рукописей, где коты носят короны, держат мечи, а иногда просто странно сидят. Я собрала лучшие образцы этого жанра, чтобы нейросеть прочувствовала всю глубину истории.

Серия изображений

Original size 2480x605

Самые удачные генерации

Original size 2480x1218

промпт: «in the style of MEDIEVAL PAINTING cat in knight armour»/«in the style of MEDIEVAL PAINTING two cats battling in knight armour»

Для создания генератора средневековых кошачьих миниатюр использовалась модель Stable Diffusion XL (SDXL). Для адаптации модели к специфическому стилю применялись методы дообучения DreamBooth и LoRA. Датасет был собран из открытых источников и включал изображения керамических изразцов, которые были предварительно приведены к единому формату 512×512.

Original size 2480x610

промпт: «in the style of MEDIEVAL PAINTING cat with modern instruments»

Original size 2480x820

промпт: «in the style of MEDIEVAL PAINTING cat with book»

Что делает средневековую миниатюру узнаваемой? 1. Отсутствие реалистичной перспективы Предметы и фигуры располагаются на плоскости без учета глубины, часто ярусами или в условном порядке.

2. Плоскостность изображения Фигуры не имеют объема, светотень отсутствует, акцент сделан на силуэт и контур.

3. Символичность, а не натурализм Важна не анатомическая точность, а узнаваемость образа и его смысловая нагрузка.

4. Яркие, локальные цвета Преобладают чистые тона: красный, синий, зеленый, охра, золотой. Полутона и сложные переходы почти не используются.

Original size 2480x623

промпт: «in the style of MEDIEVAL PAINTING cat collecting apples in the sky»/«in the style of MEDIEVAL PAINTING cat flying in the sky»

Original size 2480x812

промпт: «in the style of MEDIEVAL PAINTING cat playing music on a various instruments»

Нейросеть способна генерировать изображения с множеством разных цветов, на картинке может быть много кошек разных пород и видов.

Original size 2480x1350

промпт: «in the style of MEDIEVAL PAINTING smart lion»

Original size 1024x1024

промпт: «in the style of MEDIEVAL PAINTING scared tiger»

Модель, полученная в результате обучения, была сохранена в репозиторий на Huggingface.

Как мне кажется, нейросети удалось приблизиться к уникальной эстетике средневековых миниатюр и передать её. В сгенерированных изображениях можно уловить характерные черты старинных манускриптов: плоскостность, условность поз, яркие локальные цвета и ту самую серьёзность, с которой средневековые художники изображали даже самых абсурдных котов.

И всё же нельзя не отметить, что сгенерированные нейросетью коты далеки от идеала. По-прежнему прослеживаются искажения морд, странные пропорции тел, а также проблемы с текстурой шерсти и детализацией лап. С другой стороны, если вспомнить оригинальные средневековые миниатюры — там с анатомией котов тоже было не всё гладко. Так что, возможно, нейросеть просто слишком хорошо освоила оригинальный источник.

Original size 1024x1024

промпт: «in the style of MEDIEVAL PAINTING two cats in snail shells»

Применение генеративной модели

Для автоматического создания текстовых описаний использовалась модель BLIP image captioning model. К каждому изображению добавлялся префикс: «in the style of MEDIEVAL PAINTING…» Это позволило модели выучить визуальные особенности стиля.

LoRA — это подход к дообучению, при котором вместо всех весов модели корректируются лишь небольшие дополнительные матрицы. Это позволяет экономить память и ускоряет процесс.

DreamBooth — техника, которая помогает модели запоминать и воспроизводить конкретные объекты или стиль на основе всего нескольких примеров.

Промты для генерации были созданы с помощью ChatGPT.

Отдельные моменты, связанные с тонкостями работы кода, помог разобрать и описать DeepSeek.

Заключение

Сегодня нейросети для генерации изображений — одна из самых динамично развивающихся областей. Модели вроде DALL‑E 2, Stable Diffusion и Midjourney уже умеют создавать детализированные изображения по текстовому описанию, открывая широкие возможности для дизайна, рекламы, искусства и образования.

Но развитие идёт не только в технологическую сторону. Всё острее встают вопросы этики: дипфейки, дезинформация, авторские права, влияние на творческие профессии. Без внятного регулирования даже самые продвинутые инструменты могут создавать столько же проблем, сколько решать.

Так что обучение генеративных моделей — это не только про технологии, но и про ответственность за их применение.

Original size 2480x380
Нейрокошки
Project created at 27.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more