Нейрокошки на Dafes

Концепция

Исходный размер 1733x1218

Коты в Средневековье были другими. Они носили шляпы, сражались с улитками и играли на странных музыкальных инструментах. Думаю, их жизни позавидовал бы каждый из нас: почему бы не сделать из этих иллюстраций нейросеть?

Исходный размер 2480x623

Исходный размер 2480x1218

Проект направлен на то, чтобы обучить нейросеть рисовать в самом странном и обаятельном стиле, который только придумало человечество, — в стиле средневековых книжных миниатюр. А точнее, рисовать в этом стиле тех самых котов человеческими лицами, серьёзными взглядами и полным отсутствием анатомии.

Модель тренировалась на коллекции старинных гравюр и рукописей, где коты носят короны, держат мечи, а иногда просто странно сидят. Я собрала лучшие образцы этого жанра, чтобы нейросеть прочувствовала всю глубину истории.

Серия изображений

Исходный размер 2480x605

Самые удачные генерации

Исходный размер 2480x1218

промпт: «in the style of MEDIEVAL PAINTING cat in knight armour»/«in the style of MEDIEVAL PAINTING two cats battling in knight armour»

Для создания генератора средневековых кошачьих миниатюр использовалась модель Stable Diffusion XL (SDXL). Для адаптации модели к специфическому стилю применялись методы дообучения DreamBooth и LoRA. Датасет был собран из открытых источников и включал изображения керамических изразцов, которые были предварительно приведены к единому формату 512×512.

Исходный размер 2480x610

промпт: «in the style of MEDIEVAL PAINTING cat with modern instruments»

Исходный размер 2480x820

промпт: «in the style of MEDIEVAL PAINTING cat with book»

Что делает средневековую миниатюру узнаваемой? 1. Отсутствие реалистичной перспективы Предметы и фигуры располагаются на плоскости без учета глубины, часто ярусами или в условном порядке.

2. Плоскостность изображения Фигуры не имеют объема, светотень отсутствует, акцент сделан на силуэт и контур.

3. Символичность, а не натурализм Важна не анатомическая точность, а узнаваемость образа и его смысловая нагрузка.

4. Яркие, локальные цвета Преобладают чистые тона: красный, синий, зеленый, охра, золотой. Полутона и сложные переходы почти не используются.

Исходный размер 2480x623

промпт: «in the style of MEDIEVAL PAINTING cat collecting apples in the sky»/«in the style of MEDIEVAL PAINTING cat flying in the sky»

Исходный размер 2480x812

промпт: «in the style of MEDIEVAL PAINTING cat playing music on a various instruments»

Нейросеть способна генерировать изображения с множеством разных цветов, на картинке может быть много кошек разных пород и видов.

Исходный размер 2480x1350

промпт: «in the style of MEDIEVAL PAINTING smart lion»

Исходный размер 1024x1024

промпт: «in the style of MEDIEVAL PAINTING scared tiger»

Модель, полученная в результате обучения, была сохранена в репозиторий на Huggingface.

Как мне кажется, нейросети удалось приблизиться к уникальной эстетике средневековых миниатюр и передать её. В сгенерированных изображениях можно уловить характерные черты старинных манускриптов: плоскостность, условность поз, яркие локальные цвета и ту самую серьёзность, с которой средневековые художники изображали даже самых абсурдных котов.

И всё же нельзя не отметить, что сгенерированные нейросетью коты далеки от идеала. По-прежнему прослеживаются искажения морд, странные пропорции тел, а также проблемы с текстурой шерсти и детализацией лап. С другой стороны, если вспомнить оригинальные средневековые миниатюры — там с анатомией котов тоже было не всё гладко. Так что, возможно, нейросеть просто слишком хорошо освоила оригинальный источник.

Исходный размер 1024x1024

промпт: «in the style of MEDIEVAL PAINTING two cats in snail shells»

Применение генеративной модели

Для автоматического создания текстовых описаний использовалась модель BLIP image captioning model. К каждому изображению добавлялся префикс: «in the style of MEDIEVAL PAINTING…» Это позволило модели выучить визуальные особенности стиля.

LoRA — это подход к дообучению, при котором вместо всех весов модели корректируются лишь небольшие дополнительные матрицы. Это позволяет экономить память и ускоряет процесс.

DreamBooth — техника, которая помогает модели запоминать и воспроизводить конкретные объекты или стиль на основе всего нескольких примеров.

Промты для генерации были созданы с помощью ChatGPT.

Отдельные моменты, связанные с тонкостями работы кода, помог разобрать и описать DeepSeek.

Заключение

Сегодня нейросети для генерации изображений — одна из самых динамично развивающихся областей. Модели вроде DALL‑E 2, Stable Diffusion и Midjourney уже умеют создавать детализированные изображения по текстовому описанию, открывая широкие возможности для дизайна, рекламы, искусства и образования.

Но развитие идёт не только в технологическую сторону. Всё острее встают вопросы этики: дипфейки, дезинформация, авторские права, влияние на творческие профессии. Без внятного регулирования даже самые продвинутые инструменты могут создавать столько же проблем, сколько решать.

Так что обучение генеративных моделей — это не только про технологии, но и про ответственность за их применение.

Блокнот на Google Colab и референсные изображения

Исходный размер 2480x380