Атлас утраченных существ на Dafes

Цель проекта

Создать собственную генеративную модель на базе Stable Diffusion, обученную на подборке книжной графики и гравюр, и исследовать возможность переноса исторического визуального языка на новые, отсутствующие в датасете образы мифических существ.

Концепция проекта

«Атлас утраченных существ» — это серия изображений, в которых мифические существа представлены в визуальном языке книжной графики XIX века.

Проект строится на совмещении двух логик: с одной стороны — мифологические персонажи (дракон, грифон и др.), с другой — строгая, «серьёзная» подача, характерная для научных и иллюстративных изданий прошлого.

В результате несуществующие существа изображены так, будто они задокументированы и изучены.

Исходные изображения для обучения

Для обучения был использован датасет из 50 изображений, включающих: книжные иллюстрации XIX — начала XX века, штриховые гравюры, декоративные и орнаментальные листы, архитектурные и сюжетные изображения.

Данная выборка объединена различными визуальными признаками: — линейный рисунок и штриховка — высокая детализация — рамки, поля, типографика — фактура старой бумаги

Таким образом, модель обучалась визуальному языку книжной гравюры и печатного изображения. Важно, что исходный датасет не содержал самих существ. Это означает, что проект не воспроизводит архив, а создаёт новую псевдодокументальность на основе усвоенного визуального языка.

Для реализации проекта использовалась модель Stable Diffusion, дообученная с помощью LoRA (Low-Rank Adaptation). Для активации обученного стиля применялся триггерный токен TOK.

Исходный размер 3404x1065

Принцип работы

Сначала я подобрала датасет изображений и загрузила его в ноутбук, после чего все изображения были приведены к единому формату. Далее был запущен этап captioning — для каждого изображения автоматически сгенерировались текстовые описания (через BLIP), которые затем использовались как подписи к изображениям. К этим подписям добавлялся триггерный токен TOK. После подготовки данных был запущен скрипт обучения DreamBooth + LoRA для Stable Diffusion XL, где модель обучалась на парах «изображение + текст». В процессе обновлялись только LoRA-слои, что фиксировало стиль без изменения всей модели. После завершения обучения загружалась базовая модель вместе с LoRA, и выполнялась генерация изображений через текстовые промты с добавлением токена TOK. На выходе генерировалось несколько вариантов, из которых я отбирала финальные изображения.

Принцип генерации

Промты строились по единой логике: [существо] + engraving / illustration + описание деталей + стилистические маркеры + TOK style

Каждое изображение генерировалось в нескольких вариантах, после чего отбирались наиболее целостные и интересные результаты.

Результат

Серия включает 4 изображения, каждое из которых изображает некое мифическое существо через язык книжной графики. В отличие от классических научных атласов, изображения не содержат встроенных подписей или схем. Однако сама структура подачи отсылает к научной иллюстрации.

Исходный размер 0x0

«book illustration in TOK style, fish eats dinosaur»

Исходный размер 1024x1024

«mythological creature in TOK style, book illustration»

Исходный размер 1024x1024

«dragon, anatomical illustration, detailed skeletal structure, wing membrane anatomy, skull with elongated snout, vintage scientific engraving, cross-hatching, numbered parts labeled in Latin»

Исходный размер 0x0

«griffin, anatomical plate, eagle head and lion body, skeletal structure, talon detail, wing anatomy, antique natural history engraving, sepia tones, Latin labels, Gryphus antiquus in TOK style»

Комментарий

LoRA зафиксировала стиль книжной гравюры и перенесла его на мифических существ. Серия выглядит цельной. Удалось передать ключевые признаки датасета: штриховую графику, фактуру старой бумаги, композицию печатного листа и общий «серьёзный» визуальный тон. За счёт этого даже вымышленные существа воспринимаются как реальные.

При этом модель хуже справляется с мелкими и сложными деталями: отдельные элементы могут искажаться или смешиваться между собой. Иногда возникают путаницы в форме (например, в соединении частей тела или в мелкой структуре). В итоге удалось добиться главного: визуальный язык создаёт ощущение достоверности там, где её нет.

Блокнот

Ссылка