Фэнтези мир. Обучение генеративной модели стилю на Dafes

Идея

Примеры исходных изображений для обучения

Для меня этот проект стал способом по-новому взглянуть на привычный мир — увидеть его как основу для чего-то магического и необычного. Я хотела создать альтернативную реальность, в которой реальные города и природные достопримечательности приобретают сказочные черты, атмосферу приключения и фэнтези.

Для обучения модели использовались сгенерированные с помощью Chat GPT фэнтезийные пейзажи.

В основе проекта — переосмысление реальных городов и природных ландшафтов через призму фантазии. Знакомые пространства приобретают сказочные черты, становятся местами приключений, где архитектура и природа выходят за рамки привычного и превращаются в часть альтернативной реальности.

Примеры исходных изображений для обучения

Задача проекта — показать, как привычная реальность может быть переосмыслена через визуальный язык фантазии.

Целью обучения модели стало также и выявление способности ИИ перенимать стиль автора и улучшать стиль сгенерированных изображений.

Изображения

Если ранее визуальный язык опирался на более узнаваемые образы и композиции, то в итоговых иллюстрациях он трансформируется в более абстрактное и атмосферное пространство. Знакомые места теряют прямую привязку к реальности, растворяясь в свете, тумане и цвете, и приобретают сказочные черты. Архитектура и природа выходят за рамки привычного, переплетаются и формируют цельные, почти сновидческие миры, превращаясь в пространство альтернативной реальности, наполненное ощущением приключения и таинственности.

Исходный размер 1024x1024

Промт: photo collage in OTHERWORDLY style, Eiffel Tower, Paris

Исходный размер 1024x1024

Промт: photo collage in OTHERWORDLY style, Chichen Itza, Mexica

Исходный размер 1024x1024

Промт: photo collage in OTHERWORDLY style, Cappadocia, Turkey

Исходный размер 1024x1024

Промт: photo collage in OTHERWORDLY style, Uluru, Australia

Исходный размер 1024x1024

Промт: photo collage in OTHERWORDLY style, Taj Mahal, India

Исходный размер 1024x1024

Промт: photo collage in OTHERWORDLY style, Christ the Redeemer, Brazil

Исходный размер 1024x1024

Промт: photo collage in OTHERWORDLY style, Mount Fuji, Japan

Исходный размер 1024x1024

Промт: photo collage in OTHERWORDLY style, Great Wall, China

Исходный размер 1024x1024

Промт: photo collage in OTHERWORDLY style, Colosseum, Italy

Исходный размер 1024x1024

Промт: photo collage in OTHERWORDLY style, Times Square, New York

Таким образом, сгенерированные изображения перенимают атмосферу и визуальный язык исходного стиля. Модель уверенно воспроизводит композицию, передавая нюансы световых переливов, мягкие градиенты цвета и плавность линий и форм. Во всех сериях ИИ-изображений заметно влияние эфемерности, воздушности и текучести, присущих исходным эскизам. Модель хорошо справляется с созданием повторяющихся декоративных мотивов и настроения, однако менее убедительно передает чётко выстроенные сюжетные линии.

Описание процесса обучения

В качестве модели для дообучения в заданной стилистике была выбрана Stable Diffusion. Процесс обучения проводился в среде Google Colab с использованием графического процессора T4. Стоит отметить, что выбранная платформа накладывает ограничения на длительность сессии — в среднем около 5–6 часов непрерывной работы.

Процесс включал несколько ключевых этапов:

— подготовка рабочей среды — установка и настройка необходимых библиотек — загрузка и организация датасета, на основе которого обучалась модель — подключение предобученной версии модели — предварительная обработка изображений перед обучением — настройка гиперпараметров — запуск и проведение обучения (заняло примерно один час) — генерация изображений с использованием текстовых промптов

Код для обучения, архив и сгенерированные изображения