Original size 449x700

Обучение генеративной нейросети Stable Diffusion стилю Банк памяти Амигдала

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция проекта

В качестве визуального стиля, которому будет обучаться нейросеть Stable Diffusion, был выбран проект моей дипломной работы — интерактивного повествования / видеоигры с элементами авторской анимации Банк Памяти Амигдала. Игра исследует темы человеческой памяти и ностальгии, и её визуальный язык характеризуется контрастной графикой, разнообразием текстур и ограниченной цветовой палитрой.

Основная цель проекта — оценить, насколько точно получится обучить нейросеть на основе имеющихся изображений, и выявить дальнейшие возможности доработки результатов.

Ознакомиться с проектом дипломной работы можно по ссылке:

Обучение нейросети

В качестве материала для обучения были собраны готовые иллюстрации в оригинальном стиле, их количество составило 20 штук. Среди них есть портреты, детали, и изображения пространств; все иллюстрации объединены текстурами и цветовой гаммой, в основе которой три цвета — белый, чёрный и охра.

Все изображения, использованные для обучения, можно посмотреть по ссылке:

0

некоторые изображения, используемые для обучения

Original size 1096x486

загрузка изображений в Google Colab

После того, как изображения были успешно загружены в Google Colab, необходимо было автоматически сгенерировать их описания с помощью BLIP. В целом описания получились довольно точные (не считая небольших деталей, например, BLIP указал вместо зеркала окно), хотя и достаточно лаконичные.

0

генерация описаний для изображений с помощью BLIP

Далее был произведен логин с HuggingFace, после чего началось обучение модели. Параметры обучения: разрешение 512, количество шагов 500 с чекпойнтами каждые 100 шагов. Обучение заняло около двух часов. Готовая модель затем была сохранена на HuggingFace.

Original size 1095x595

обучение модели

Генерация изображений

Из-за ограничений в бесплатных возможностях Google Colab для генерации изображений файл с весами модели был выгружен из HuggingFace и загружен и использован локально. Соответствующие изменения в код были внесены с помощью встроенного ассистента Gemini.

Original size 1280x618

загрузка локального файла safetensors

При генерации изображений основной задачей было получить результаты с разными элементами (предметами, людьми, фонами), чтобы оценить успешность обучения.

Во-первых, я попробовала сгенерировать людей в разных ситуациях и окружениях. Некоторые результаты кажутся мне довольно удачными, нейросеть хорошо попала в цвет и формы стиля, хотя и есть недостатки в анатомии.

промпты: a woman drinking a cocktail, dim lights, sad, digital drawing in AMYGDALA style / two people smoking on a balcony, smoke high resolution, black background, digital drawing in AMYGDALA style

Original size 1024x1024

промпт: a portrait of a sad black-haired woman, digital drawing in AMYGDALA style

Во-вторых, я попробовала создать изображения локаций с помощью обученной модели. Первые два результата соответствуют стилю больше, чем последний. Они используют более точные цвета, и на них больше деталей. У всех генераций пространств мне видится общий недостаток — не хватает аккуратности и чёткости линий, нейросеть использует формальные элементы стиля, но плохо передаёт структуру изображений.

Промпты: — a bar with a cabinet of bottles in the background, dim light, floral patterns on the wall, digital drawing in AMYGDALA style; — a dark room with ornamental wallpaper, table in the middle of the room, one candle on the table, intricate floor lamp, dim lights, sad, stylized, posters on a wall digital drawing in AMYGDALA style; — a hallway with checkered tiles on the floor, dim lights, doors on both sides, digital drawing in AMYGDALA style.

0

сгенерированные бар / комната / коридор

Последней категорией, которую я генерировала, стали предметы. Мне кажется, они получились довольно неплохо, и в целом соответствуют тому, как я их изображала в изначальном стиле. Однако всё ещё заметны неточности и нелогичные текстуры и элементы (например, листья, выходящие из скатерти).

Промпты: — a table with two glasses of wine, dinner, dim lights, moody atmosphere, digital drawing in AMYGDALA style; — a bouquet of flowers on the table, flowers, leafs, dim lights, digital drawing in AMYGDALA style.

сгенерированные изображения предметов

Выводы

Хотя модель и обучилась формальному воспроизведению элементов изначального стиля, в генерациях присутствуют заметные несоответствия. У нейросети получилось правильно определить цветовую гамму и совмещение паттернов с линейным рисованием. Мне кажется, что в генерациях не хватает четкости и аккуратности, которые были в оригинальном стиле. Также серьезными недостатками являются проблемы модели с анатомией и генерация элементов в случайных местах. Могу предположить, что возможности модели были ограничены количеством шагов обучения, относительно небольшой выборкой изображений и общей сложностью стиля.

Обучение генеративной нейросети Stable Diffusion стилю Банк памяти Амигдала
Project created at 24.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more