Original size 1140x1584

Glass animals: обучение генеративной нейросети Stable Diffusion

Идея проекта

Этот проект посвящён миниатюрным фигуркам зверушек из дутого стекла. Его концепция предлагает поразмышлять о том, как фигурки проводят своё время, когда не стоят на полке в качестве украшений.

Исходные изображения для обучения

big
Original size 2400x2400

Изображения для обучения программы были сгенерированы в нейросетях Ideogram и Nana Banana Pro для того, чтобы все изображения были в хорошем качестве, едином стиле и одинаковом освещении.

Получился набор для обучения из 35 изображений. На каждой картинке строго по одному персонажу, на некоторых картинках они взаимодействуют со стеклянными предметами, на некоторых — нет. Персонажи изображены ровно по одному, чтобы программе было проще считывать фигурку и, чтобы в итоговых генерациях она не начала путать и смешивать их.

Итоговые серии изображений

Вот как на самом деле проводят свободное время стеклянные зверушки, когда за ними абсолютно никто не наблюдает:

Готовят пиццу

Original size 4228x1024
Original size 4228x250

Отдыхают на море

Original size 4740x1536
Original size 1536x1536
Original size 4228x250

Празднуют день рождения

Original size 4740x1536
Original size 3143x1536
Original size 4228x250

Участвуют в показе мод

Original size 4740x1536
Original size 2048x2048
Original size 4228x590

Ловят рыбу

Original size 4740x1536
Original size 4228x590

Собирают цветочки

Original size 1536x1536
Original size 4740x1536
Original size 1536x1536
Original size 4228x590

Пьют какао

Original size 4184x2048

Развёрнутый комментарий к результатам

Программе отлично удалось передать стиль исходных изображений: прозрачное глянцевое стекло, плавные формы и цветные рефлексы на поверхности. Обученная нейросеть также самостоятельно успешно подбирала разнообразные цветовые сочетания для персонажей и предметов, если не задавать ей конкретные цвета в промпте. К итоговым изображениям я применяла цветокоррекцию в программе Figma для более чистого белого фона и контрастности, а также кадрирование, чтобы фигурки были пропорциональны друг другу. После этого я объединяла их в коллажи в зависимости от того, чем именно они занимаются на картинках.

Основные проблемы во время генерации возникали с тем, что именно изображала модель: — иногда, если не задавать размер предмета «small», программа генерировала его такого же размера, как и персонаж или вовсе делала предмет частью его аутфита — для персонажей типа «попугай», «осьминог» и других надо было указывать, в чём конкретно персонаж держит предмет — «in the beak», «in the tentacles» и т. д., иначе программа пыталась сгенерировать им не существующие лапки — во время генерации дополнительных предметов (например, клубок ниток или песчаный замок) программа могла забыть об общем стиле «a glass blown figurine» и надо было отдельно прописывать этот стиль для каждого объекта — нестандартных зверушек, таких как летучая мышь, аксолотль, единорог, программа изображала с большим трудом после нескольких попыток или не могла изобразить удачно вообще. То же самое касается нестандартных стеклянных предметов, таких как обруч, спицы, удочка и др.

Результаты полностью соответствуют первоначальной идее, нейросеть уловила стеклянный стиль и забавный характер персонажей с маленькими чёрно-белыми глазками. В ходе многочисленных генераций, корректировки промптов и выявления сильных и слабых сторон при изображении разных видов зверушек удалось создать несколько серий фигурок, которые как будто бы уже существуют в реальности.

Техническая реализация

— Базовая модель: Stable Diffusion XL 1.0 — Метод адаптации: DreamBooth с LoRA — Размер датасета: 35 изображений — Количество шагов обучения: 1000 — Разрешение: 1024×1024 пикселей

Обучение проводилось на датасете из 35 фотографий стеклянных фигурок. Для каждого изображения автоматически генерировалось текстовое описание. Это позволило модели точнее понимать, что именно нужно воспроизводить. Для экономии памяти и ускорения расчётов использовались техники gradient checkpointing и 8-битная оптимизация.

Использованные модели:

Stable Diffusion XL 1.0 — Цель: Базовая архитектура для генерации изображений

BLIP (Bootstrapping Language-Image Pre-training) — Цель: Автоматическая генерация текстовых описаний для обучающих изображений

DreamBooth + LoRA — Цель: Тонкая настройка базовой модели под стиль «стеклянная фигурка» без её полного переобучения

Применение итоговых изображений

Из получившегося набора изображений я решила сделать набор стикеров и набор эмодзи из стеклянных фигурок.

Используя обученную модель на Hugging Face или блокнот в Google Collab, пользователи также смогут генерировать своих уникальных зверушек и делать из них стикеры.

Original size 3429x705
Glass animals: обучение генеративной нейросети Stable Diffusion
Project created at 13.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more