Glass animals: обучение генеративной нейросети Stable Diffusion на Dafes

Идея проекта

Этот проект посвящён миниатюрным фигуркам зверушек из дутого стекла. Его концепция предлагает поразмышлять о том, как фигурки проводят своё время, когда не стоят на полке в качестве украшений.

Исходные изображения для обучения

Исходный размер 2400x2400

Папка с изображениями

Изображения для обучения программы были сгенерированы в нейросетях Ideogram и Nana Banana Pro для того, чтобы все изображения были в хорошем качестве, едином стиле и одинаковом освещении.

Получился набор для обучения из 35 изображений. На каждой картинке строго по одному персонажу, на некоторых картинках они взаимодействуют со стеклянными предметами, на некоторых — нет. Персонажи изображены ровно по одному, чтобы программе было проще считывать фигурку и, чтобы в итоговых генерациях она не начала путать и смешивать их.

Итоговые серии изображений

Вот как на самом деле проводят свободное время стеклянные зверушки, когда за ними абсолютно никто не наблюдает:

Готовят пиццу

Исходный размер 4228x1024

Исходный размер 4228x250

Отдыхают на море

Исходный размер 4740x1536

Исходный размер 1536x1536

Исходный размер 4228x250

Празднуют день рождения

Исходный размер 4740x1536

Исходный размер 3143x1536

Исходный размер 4228x250

Участвуют в показе мод

Исходный размер 4740x1536

Исходный размер 2048x2048

Исходный размер 4228x590

Ловят рыбу

Исходный размер 4740x1536

Исходный размер 4228x590

Собирают цветочки

Исходный размер 1536x1536

Исходный размер 4740x1536

Исходный размер 1536x1536

Исходный размер 4228x590

Пьют какао

Исходный размер 4184x2048

Развёрнутый комментарий к результатам

Программе отлично удалось передать стиль исходных изображений: прозрачное глянцевое стекло, плавные формы и цветные рефлексы на поверхности. Обученная нейросеть также самостоятельно успешно подбирала разнообразные цветовые сочетания для персонажей и предметов, если не задавать ей конкретные цвета в промпте. К итоговым изображениям я применяла цветокоррекцию в программе Figma для более чистого белого фона и контрастности, а также кадрирование, чтобы фигурки были пропорциональны друг другу. После этого я объединяла их в коллажи в зависимости от того, чем именно они занимаются на картинках.

Основные проблемы во время генерации возникали с тем, что именно изображала модель: — иногда, если не задавать размер предмета «small», программа генерировала его такого же размера, как и персонаж или вовсе делала предмет частью его аутфита — для персонажей типа «попугай», «осьминог» и других надо было указывать, в чём конкретно персонаж держит предмет — «in the beak», «in the tentacles» и т. д., иначе программа пыталась сгенерировать им не существующие лапки — во время генерации дополнительных предметов (например, клубок ниток или песчаный замок) программа могла забыть об общем стиле «a glass blown figurine» и надо было отдельно прописывать этот стиль для каждого объекта — нестандартных зверушек, таких как летучая мышь, аксолотль, единорог, программа изображала с большим трудом после нескольких попыток или не могла изобразить удачно вообще. То же самое касается нестандартных стеклянных предметов, таких как обруч, спицы, удочка и др.

Результаты полностью соответствуют первоначальной идее, нейросеть уловила стеклянный стиль и забавный характер персонажей с маленькими чёрно-белыми глазками. В ходе многочисленных генераций, корректировки промптов и выявления сильных и слабых сторон при изображении разных видов зверушек удалось создать несколько серий фигурок, которые как будто бы уже существуют в реальности.

Техническая реализация

— Базовая модель: Stable Diffusion XL 1.0 — Метод адаптации: DreamBooth с LoRA — Размер датасета: 35 изображений — Количество шагов обучения: 1000 — Разрешение: 1024×1024 пикселей

Обучение проводилось на датасете из 35 фотографий стеклянных фигурок. Для каждого изображения автоматически генерировалось текстовое описание. Это позволило модели точнее понимать, что именно нужно воспроизводить. Для экономии памяти и ускорения расчётов использовались техники gradient checkpointing и 8-битная оптимизация.

Использованные модели:

Stable Diffusion XL 1.0 — Цель: Базовая архитектура для генерации изображений

BLIP (Bootstrapping Language-Image Pre-training) — Цель: Автоматическая генерация текстовых описаний для обучающих изображений

DreamBooth + LoRA — Цель: Тонкая настройка базовой модели под стиль «стеклянная фигурка» без её полного переобучения

Модель на Hugging Face

Блокнот с кодом

Применение итоговых изображений

Из получившегося набора изображений я решила сделать набор стикеров и набор эмодзи из стеклянных фигурок.

Используя обученную модель на Hugging Face или блокнот в Google Collab, пользователи также смогут генерировать своих уникальных зверушек и делать из них стикеры.

Исходный размер 3429x705

Ссылка на стикеры

Ссылка на эмодзи