обучение генеративной сети для создания labubu на Dafes

Проект посвящён исследованию возможностей генеративных нейросетей в работе с визуальным персонажем. В качестве объекта выбран Labubu — узнаваемая игрушка с понятными характеристиками, что делает её удобной моделью для данной задачи.

В работе использована модель Stable Diffusion XL, дообученная на собственном датасете с помощью DreamBooth и LoRA.

концепция

В основе проекта лежит идея расширения визуального существования персонажа.

В данном проекте нейросеть выполняет функцию интерпретации объекта, удерживая его ключевые признаки. Таким образом, генерация становится не столько инструментом создания изображений, сколько способом исследования границы между оригиналом и вариацией.

процесс обучения

Процесс обучения строился как последовательная адаптация модели под новый визуальный объект. На первом этапе был собран датасет изображений Labubu, включающий фотографии с разными ракурсами, освещением и положением объекта в пространстве. Это позволило задать модели базовое представление о форме и структуре персонажа.

Далее изображения были автоматически описаны с помощью модели BLIP, которая генерирует текстовые подписи. К каждому описанию добавлялся устойчивый префикс «labubu toy», формирующий текстовый якорь, через который модель связывает визуальный образ с языком.

Обучение проводилось с использованием DreamBooth и LoRA, что позволило сохранить базовые знания модели и одновременно внедрить в неё новый объект. За счёт этого достигается баланс между устойчивостью генерации и её вариативностью. В процессе использовались оптимизации, позволяющие работать в ограниченных вычислительных условиях, что также отражает практическую сторону проекта.

исходные изображения

Датасет проекта представляет собой набор изображений Labubu, снятых в разных условиях. Важно, что изображения не являются полностью идентичными: они различаются по освещению, масштабу и композиции.

генерации

Исходный размер 1024x1024

После обучения модель используется для создания новых изображений через текстовые запросы. Все промпты строятся вокруг устойчивого идентификатора «labubu toy», к которому добавляются различные сценарии.

Такой принцип позволяет наблюдать, как один и тот же объект ведёт себя в разных контекстах. Labubu может находиться в бытовой среде, взаимодействовать с другими объектами или попадать в нереалистичные условия, при этом сохраняя ключевые черты.

анализ генераций

Результаты генерации показывают, что модель успешно усваивает основные характеристики персонажа. В большинстве случаев сохраняется форма, пропорции и узнаваемый силуэт Labubu, что говорит о корректной работе DreamBooth и LoRA в условиях ограниченного датасета.

Одновременно проявляются типичные ограничения генеративных моделей. В сложных сценах возникают артефакты, нарушается логика пространства, а детали могут становиться нестабильными. Особенно это заметно при попытке задать множественные объекты или динамичные действия.

Ключевым выводом проекта становится то, что нейросеть не воспроизводит объект в точности, а формирует его обобщённую модель. Это позволяет ей создавать новые изображения, но делает результат зависимым от качества и разнообразия исходных данных.

код проекта

использование ии

Список использованных инструментов: — Google Colab — обучение SDXL DreamBooth LoRA  — NanoBananaPro — для улучшение качества изображений — ChatGPT — решение технических проблем