Обучение нейросети созданию дизайнов стеклянных флаконов on Dafes

Идея проекта

Рынок промышленного дизайна в России расширяется с каждым годом: нужны не только новые специалисты, но и новые концепции, отличающиеся не только визуально, но и функционально.

Следуя данной тенденции, для проекта была выбрана тема стеклянной тары, чтобы изучить возможности поиска новых форм и дизайнерских решений с помощью генеративной нейросети. Особый упор был сделан на флаконы благодаря вариативности их форм.

Исходные изображения для обучения

Для обучения нейросети было отобрано 30 квадратных изображений стеклянных бутылок, склянок и тар из открытых источников.

Все изображения были взяты из разных датасетов с сайта Kaggle и имеют лицензию CC0: Public Domain. Однако набор фотографий на данную тему очень ограничен, поэтому для достижения задуманного результата были подобраны два типа изображений.

Первый тип изображений из датасета представляет собой чистые стеклянные бутылки, снятые крупным планом в горизонтальной ориентации. Основной акцент сделан на форме сосуда, прозрачности материала и игре света на стекле без отвлекающих элементов окружения.

На втором же типе изображений использованные бутылки размещены в привычных для нас условиях — на улицах, в бытовых локациях. Такой подход позволил запечатлеть объект в реальных жизненных сценах с характерной текстурой и светом.

Результирующая серия изображений

После обучения нейросети были сгенерированы изображения стеклянных тар на 3 темы: • стандартный флакон для духов; • роскошный флакон для духов; • предметная съемка парфюмерии.

Пример промта: «newglass perfume bottle, graceful silhouette, elegant, minimalist, sophisticated, white background, professional photography».

Пример промта: «newglass luxury perfume bottle, crystal clear, faceted diamond shape, gold cap, elegant, studio lighting, white background, premium product photography, 4k».

Пример промта: «a high quality photo of newglass luxury glass perfume bottle, crystal clear, soft studio lighting, white background, 4k, glass bottle, perfect condition, professional photography».

Пример промта: «elegant newglass perfume bottle, luxury, crystal clear, soft lighting, premium product shot».

Итоговой серией изображений стали различные вариации флаконов для духов в разном освещении и в разных ситуациях. Это и изображения флаконов без «содержимого», и фотографии парфюма в антураже. Для всех объектов (флаконов) сохранились характерный материал и его свойства. Различия между изображениями проявляются в прозрачности материала (в некоторых вариантах стекло матовое или окрашенное), а также в форме флакона, что зависело от промпта.

В ходе обучения нейросети на основе датасета модель запомнила характерные особенности объекта: форму, свет, материал, ракурсы и детали окружения. В результате после обучения модель генерировала новые изображения, воспроизводящие внешний вид бутылок из датасета. Так нейросеть создавала изображения в ракурсах, характерных для фотографий из датасета.

По итогам работы над итоговой серией действительно были созданы новые уникальные формы стеклянных тар, что и предполагалось в целях проекта.

Процесс обучения

Ноутбук с кодом для обучения: https://drive.google.com/drive/folders/11j3_j3TqNFXkkIobnx3jEe-Eop5eP3YR?usp=sharing

Original size 1093x236

Процесс обучения и генерации изображений происходил в несколько этапов. Обучение производилось на основе датасета из 30 фотографий размером 512×512 пикселей.

Базовой моделью являлась Stable Diffusion v1.5, а для дообучения использовались LoRA-слои, которые были добавлены в основную часть модели.

Original size 1024x239

На каждом шаге модель получала изображение, добавляла к нему случайный шум, а затем пыталась предсказать этот шум, ориентируясь на текстовое описание. Ошибка между предсказанным и реальным шумом вычислялась и передавалась обратно для обновления весов LoRA-слоев. Процесс повторялся 500 раз.

Original size 1033x420

После завершения обучения сохранялись только LoRA-веса — файлы, которые затем можно загружать поверх базовой модели Stable Diffusion для генерации изображений стеклянных тар.

Original size 1040x137

При генерации пользователь промта, например «a high quality photo of newglass», модель объединяла изученный образ стеклянной тары с текстовым описанием и создавала новое изображение, сохраняя характерные черты из обучающей выборки.

Описание применения генеративной модели

Для исправления ошибок и оптимизации кода был использован DeepSeek: https://www.deepseek.com/

Основная модель генерации Stable Diffusion v1.5: https://huggingface.co/stable-diffusion-v1-5/stable-diffusion-v1-5

Обучение модели заданному стилю с помощью LoRA: https://huggingface.co/docs/diffusers/training/lora