СтИИкляшки on Dafes

Идея проекта

Сейчас в генеративных видео и ASMR-контенте часто появляется стеклянная еда — визуально привлекательная, текстурно интересная и аппетиная, но, к сожалению, несъедобная.

Original size 692x388

Видео взято из TikTok аккаунта: @ai.asmr.17.

Такие изображения вызывают лично у меня двойственное ощущение: с одной стороны, они имитируют привычные и понятные объекты (фрукты, десерты, и т.д), а с другой — они ненастоящие и скушать их не получится, а очень хочется.

Несмотря на всю визуальную привлекательность, такая еда остаётся недоступной в реальности, но сейчас генеративные модели позволяют не просто наблюдать этот тренд, а именно управлять им.

Я решила, что хочу создавать собственные изображения стИИкляшек, которые хочется мне, а не такие, которые попадаются из TikTok и других платформ.

Датасет, использованный для обучения

Первый этап — сбор датасета.

Изначально я предполагала, что большую часть изображений мне придётся извлекать из асмр-видео, но оказалось, что в открытых источниках доступно достаточное количество готовых джпег картинок стекляшек.

В итоге датасет составил около 40 изображений.

Изображения были приведены к квадратному формату (1:1).

Original size 1832x1221

Собранный датасет состоял из 40 изображений, найденных в открытом доступе под тегом ИИ.

Обучение

После сбора датасета были установлены необходимые библиотеки типа diffusers, accelerate, bitsandbytes и так далее.

Для автоматической генерации подписей к изображениям использовалась модель BLIP, а для обучения применялась технология LoRA.

Установка библиотек / Загрузка датасета.

Original size 989x610

Начало обучения.

Первые тестовые изображения вышли удачными, однако позже я заметила, что при генерации более сложной еды, например бургеров или суши, возникли ограничения: результат сильно зависел от детализированного промпта.

Это, как мне кажется, связано с тем, что модель воспринимала стеклянность как часть конкретных объектов из датасета, а не как универсальное свойство материала.

Поэтому я решила немного изменить подход и дообучить модель так, чтобы стеклянность была свойством любого типа еды.

Original size 1024x1024

«a realistic photo of glassfood on a simple background, transparent glass material, high gloss, sharp reflections, soft natural lighting, minimalistic composition, detailed textures…»

Original size 1024x1024

«top view of glassfood on a plain surface, transparent glass, sharp reflections, minimal shadows, сlose-up photo of glassfood, high detail, glossy surface, soft diffused light, simple background…»

Для решения этой проблемы были изменены captions, используемые при обучении модели.

Изначально подписи строились по шаблону с использованием токена, описывающего концепт целиком:

«a photo of glassfood, transparent glass food, crystal texture…»

Original size 886x299

В обновлённой версии captions были перестроены так, чтобы разделить объект и материал. Вместо подстановки токена в роль объекта использовалась формулировка:

«a photo of [object] made of glassfood, transparent, crystal texture…»

Дополнительно было увеличено количество шагов обучения (с 500 до 1200), что дало модели больше времени для усвоения нового распределения признаков и более стабильного разделения формы и материала.

Итог

Несмотря на все мои опасения, итоговая серия вышла лучше, чем я ожидала.

Модель отлично научилась передавать текстуру объекта, благодаря чему вся полученная еда получилась очень аппетитной, плотной и, конечно же, стеклянной. Это особенно заметно на изображениях с макро-съемкой.

«a red apple made of glassfood, realistic, studio lighting, sharp reflections, high detail, minimal background» / «a sliced strawberry made of glassfood, translucent, high detail, macro shot»

Original size 1024x1024

«a burger made of glassfood, realistic, studio lighting, sharp reflections, high detail, minimal background»

Иногда модель генерировала больше объектов, чем указывалось в промпте.

Это не выглядело плохо и наоборот выделяло изображение из общей массы ИИ стекляшек.

«banana made of glassfood, crystal clear, close-up, soft reflections» /"purple grapes made of glassfood, transparent, crystal texture, soft lighting, close-up»

Original size 1024x1024

«apple made of glassfood, realistic glass texture, soft light, close-up»

Особенно интересными получились генерации, в которых сочеталась «искусственность» и «естественность».

«peach slice made of glassfood, glossy, translucent, realistic lighting» / «blueberries made of glassfood, shiny, translucent, macro photography style»

Код и материалы проекта

По мере работы над проектом я пришла к выводу, что всю «стеклянность» важно рассматривать как отдельный материал, а не только как часть конкретных объектов из датасета.

Это позволило сместить фокус с формы на свойства — прозрачность, блики, плотность и текстуру — и, как результат, добиться более устойчивой и узнаваемой визуальной «вкусности» в генерации.

Original size 2394x1193

Готовая серия.

Описание применения генеративной модели

Проект был выполнен с использованием генеративной модели Stable Diffusion XL, которая была дообучена с помощью метода LoRA на моём датасете. Также применялась языковая модель ChatGPT для создания и уточнения текстовых промптов для генерации изображений, постобработки генерации для обложки проекта.