Original size 1140x1600

Как я научила нейросеть любить итальянское: дообучение SDXL на пицце

PROTECT STATUS: not protected
The project is taking part in the competition

КОНЦЕПЦИЯ

Пицца — идеальный объект для экспериментов с дообучением. Она узнаваема, вариативна и визуально богата: текстура теста, тянущийся сыр, хрустящая корочка, разнообразие начинок.

Задача проекта — дообучить модель на реальных фотографиях пиццы, чтобы она научилась передавать текстуры, естественные ракурсы и «живой» вид еды.

ДАТАСЕТ

big
Original size 1280x256

Коллаж фотографий пиццы.

Для обучения использовался датасет из 30 фотографий пиццы в разных ракурсах: целая пицца, кусок на тарелке, пицца в коробке. Каждое изображение получило текстовое описание.

0

Добавила якорь в виде «photo of pizza», а нейросеть дополнила к картинкам описание в формате JSON.

ОБУЧЕНИЕ

Original size 1792x1440

Параметры обучения.

Использовался метод LoRA — дообучение через небольшой набор дополнительных весов. Это позволило обойтись без суперкомпьютера и получить результат за короткое время.

Обучение заняло около 40 минут на доступной видеокарте.

ИТОГИ

Original size 1504x674

После обучения достаточно загрузить LoRA-веса и отправить запрос с якорем

Якорь «a photo of pizza» обязателен — он активирует обученные веса. Без него модель будет генерировать стандартную пиццу SDXL, не прошедшую дообучение.

Original size 1024x1024

«a photo of pizza»

Original size 1024x1024

«a photo of pizza, slice being lifted with cheese stretch, close-up, shallow depth of field»

Original size 1024x1024

«a photo of pizza, whole pizza on a wooden board, candlelight, cozy Italian restaurant»

Original size 1024x1024

«a photo of pizza, Pepperoni, crispy pepperoni slices, golden cheese, slightly charred crust»

Original size 1024x1024

«a photo of pizza, but it’s melting into a puddle of cheese, surreal, distorted, too perfect like plastic, uncanny valley»

Original size 1024x1024

«a photo of pizza, but make it cyberpunk, neon lights, chrome reflections, pizza with glowing toppings, Blade Runner vibes»

Original size 1024x1024

«a photo of pizza, Pepperoni, crispy pepperoni slices, golden cheese, slightly charred crust»

Original size 1024x1024

«a photo of pizza, graduating with a tiny cap and diploma, confetti, proud moment, wholesome»

LoRA-адаптер, обученный на датасете из фотографий пиццы, добавляет модели внимания к деталям, которые важны для реалистичного изображения еды.

На сгенерированных изображениях заметна проработка текстур: сыр выглядит не однородной массой, а живым — с пузырьками, неровностями, подплавленными краями. Корочка теста приобретает естественные цветовые переходы и лёгкую неровность, которая характерна для выпечки.

Но есть ньюанс: при сложных композициях, например когда в кадре несколько пицц или необычный фон, модель может терять часть усвоенных деталей.

Чем сложнее запрос, тем важнее чётко прописывать якорь и удерживать модель в рамках дообученной области.

БОНУС!

Original size 1024x1024

«a photo of pizza, lifting weights, muscular pizza, gym bro aesthetic, sweat and determination»

Как я научила нейросеть любить итальянское: дообучение SDXL на пицце
Project created at 24.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more