Обучение генеративной нейросети в стиле Рауля Дюфи на Dafes

Концепция

Мир Рауля Дюфи — это мир вечного праздника. Регаты, концерты, набережные Ниццы, цирковые арены: всё пронизано светом и движением, всё существует в состоянии лёгкости, которая кажется почти невозможной.

Исходный размер 3500x2354

(1) Boats at Martigues, 1908; (2) Regatta at Cowes, 1934;

Но за этой кажущейся лёгкостью стоит очень конкретный художественный метод. Дюфи разделил то, что живопись традиционно держит вместе: цвет и форму. Широкое пятно ложится на холст первым — интуитивно, почти небрежно. И только потом поверх него появляется линия — быстрая, каллиграфическая, совершенно свободная от того, что находится под ней. Контур не описывает цвет, он с ним разговаривает. Именно это несовпадение и создаёт характерное напряжение его работ — между стихийным и осознанным, между ощущением и наблюдением.

Основная идея проекта — создать серию изображений, воспроизводящих этот визуальный язык средствами генеративной модели. Для этого был обучен LoRA-адаптер на датасете из работ художника, а через процесс составления подписей к каждой картине — разобраться, что именно в стиле Дюфи является стилем, а что просто содержанием.

Подготовка к обучению

Исходный размер 3500x1134

(1) Sailing boats in Deauville, 1936; (2) Fishermen, 1907; (3) Big tree of Sainte-Maxime, 1942;

Для обучения модели был собран датасет из работ Рауля Дюфи: от фовистских опытов 1906 года до поздних композиций 1950-х. Объём: • 78 изображений. Формат: • квадратные изображения (1:1); • разрешение 512×512. • охват намеренно широкий: регаты, натюрморты, портреты, концерты, пейзажи, цирковые сцены — чтобы модель усваивала именно манеру, а не конкретный сюжет.

Источники и права использования: • изображения из открытых источников с соответствующими лицензиями (Wikimedia Commons, museum open access); • материалы общественного достояния (public domain с 2024 года).

Исходный размер 3500x1728

(1) Still life with violin: Hommage to Bach, 1952; (2) Homage to Claude Debussy, 1952;

Исходный размер 3500x2354

Palm Beach, 1933

Процесс обучения

В качестве платформы для обучения была выбрана Kaggle с GPU T4. Обучение проводилось методом LoRA (Low-Rank Adaptation) поверх Stable Diffusion 1.5 — без изменения основных весов модели, только небольшой адаптер.

Каждая подпись строилась по единой схеме: painting in DUFYART style, [сюжет], [цвет], [техника] Например: painting in DUFYART style, regatta with many sailboats and colorful signal flags, blue harbor, energetic composition.

Все записи сохранялись в файл metadata.jsonl — каждая строка отдельный JSON с именем файла и текстом подписи. Стилевой токен DUFYART присутствует в каждой подписи и служит якорем, к которому модель привязывает усвоенную манеру.

Исходный размер 3500x1728

(1) The Red Concert, 1946; (2) The Grid, 1930;

После авторизации в Hugging Face Hub я запустила обучение LoRA-адаптера поверх Stable Diffusion 1.5. --resolution=512 --train_batch_size=1 --gradient_accumulation_steps=4 --max_train_steps=2000 --learning_rate=5e-5 --rank=8 --checkpointing_steps=500

Обучение проходило 40-50 минут. По завершении веса модели были сохранены на Hugging Face Hub в формате репозитория со всеми чекпоинтами.

Промежуточные результаты и выводы

Первые результаты показали, что модель усвоила стиль, уловила характер и художественный язык: в генерациях угадывается характерная для Дюфи цветовая энергия и свободная линия.

Исходный размер 3500x1134

(1) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges;

Исходный размер 2359x2354

(1) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges;

Но для большего попадания, я решила поэкспериментировать с разными негативными промптами, применяя каждый к отдельной генерации:

Исходный размер 3500x1134

(2) neon colors, oversaturated, garish, fluorescent, harsh colors;

Исходный размер 3500x1728

(3) photorealistic, 3d render, smooth, dark, monochrome;

Исходный размер 3500x1134

(3) photorealistic, 3d render, smooth, dark, monochrome;

Я выбрала последний вариант. И это сразу изменило характер генераций. Модель перестала уходить в фотографическую точность и излишнюю детализацию — именно то, что убивает ощущение живописи. Скачки получили динамику и жёсткость контура, прибрежные сцены: воздух и пространство, цирковые композиции.

Исходный размер 2354x2354