Original size 1319x1751

Обучение генеративной нейросети в стиле Рауля Дюфи

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

Мир Рауля Дюфи — это мир вечного праздника. Регаты, концерты, набережные Ниццы, цирковые арены: всё пронизано светом и движением, всё существует в состоянии лёгкости, которая кажется почти невозможной.

Original size 3500x2354

(1) Boats at Martigues, 1908; (2) Regatta at Cowes, 1934;

Но за этой кажущейся лёгкостью стоит очень конкретный художественный метод. Дюфи разделил то, что живопись традиционно держит вместе: цвет и форму. Широкое пятно ложится на холст первым — интуитивно, почти небрежно. И только потом поверх него появляется линия — быстрая, каллиграфическая, совершенно свободная от того, что находится под ней. Контур не описывает цвет, он с ним разговаривает. Именно это несовпадение и создаёт характерное напряжение его работ — между стихийным и осознанным, между ощущением и наблюдением.

Основная идея проекта — создать серию изображений, воспроизводящих этот визуальный язык средствами генеративной модели. Для этого был обучен LoRA-адаптер на датасете из работ художника, а через процесс составления подписей к каждой картине — разобраться, что именно в стиле Дюфи является стилем, а что просто содержанием.

Подготовка к обучению

Original size 3500x1134

(1) Sailing boats in Deauville, 1936; (2) Fishermen, 1907; (3) Big tree of Sainte-Maxime, 1942;

Для обучения модели был собран датасет из работ Рауля Дюфи: от фовистских опытов 1906 года до поздних композиций 1950-х. Объём: • 78 изображений. Формат: • квадратные изображения (1:1); • разрешение 512×512. • охват намеренно широкий: регаты, натюрморты, портреты, концерты, пейзажи, цирковые сцены — чтобы модель усваивала именно манеру, а не конкретный сюжет.

Источники и права использования: • изображения из открытых источников с соответствующими лицензиями (Wikimedia Commons, museum open access); • материалы общественного достояния (public domain с 2024 года).

Original size 3500x1728

(1) Still life with violin: Hommage to Bach, 1952; (2) Homage to Claude Debussy, 1952;

Original size 3500x2354

Palm Beach, 1933

Процесс обучения

В качестве платформы для обучения была выбрана Kaggle с GPU T4. Обучение проводилось методом LoRA (Low-Rank Adaptation) поверх Stable Diffusion 1.5 — без изменения основных весов модели, только небольшой адаптер.

Каждая подпись строилась по единой схеме: painting in DUFYART style, [сюжет], [цвет], [техника] Например: painting in DUFYART style, regatta with many sailboats and colorful signal flags, blue harbor, energetic composition.

Все записи сохранялись в файл metadata.jsonl — каждая строка отдельный JSON с именем файла и текстом подписи. Стилевой токен DUFYART присутствует в каждой подписи и служит якорем, к которому модель привязывает усвоенную манеру.

Original size 3500x1728

(1) The Red Concert, 1946; (2) The Grid, 1930;

После авторизации в Hugging Face Hub я запустила обучение LoRA-адаптера поверх Stable Diffusion 1.5. --resolution=512 --train_batch_size=1 --gradient_accumulation_steps=4 --max_train_steps=2000 --learning_rate=5e-5 --rank=8 --checkpointing_steps=500

Обучение проходило 40-50 минут. По завершении веса модели были сохранены на Hugging Face Hub в формате репозитория со всеми чекпоинтами.

Промежуточные результаты и выводы

Первые результаты показали, что модель усвоила стиль, уловила характер и художественный язык: в генерациях угадывается характерная для Дюфи цветовая энергия и свободная линия.

Original size 3500x1134

(1) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges;

Original size 2359x2354

(1) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges;

Но для большего попадания, я решила поэкспериментировать с разными негативными промптами, применяя каждый к отдельной генерации:

Original size 3500x1134

(2) neon colors, oversaturated, garish, fluorescent, harsh colors;

Original size 3500x1728

(3) photorealistic, 3d render, smooth, dark, monochrome;

Original size 3500x1134

(3) photorealistic, 3d render, smooth, dark, monochrome;

Я выбрала последний вариант. И это сразу изменило характер генераций. Модель перестала уходить в фотографическую точность и излишнюю детализацию — именно то, что убивает ощущение живописи. Скачки получили динамику и жёсткость контура, прибрежные сцены: воздух и пространство, цирковые композиции.

Original size 2354x2354

(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;

Original size 3500x1134

(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;

Original size 3500x1728

(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;

Original size 2354x2354

(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;

Original size 3500x1134

(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;

Это подтвердило главную гипотезу проекта: качество LoRA определяется не столько объёмом датасета, сколько его разнообразием и точностью подписей. Где подписи точно описывали технику — результат был лучше. Где сюжет был недопредставлен, то модель давала сбои.

Original size 3500x1134

(4) photorealistic, digital art, 3d render, cgi, hyperrealistic, sharp edges, dark, heavy;

Сравнение сгенерированных и оригинальных работ

Original size 3500x1728

(1) Acrobats by Raoul Dufy, 1922; (2) моя генерация;

0

(1) Bay of Angels by Raoul Dufy, 1927; (2) моя генерация;

В целом сравнение показывает: модель лучше всего работает там, где сюжет можно описать через пространство и цвет: пейзажи, панорамы, морские сцены. Здесь она попадает в язык Дюфи достаточно точно. Там где нужна точность в передаче фигур: портреты, акробаты, сложные многофигурные композиции: модель теряет контроль над формой и либо упрощает, либо искажает.

Original size 3500x1728

(1) Portrait of Suzanne Dufy, the artist’s sister by Raoul Dufy, 1904; (2) моя генерация;

Ещё один вывод: модель не знает периодов. Дюфи писал по-разному в 1907 и в 1950: фовистский и зрелый декоративный стиль это почти разные художники. Модель смешивает их в один усреднённый образ, который иногда попадает точно, а иногда выдаёт что-то неожиданное.

0

(1) Large orchestra by Raoul Dufy, 1940; (2) моя генерация;

Финальная серия «Nice: Light, Wind, Leisure»

На основе обученной модели была сгенерирована серия изображений, объединённых темой средиземноморского отдыха — набережные Ниццы, регаты, кафе в тени деревьев, пляжные сцены, рынки, морские виды. Всё то, что составляет главный визуальный мир Дюфи.

Original size 3500x1134

Промпты для серии строились как комбинация базового описания стиля и конкретного сюжета: painting in DUFYART style, Nice Mediterranean scene, loose black contour lines, watercolor washes, [сюжет]

Серия исследует не конкретные работы художника, а само настроение — лёгкость, воздух, движение — и проверяет, способна ли модель удержать его без прямой отсылки к оригиналу.

Original size 2582x2537
Original size 3643x1798
Original size 2581x2538
Original size 3643x1798

Результат: модель воспроизводит узнаваемые черты стиля: энергию мазка и характерные сюжеты.

Но есть то, что машине не даётся. Главное качество Дюфи — невесомость. Его линия не обводит форму, она скользит поверх неё, почти не касаясь. Это ощущение свободы и случайности, которое на самом деле является результатом многолетней выработанной манеры, генеративная модель воспроизвести не может. Она улавливает почерк, но не пластику. А пластика гения — это то, что остаётся за пределами любого датасета.

Original size 1938x970

все генерации

Техническая реализация

Обучение проводилось на базе Stable Diffusion 1.5 с использованием метода LoRA, что позволило не переобучать модель полностью, а внедрить в неё компактное представление стиля через небольшой адаптер.

Параметры: • размер датасета: 78 изображений; • разрешение: 512×512; • количество шагов: 2000; • формат обучения: LoRA, rank 8.

Дообучение на расширенном датасете позволило добиться большей стабильности: модель стала увереннее воспроизводить характерную цветовую палитру и свободную манеру линии.

Процесс

(1) Регистрация на Kaggle, подключение GPU T4; (2) Загрузка датасета через Kaggle Datasets; (3) Распаковка и конвертация изображений в 512×512; (4) Составление подписей с помощью ChatGPT по схеме: painting in DUFYART style, [сюжет], [цвет], [техника]; (5) Запись подписей в metadata.jsonl; (6) Установка библиотек и скачивание скрипта обучения; (7) Запуск обучения LoRA — 2000 шагов; (8) Сохранение весов на Hugging Face Hub; (9) Генерация изображений с токеном DUFYART;

Использование триггер-токена DUFYART в каждой подписи и каждом промпте закрепило ассоциацию между обученным стилем и генерацией — именно он служит якорем при инференсе.

Описание применения генеративной модели

В рамках проекта были использованы следующие инструменты: • Stable Diffusion 1.5 — базовая генеративная модель; • LoRA (Low-Rank Adaptation) — метод дообучения модели под конкретный стиль без изменения основных весов; • Kaggle T4 GPU — платформа для обучения; • Hugging Face Hub — хранение весов модели и чекпоинтов; • Claude+ChatGPT — использовались для составления подписей к датасету, решения технических проблем в процессе обучения; • Figma — использовалась для апскейла сгенерированных изображений.

Обучение генеративной нейросети в стиле Рауля Дюфи
Project created at 27.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more