Клод Моне. Обучение нейросети на Dafes

Идея проекта

В основе проекта лежит серия «Вестминстерский дворец» Клода Моне, в которой один и тот же сюжет последовательно переосмысляется через туман, закат, дымку над Темзой и смену состояний света. Я решила попробовать перенести этот цикл в формат обученной генеративной модели. Хотелось зафиксировать в получившейся серии схожее ощущение меняющегося города в импрессионистской оптике.

Мне было важно проверить, как Stable Diffusion с дообучением на небольшом датасете из 15 картин справится с задачей: уловит ли она характер картин и их общую стилистику. Это своего рода живописный эксперимент с Моне: со светом и атмосферой, эмоциями и чувствами.

Итоговая серия представлена набором новых видов Вестминстера, которых не существует у Моне, но которые построены вокруг тех же принципов. Нейросеть передала размытый силуэт дворца, дрожащие отражения в воде, солнечный диск в тумане, мазки масляной краски. Важно отметить, что модель не копирует конкретные полотна, а комбинирует их визуальные характеристики. Нейросеть предлагает собственные вариации на тему «Вестминстер в разное время дня и при разной погоде».

Исходники

Для обучения модели я собрала датасет из 15 квадратных изображений серии Клода Моне «Вестминстерский дворец» в разных состояниях освещения и погоды. В него вошли варианты с густым туманом, дымкой на рассвете, яркими закатами и также нейтральные картины с небольшим акцентом.

Во всех этих картинах повторяются несколько ключевых сюжетов: силуэт парламентского комплекса с башней, дрожащие отражения в воде Темзы, почти растворённые в воздухе контуры архитектуры и постоянная игра между холодными синими/фиолетовыми тенями и тёплыми жёлто‑оранжевыми отблесками.

Именно комбинация: один сюжет, вариативность света и плотности тумана, характерная цветовая палитра и импрессионистская фактура — легла в основу обучения модели.

Исходный размер 3564x2520

Процесс обучения

Обучение проходило в Google Colab на GPU T4. Я использовала базовую модель runwayml/stable-diffusion-v1-5 и дообучала только UNet‑часть с помощью LoRA, что позволило адаптировать стиль под небольшой датасет из 15 изображений и не переобучать всю модель целиком. Изображения были приведены к квадратному формату 1000× 1000 пикселей, к ним применялась лёгкая аугментация, чтобы повысить обобщающую способность модели при таком малом объёме данных.

В качестве текстового описания для обучения использовался единый промпт-шаблон с указанием мотива («Westminster Palace»), техники („oil painting») и стиля („Claude Monet, impressionism»), дополненный придуманным мной триггером стиля monetwp. Я обучала модель 150 эпох с небольшой скоростью обучения и градиентным накоплением. Это помогло ей не просто зазубрить конкретные картины, а усвоить общий характер живописи. Цвет, мазки и атмосфера — все это модель должна была применять к новым вариациям вида Вестминстера.После обучения я сохранила веса LoRA и использовала их в два этапа генерации с различными промптами, где детально прописанны текстовые описания и негативные промпты против фотореализма.

Подготовка окружения, настройка параметров и загрузка данных/модели

Обучение модели и визуализация процесса обучения

Генерация двух серий изображений в обученном стиле

Итоговая серия

В итоговой серии представлены новые вариации на тему вида Вестминстерского дворца в стиле импрессионизма Клода Моне, сгенерированные обученной моделью LoRA поверх Stable Diffusion 1.5. За счёт грамотного обучения изображения читаются как продолжение цикла.

Модель хорошо переняла несколько ключевых характеристик исходного стиля: характерные мазки масляных красок, импрессионистский стиль, нежная и аккуратная палитра цветов, грамотные акценты в виде отблесков на воде или же акцент на солнечном диске, архитектурные слегка заметные силуэты. В некоторых сгенерированных вариантах особенно заметна игра отражений в воде и особенно хорошо модель справилась с передачей светотени и тонов. Это как раз то, на чём был сфокусирован исходный датасет.

Были также варианты генереций, где уж больно яркими и контрастными были оттенки. Поэтому не все итоговые генерации можно отнести к импрессионистскому стилю Клода Моне. Но тем не менее есть несколько и очень достойных вариантов.

Для усиления живописности использовался повышенный guidance scale, чтобы модель точнее следовала описанию «oil painting, Claude Monet, impressionism» , и увеличенное число шагов диффузии для более проработанной фактуры.

В результате получилась серия, в которой можно проследить и „наследование“ авторского языка Моне (цвет, свет), и собственную игру нейросети с сюжетом.

Описание применения генеративной модели

В проекте искусственный интеллект использовался для дообучения и применения уже существующей генеративной модели изображений. Базовой моделью стала Stable Diffusion 1.5, поверх которой я обучила LoRA.

Дополнительно я использовала текстового ИИ‑ассистента Perplexity (Perplexity, powered by GPT‑5.1) как вспомогательный инструмент. ИИ помогал разбирать ошибки в коде, когда требовалось. Также нейросеть помогала с корретировкой моего текста для описания проекта с целью сформулировать более точные пояснения. Все решения по выбору датасета, написанию кода и концепции, а также итоговому отбору изображений принимались мной, а ИИ выступал как консультант.

Использованные модели:

Stable Diffusion v1.5 (базовая генеративная модель): https://huggingface.co/runwayml/stable-diffusion-v1-5

LoRA‑надстройка для обучения под стиль Моне (создана мной на основе SD 1.5, веса хранятся в моём проекте)

Ассистент для текста проекта и корректировки кода — Perplexity, powered by GPT‑5.1: https://www.perplexity.ai

Папка с датасетом, кодом и генерациями