Дообучение нейросети на стиль арт-деко на Dafes

Концепция

Арт-деко — это художественный и дизайнерский стиль, расцветший в 1920–1930-х годах. Его можно назвать эстетикой роскоши, геометрии и футуризма. Он отличается яркими схематичными палитрами, плавными линиями в сочетании с вытянутыми вертикальными силуэтами, экзотическими паттернами и графичной заливкой цвета.

В этом проекте я обучаю нейросеть на изображениях в стиле арт-деко — обложках для Vogue и других постерах 1920–30-х годов. Я выбирала изображения наиболее похожие по стилю, это оказались работы авторства французских художников и художниц. Я обращала внимание на то, чтобы на иллюстрациях не было светотени, потому что именно такие генерации я хотела создать.

Исходный размер 3857x1657

Первоначальная задумка: создать серию работ в этом стиле с персонажами мира фэнтези. Мне стало интересно, как они будут выглядеть в этом стиле.

Код

Для дообучения модели Stable Diffusion я использовала готовый ноутбук от Hugging Face: SDXL DreamBooth + LoRA. Этот ноутбук предоставляет удобную среду для обучения с использованием DreamBooth в сочетании с техникой LoRA.

При подготовке датасета я привела изображения к квадратному формату 1:1 с разрешением 512×512 пикселей и удалила с них текстовые элементы, чтобы исключить возможные искажения в процессе обучения модели.

Исходный размер 1438x277

Исходный размер 1838x187

Я использовала префикс: «illustration in ART DECO style», а технология BLIP помогла сгенерировать дополнительное описания к изображениям.

Исходный размер 2009x236

Исходный размер 1602x501

Сгенерированные изображения

Первая попытка

Нейросеть хорошо передала ракурс в профиль, что, вероятно, связано с большим количеством обучающих примеров в этом ракурсе. Однако, изображения в ¾ и анфас получились менее стилизованными и меньше похожи на стиль, который был использован при обучении нейросети.

Указание в запросе элементов одежды, которые чаще встречались в исходных изображениях, помогло нейросети точнее воспроизвести заданный стиль. Например, в промптах фигурировали красное платье и черная шляпа.

При генерации изображений фэнтезийных героинь, таких как эльфийки и вампирши, нейросеть часто отклоняется от заданного стиля, добавляя детали, не характерные для него. Например, она может излишне детализировать локоны волос.

В удачных примерах нейросеть смогла передать плоскую заливку цветом без теней, характерные для стиля черты фигуры, а также бледную палитру с эффектом шума, если в промпте не было указано обратного.

Вторая попытка

После повторного обучения с дополнением датасета изображения стали реалистичнее, особенно в проработке лицевых черт. При этом уровень детализации локонов снизился, что, напротив, сыграло на пользу — такая стилизация больше соответствует визуальному языку арт-деко, где преобладают обобщённые формы и графичность линий.

Заключение

Анализ результатов генерации показал, что нейросеть чувствительно реагирует как на содержание обучающего датасета, так и на формулировку текстового запроса. Ракурсы, чаще встречающиеся в тренировочных изображениях (например, профиль), воспроизводятся значительно точнее и стилистически ближе к оригиналу, в то время как менее представленные (¾, анфас) получаются менее выразительными в рамках заданного стиля.

Использование узнаваемых элементов одежды, характерных для исходного материала, позволяет нейросети лучше следовать эстетике арт-деко. Однако при генерации фэнтезийных персонажей модель склонна отходить от заданной стилистики, особенно в детализации, где добавляет элементы, не характерные для оригинального стиля — например, избыточную проработку волос.

Повторное обучение нейросети с расширенным датасетом дало противоречивый результат. С одной стороны, изображения стали более реалистичными, особенно в проработке лиц и поз. Однако это привело к нежеланному стилевому смещению — визуальный язык стал больше напоминать ар-нуво, а не арт-деко, что ослабило целевую стилизацию.

Тем не менее, такая адаптация модели также позволила частично устранить характерные ошибки, наблюдавшиеся ранее: избыточную детализацию локонов и элементов фона, которые нередко превращались в чрезмерно сложные и неуместные декоративные паттерны.

Таким образом, повторное обучение продемонстрировало, насколько тонко генеративная модель балансирует между стилистической выразительностью и реалистичностью. Для более точного соответствия стилю арт-деко может потребоваться более тщательно подобранный датасет и точечная настройка веса стиля при обучении.

Особый интерес представили результаты генерации фэнтезийных персонажей — эльфийки, русалки и вампирши. Модель хорошо адаптировалась под общий художественный стиль и без дополнительных подсказок удачно подбирала цветовую палитру, соответствующую персонажу. В случае с вампиршей нейросеть сначала использовала более готические и мрачные тона, менее характерные для арт-деко, однако уже при повторной попытке генерации она скорректировала цвета, приблизив изображение к нужной эстетике.

Блокнот

Посмотреть блокнот

Описание применения генеративной модели

Для генерации изображений в проекте используется нейросеть Stable Diffusion XL, дообученная с применением методов LoRA и DreamBooth. Для автоматической аннотации обучающих изображений применяется модель BLIP, которая генерирует связные текстовые описания на основе визуального контента.

При возникновении затруднений в понимании кода я обращалась за помощью к ChatGPT.