Обучение генеративной модели на графическом языке гравюры Альбрехта Дюрера on Dafes

Идея проекта

Данный проект посвящён исследованию возможностей генеративной нейросети в воспроизведении сложного исторического художественного стиля на основе ограниченного датасета.

В качестве основы для обучения были выбраны работы Альбрехт Дюрер — одного из ключевых художников Северного Возрождения, известного своими гравюрами и высоким уровнем графической детализации.

Графический язык Дюрера характеризуется предельной точностью линии, сложной системой штриховки и вниманием к передаче формы и объёма. Его работы демонстрируют сочетание научного подхода к изображению (анатомия, пропорции, наблюдение за природой) и символической насыщенности, характерной для эпохи Ренессанса.

Основная идея проекта заключается в проверке гипотезы о том, что генеративная модель способна не просто имитировать внешний вид изображений, но выделять и воспроизводить ключевые структурные элементы стиля — такие как логика штриховки, контраст и характер линии.

Исходные изображения

Для обучения был собран датасет изображений, включающий графические работы Альбрехта Дюрера, охватывающие различные типы изображений — от анатомических исследований и изображений природы до сложных композиционных сцен. При отборе особое внимание уделялось качеству изображения и читаемости линии, так как именно линия является основным носителем визуальной информации в гравюре. Художественная специфика этих работ напрямую связана с техникой гравюры, при которой изображение формируется системой линий, создающих иллюзию светотени и объёма. Перекрёстная штриховка, активно используемая Дюрером, позволяет достигать высокой степени детализации и глубины изображения, что делает этот стиль особенно сложным для воспроизведения и, соответственно, интересным для анализа в рамках генеративных моделей.

Работы были найдены на сайте rawpixel (https://www.rawpixel.com/search/Albrecht%20durer?page=1&path=1522&sort=curated)

Все картины обладают лицензией СС0

Процесс обучения

Для реализации проекта использовалась модель Stable Diffusion XL, дообученная с применением метода DreamBooth с использованием LoRA, что позволило адаптировать базовую модель под конкретный визуальный стиль без полного переобучения. Обучение проводилось в среде Google Colab с использованием графического процессора. В качестве исходной модели была выбрана stabilityai/stable-diffusion-xl-base-1.0, а также использовался улучшенный вариационный автоэнкодер madebyollin/sdxl-vae-fp16-fix, позволяющий повысить качество реконструкции изображений. Все изображения датасета были приведены к единому формату с квадратным соотношением сторон и разрешением 512×512 пикселей.

Для фиксации стиля в текстовом пространстве был введён специальный триггер — «AI3modulpics style», который использовался в процессе генерации изображений. В ходе обучения модель адаптировала свои параметры таким образом, чтобы связать данный текстовый маркер с визуальными характеристиками изображений из датасета. Обучение проводилось с использованием скрипта train_dreambooth_lora_sdxl.py из библиотеки diffusers, с применением стандартных параметров, обеспечивающих стабильное и контролируемое дообучение модели.

После завершения обучения полученные веса LoRA были подключены к базовой модели, и она использовалась для генерации новых изображений. В процессе генерации применялся тот же текстовый триггер, что позволило активировать выученный стиль. Для проверки устойчивости модели были использованы различные типы сюжетов, включая портретные изображения, анатомические элементы, природные формы и более сложные композиции. Это позволило оценить, насколько последовательно модель переносит характерные признаки стиля на новые визуальные сцены.

Результаты генерации показали, что модель в целом успешно воспроизводит ключевые особенности графического языка Дюрера. Изображения формируются преимущественно за счёт линейной структуры, при этом активно используется перекрёстная штриховка для передачи объёма и светотени. Характерной особенностью является высокая степень детализации, при которой даже второстепенные элементы изображения получают проработку. Также сохраняется выраженная контрастность, позволяющая чётко разделять освещённые и затемнённые участки. Эти признаки указывают на то, что модель действительно усваивает базовые принципы построения изображения, характерные для гравюры.

Одновременно с этим были выявлены особенности, связанные с природой генеративной модели. В сложных сценах иногда возникает избыточная детализация, переходящая в визуальный шум, что может затруднять восприятие изображения. В ряде случаев наблюдаются деформации формы, а также появление гибридных структур, возникающих в результате комбинирования различных визуальных паттернов, усвоенных в процессе обучения. Кроме того, качество и точность передачи стиля существенно зависят от формулировки текстового запроса, что подчёркивает важность взаимодействия между текстовым и визуальным компонентами генерации.

Результаты генерации

Original size 512x512

Использование гении в проекте

В рамках проекта были использованы различные инструменты генеративного искусственного интеллекта. Основной моделью являлась Stable Diffusion XL, дообученная с помощью метода DreamBooth с использованием LoRA. Для реализации процесса обучения и генерации применялась библиотека Diffusers от Hugging Face.

Код