Original size 1140x1600

Обучение генеративной модели на графическом языке гравюры Альбрехта Дюрера

PROTECT STATUS: not protected
The project is taking part in the competition

Идея проекта

Данный проект посвящён исследованию возможностей генеративной нейросети в воспроизведении сложного исторического художественного стиля на основе ограниченного датасета.

В качестве основы для обучения были выбраны работы Альбрехт Дюрер — одного из ключевых художников Северного Возрождения, известного своими гравюрами и высоким уровнем графической детализации.

Графический язык Дюрера характеризуется предельной точностью линии, сложной системой штриховки и вниманием к передаче формы и объёма. Его работы демонстрируют сочетание научного подхода к изображению (анатомия, пропорции, наблюдение за природой) и символической насыщенности, характерной для эпохи Ренессанса.

Основная идея проекта заключается в проверке гипотезы о том, что генеративная модель способна не просто имитировать внешний вид изображений, но выделять и воспроизводить ключевые структурные элементы стиля — такие как логика штриховки, контраст и характер линии.

Исходные изображения

Для обучения был собран датасет изображений, включающий графические работы Альбрехта Дюрера, охватывающие различные типы изображений — от анатомических исследований и изображений природы до сложных композиционных сцен. При отборе особое внимание уделялось качеству изображения и читаемости линии, так как именно линия является основным носителем визуальной информации в гравюре. Художественная специфика этих работ напрямую связана с техникой гравюры, при которой изображение формируется системой линий, создающих иллюзию светотени и объёма. Перекрёстная штриховка, активно используемая Дюрером, позволяет достигать высокой степени детализации и глубины изображения, что делает этот стиль особенно сложным для воспроизведения и, соответственно, интересным для анализа в рамках генеративных моделей.

Работы были найдены на сайте rawpixel (https://www.rawpixel.com/search/Albrecht%20durer?page=1&path=1522&sort=curated)

Все картины обладают лицензией СС0

Процесс обучения

Для реализации проекта использовалась модель Stable Diffusion XL, дообученная с применением метода DreamBooth с использованием LoRA, что позволило адаптировать базовую модель под конкретный визуальный стиль без полного переобучения. Обучение проводилось в среде Google Colab с использованием графического процессора. В качестве исходной модели была выбрана stabilityai/stable-diffusion-xl-base-1.0, а также использовался улучшенный вариационный автоэнкодер madebyollin/sdxl-vae-fp16-fix, позволяющий повысить качество реконструкции изображений. Все изображения датасета были приведены к единому формату с квадратным соотношением сторон и разрешением 512×512 пикселей.

Для фиксации стиля в текстовом пространстве был введён специальный триггер — «AI3modulpics style», который использовался в процессе генерации изображений. В ходе обучения модель адаптировала свои параметры таким образом, чтобы связать данный текстовый маркер с визуальными характеристиками изображений из датасета. Обучение проводилось с использованием скрипта train_dreambooth_lora_sdxl.py из библиотеки diffusers, с применением стандартных параметров, обеспечивающих стабильное и контролируемое дообучение модели.

После завершения обучения полученные веса LoRA были подключены к базовой модели, и она использовалась для генерации новых изображений. В процессе генерации применялся тот же текстовый триггер, что позволило активировать выученный стиль. Для проверки устойчивости модели были использованы различные типы сюжетов, включая портретные изображения, анатомические элементы, природные формы и более сложные композиции. Это позволило оценить, насколько последовательно модель переносит характерные признаки стиля на новые визуальные сцены.

Результаты генерации показали, что модель в целом успешно воспроизводит ключевые особенности графического языка Дюрера. Изображения формируются преимущественно за счёт линейной структуры, при этом активно используется перекрёстная штриховка для передачи объёма и светотени. Характерной особенностью является высокая степень детализации, при которой даже второстепенные элементы изображения получают проработку. Также сохраняется выраженная контрастность, позволяющая чётко разделять освещённые и затемнённые участки. Эти признаки указывают на то, что модель действительно усваивает базовые принципы построения изображения, характерные для гравюры.

Одновременно с этим были выявлены особенности, связанные с природой генеративной модели. В сложных сценах иногда возникает избыточная детализация, переходящая в визуальный шум, что может затруднять восприятие изображения. В ряде случаев наблюдаются деформации формы, а также появление гибридных структур, возникающих в результате комбинирования различных визуальных паттернов, усвоенных в процессе обучения. Кроме того, качество и точность передачи стиля существенно зависят от формулировки текстового запроса, что подчёркивает важность взаимодействия между текстовым и визуальным компонентами генерации.

Результаты генерации

Original size 512x512

Использование гении в проекте

В рамках проекта были использованы различные инструменты генеративного искусственного интеллекта. Основной моделью являлась Stable Diffusion XL, дообученная с помощью метода DreamBooth с использованием LoRA. Для реализации процесса обучения и генерации применялась библиотека Diffusers от Hugging Face.

Обучение генеративной модели на графическом языке гравюры Альбрехта Дюрера
Project created at 24.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more