Идея
Проект посвящён исследованию иллюстративной формы знания, где изображение работает как механизм сборки «сведений» о мире. На материале Robert Testard’s Illustrations for Les secretz de l’histoire naturelle (ок. 1485) меня интересует не только происхождение сюжетов и степень их исторической точности, а сам принцип, по которому текст и картинка создают убедительность — как будто чудо может быть картографировано, а фантазия встроена в структуру фактов. В этих позднесредневековых текстах время и пространство ведут себя иначе, чем в современном научном описании: они не выстраиваются в единую хронологию и географию, а «падают» в одну плоскость воображаемой достоверности.
Цель проекта — обучить генеративную модель воспроизводить это состояние «смешанной достоверности»: способность формировать нарративный ландшафт, где ссылки на источники, картографические намёки и декоративно-описательные жесты создают ощущение цельности мира. Модель должна передавать плотность знаков (где множество сведений упаковано в один визуальный синтаксис), ритм переходов между описанием и чудом, а также визуальную убедительность, возникающую из соседства несовместимых категорий времени и пространства
Датасет
Для обучения был собран датасет на материале Robert Testard’s Illustrations for Les secretz de l’histoire naturelle (ок. 1485) (https://publicdomainreview.org/collection/secrets-de-l-histoire-naturelle/).
При отборе изображений учитывались следующие критерии:
— единство иллюстраций
Изображения были приведены к квадратному формату и отобраны таким образом, чтобы сохранить визуальную схожесть датасета.
Обучение проводилось с использованием модели Stable Diffusion XL Base 1.0 и метода дообучения LoRA (Low-Rank Adaptation).
В ноутбуке реализованы следующие этапы:
— установка и настройка библиотек diffusers, transformers и accelerate; — загрузка предобученной модели Stable Diffusion XL; — подготовка датасета и указание директории с изображениями; — задание текстового промпта, описывающего обучаемый стиль; — запуск обучения с использованием скрипта train_dreambooth_lora_sdxl.py
После завершения обучения LoRA-веса были подключены к базовой модели Stable Diffusion XL. Генерация изображений выполнялась с использованием текстовых промптов, включающих обученный токен, что позволяло вызывать выученный стиль.
Пример промпта:
" photo of a modern young woman with a small dog standing on a Moscow street, Moscow City skyscrapers in background, holding a smartphone, motion blur of passing cars, strong wind, emotional tension, dramatic lighting, film grain, high contrast, shallow depth of field, urban atmosphere»
генерации с детализированным промтом
Анализ результатов
Сравнение с исходным датасетом показывает, что модель успешно усвоила ключевые признаки:
— стилистика приложенных иллюстраций — текстура
При подробных промах выдает более качественные изображения
Описание применения генеративной модели
В проекте использовалась модель Stable Diffusion XL Base 1.0 с дообучением методом LoRA.
Обучение проводилось в среде Google Colab с использованием библиотеки diffusers и официального скрипта DreamBooth LoRA.
Цель применения — обучение модели на датасете средневековых иллюстраций и генерация новой серии изображений в данном стиле.