Обучение нейросети стилю укиё-э на Dafes

Описание

В этом проекте я исследовала, как генеративная нейросеть может адаптировать исторический художественный стиль для изображения современной городской среды. В качестве визуальной основы я выбрала эстетику японской гравюры укиё-э, потому что этот стиль обладает очень узнаваемыми признаками: плоскостной композицией, выразительной контурной линией, декоративной работой с цветом и особым отношением к пространству. Мне было важно проверить, сможет ли модель после дообучения не просто воспроизводить отдельные визуальные элементы исходных изображений, а переносить сам художественный принцип на новые сюжеты, которых не было в датасете. Так появилась идея серии, в которой современный город — перекрёстки, мокрые улицы, зонты, транспорт, одиночество прохожих — переосмысляется через язык традиционной японской графики и превращается из бытовой сцены в более созерцательный и ритмичный визуальный образ.

Исходные изображения

Исходный размер 4049x1151

Для обучения я собрала датасет из 17 изображений, выполненных в эстетике японской гравюры (Укиё-э). При отборе я ориентировалась на визуальную цельность материала: мне были важны изображения с чёткой линией, уплощённой композицией, декоративным распределением цветовых пятен и хорошо читаемыми силуэтами. В датасет вошли сцены с городским и природным пейзажем, фигурами людей и архитектурой, потому что именно такие мотивы помогали модели уловить не только внешний облик стиля, но и его композиционную логику. Все изображения я привела к квадратному формату 1:1, чтобы сделать набор данных единообразным и более удобным для обучения. Для проекта я использовала только изображения из открытого доступа The Met с пометкой Open Access, которые музей разрешает свободно использовать и перерабатывать.

Результирующая серия изображений

Промпты для серии из 8 изображений:

«a rainy intersection in a modern city, in the style of UKIYOETOK» — Дождливый городской перекрёсток с мокрым асфальтом, отражениями света и ритмичной композицией, переданной в стилистике японской гравюры.

«people crossing a rainy street at dusk, in the style of UKIYOETOK» — Сцена с прохожими, переходящими улицу в сумерках, где движение людей, зонты и городская среда превращаются в декоративный графический мотив.

«a night city street with umbrellas and wet pavement reflections, in the style of UKIYOETOK» — Ночная улица с зонтами, огнями витрин и бликами на влажной дороге, в которой современный городской сюжет приобретает более созерцательный и стилизованный характер.

«a tram moving through a rainy urban street, in the style of UKIYOETOK» — Городской трамвай, движущийся по дождливой улице, где линии транспорта, рельсов и архитектуры складываются в цельную плоскостную композицию.

«a woman standing under an umbrella near a traffic light in the rain, in the style of UKIYOETOK» — Фигура женщины под зонтом у светофора, в которой одиночный городской эпизод превращается в камерную и атмосферную сцену.

«a crowded crosswalk in the rain with glowing shop windows, in the style of UKIYOETOK» — Многолюдный переход под дождём с подсвеченными витринами, где плотность фигур и световые акценты создают ощущение городского ритма и движения.

«a bus stop on a rainy evening in a modern city, in the style of UKIYOETOK» — Остановка общественного транспорта дождливым вечером, переданная как спокойный урбанистический сюжет с акцентом на ожидание, отражения и влажную среду.

«pedestrians walking along a wet boulevard after the rain, in the style of UKIYOETOK» — Прохожие на мокром бульваре после дождя, где улица, фигуры и оставшиеся следы непогоды соединяются в единую декоративную сцену.

Исходный размер 4049x2101

Исходный размер 4049x1523

Итоговая серия представляет собой набор современных городских сцен, сгенерированных после дообучения Stable Diffusion XL с помощью DreamBooth и LoRA на моём датасете. В серию вошли изображения, объединённые одной атмосферой: дождливый перекрёсток в современном городе, люди, переходящие улицу в сумерках, ночная улица с отражениями в мокром асфальте, трамвай на городской дороге под дождём, женщина с зонтом у светофора, многолюдный переход с подсвеченными витринами, автобусная остановка дождливым вечером и прохожие на влажном бульваре после дождя.

Исходный размер 4049x2101

Исходный размер 4049x1523

В итоговой серии было важно показать не просто стилизованные картинки, а результат переноса художественного языка одного визуального мира в другой. В сгенерированных работах заметно, что нейросеть усвоила несколько ключевых признаков исходного стиля. Прежде всего это касается композиции: пространство стало менее фотографичным и более плоскостным, глубина сократилась, а сцена строится через ритм силуэтов, линий и крупных цветовых пятен. Хорошо считывается и роль контура: формы стали более обобщёнными, фигуры и архитектурные элементы отделяются друг от друга не столько объёмом, сколько графической линией. Также в серии заметна декоративность фона — он не просто дополняет сцену, а становится частью общего орнаментального и композиционного решения. Благодаря этому даже современные детали, такие как светофоры, витрины, трамвайные линии, зонты и дорожная разметка, воспринимаются не как случайные бытовые элементы, а как части цельного художественного ритма. При этом изображения внутри серии различаются по степени стилизации, и именно это делает результат интересным для анализа. В одних генерациях сильнее проявляется графичность и декоративность, в других базовая модель Stable Diffusion заметнее сохраняет объёмность, мягкие световые переходы или более современную трактовку лиц и одежды

Исходный размер 4049x2101

Исходный размер 4049x1523

Визуально серия держится на повторяющихся мотивах дождя, движения, отражений и городской среды и одиночества в толпе, но при этом каждая сцена отличается по композиции, плотности фигур, характеру освещения и распределению акцентов. В работе над результатом не использовались дополнительные методы сложной постобработки: основной эффект был достигнут именно за счёт дообучения модели на собственном датасете и генерации по серии тематически связанных промптов. В некоторых случаях нейросеть смешивала элементы исторической стилизации с более современной логикой изображения, но я рассматриваю это не только как ограничение, а и как часть самого исследования. В целом итоговая серия соответствует моей первоначальной идее: современный город действительно начинает выглядеть как пространство, переведённое на язык японской гравюры, а привычные сцены повседневности превращаются в более медитативные и художественно организованные образы.

Исходный размер 4049x2101

Исходный размер 4049x1523

Процесс обучения

Сначала я настроила рабочую среду в Google Colab и проверила, доступен ли ускоритель для запуска модели. После этого были установлены все необходимые библиотеки, которые нужны для работы с Stable Diffusion XL, обучения LoRA и последующей генерации изображений. Затем я собрала и загрузила в ноутбук собственный датасет из 17 изображений, объединённых эстетикой японской гравюры. Все изображения были заранее приведены к квадратному формату и сохранены в отдельной папке, чтобы использовать их как единый набор для дообучения модели.

После загрузки изображений для каждого файла были подготовлены текстовые подписи, чтобы связать визуальный материал с языковым описанием.

Обучаем модель с инструментом LoRa.

Подгружаем модель на huggingfacehub, там она доступна для использования и генерации новых изображений.

Использование ГенИИ

Stable Diffusion XL 1.0 — основная модель, на базе которой строилась вся визуальная часть проекта. Именно она использовалась как исходная архитектура для последующего дообучения на моём датасете и генерации финальной серии изображений.

BLIP (Bootstrapping Language-Image Pre-training) — модель автоматического описания изображений, которую я использовала для создания caption’ ов к обучающим примерам. Это помогло связать визуальный материал с текстовыми описаниями и сделать процесс обучения более структурированным.

DreamBooth + LoRA — не отдельная генеративная модель, а способ адаптации базовой модели под конкретную задачу. Этот подход я использовала для того, чтобы настроить Stable Diffusion XL под выбранный мной художественный стиль на основе небольшого набора изображений.

Ноутбук с кодом для обучения