Original size 1140x1600

Обучение нейросети стилю укиё-э

PROTECT STATUS: not protected
The project is taking part in the competition

Описание

В этом проекте я исследовала, как генеративная нейросеть может адаптировать исторический художественный стиль для изображения современной городской среды. В качестве визуальной основы я выбрала эстетику японской гравюры укиё-э, потому что этот стиль обладает очень узнаваемыми признаками: плоскостной композицией, выразительной контурной линией, декоративной работой с цветом и особым отношением к пространству. Мне было важно проверить, сможет ли модель после дообучения не просто воспроизводить отдельные визуальные элементы исходных изображений, а переносить сам художественный принцип на новые сюжеты, которых не было в датасете. Так появилась идея серии, в которой современный город — перекрёстки, мокрые улицы, зонты, транспорт, одиночество прохожих — переосмысляется через язык традиционной японской графики и превращается из бытовой сцены в более созерцательный и ритмичный визуальный образ.

Исходные изображения

Original size 4049x1151

Для обучения я собрала датасет из 17  изображений, выполненных в эстетике японской гравюры (Укиё-э). При отборе я ориентировалась на визуальную цельность материала: мне были важны изображения с чёткой линией, уплощённой композицией, декоративным распределением цветовых пятен и хорошо читаемыми силуэтами. В датасет вошли сцены с городским и природным пейзажем, фигурами людей и архитектурой, потому что именно такие мотивы помогали модели уловить не только внешний облик стиля, но и его композиционную логику. Все изображения я привела к квадратному формату 1:1, чтобы сделать набор данных единообразным и более удобным для обучения. Для проекта я использовала только изображения из открытого доступа The Met с пометкой Open Access, которые музей разрешает свободно использовать и перерабатывать.

Результирующая серия изображений

Промпты для серии из 8 изображений:

«a rainy intersection in a modern city, in the style of UKIYOETOK» — Дождливый городской перекрёсток с мокрым асфальтом, отражениями света и ритмичной композицией, переданной в стилистике японской гравюры.

«people crossing a rainy street at dusk, in the style of UKIYOETOK» — Сцена с прохожими, переходящими улицу в сумерках, где движение людей, зонты и городская среда превращаются в декоративный графический мотив.

«a night city street with umbrellas and wet pavement reflections, in the style of UKIYOETOK» — Ночная улица с зонтами, огнями витрин и бликами на влажной дороге, в которой современный городской сюжет приобретает более созерцательный и стилизованный характер.

«a tram moving through a rainy urban street, in the style of UKIYOETOK» — Городской трамвай, движущийся по дождливой улице, где линии транспорта, рельсов и архитектуры складываются в цельную плоскостную композицию.

«a woman standing under an umbrella near a traffic light in the rain, in the style of UKIYOETOK» — Фигура женщины под зонтом у светофора, в которой одиночный городской эпизод превращается в камерную и атмосферную сцену.

«a crowded crosswalk in the rain with glowing shop windows, in the style of UKIYOETOK» — Многолюдный переход под дождём с подсвеченными витринами, где плотность фигур и световые акценты создают ощущение городского ритма и движения.

«a bus stop on a rainy evening in a modern city, in the style of UKIYOETOK» — Остановка общественного транспорта дождливым вечером, переданная как спокойный урбанистический сюжет с акцентом на ожидание, отражения и влажную среду.

«pedestrians walking along a wet boulevard after the rain, in the style of UKIYOETOK» — Прохожие на мокром бульваре после дождя, где улица, фигуры и оставшиеся следы непогоды соединяются в единую декоративную сцену.

Original size 4049x2101
Original size 4049x1523

Итоговая серия представляет собой набор современных городских сцен, сгенерированных после дообучения Stable Diffusion XL  с помощью DreamBooth и LoRA на моём датасете. В серию вошли изображения, объединённые одной атмосферой: дождливый перекрёсток в современном городе, люди, переходящие улицу в сумерках, ночная улица с отражениями в мокром асфальте, трамвай на городской дороге под дождём, женщина с зонтом у светофора, многолюдный переход с подсвеченными витринами, автобусная остановка дождливым вечером и прохожие на влажном бульваре после дождя.

Original size 4049x2101
Original size 4049x1523

В итоговой серии было важно показать не просто стилизованные картинки, а результат переноса художественного языка одного визуального мира в другой. В сгенерированных работах заметно, что нейросеть усвоила несколько ключевых признаков исходного стиля. Прежде всего это касается композиции: пространство стало менее фотографичным и более плоскостным, глубина сократилась, а сцена строится через ритм силуэтов, линий и крупных цветовых пятен. Хорошо считывается и роль контура: формы стали более обобщёнными, фигуры и архитектурные элементы отделяются друг от друга не столько объёмом, сколько графической линией. Также в серии заметна декоративность фона — он не просто дополняет сцену, а становится частью общего орнаментального и композиционного решения. Благодаря этому даже современные детали, такие как светофоры, витрины, трамвайные линии, зонты и дорожная разметка, воспринимаются не как случайные бытовые элементы, а как части цельного художественного ритма. При этом изображения внутри серии различаются по степени стилизации, и именно это делает результат интересным для анализа. В одних генерациях сильнее проявляется графичность и декоративность, в других базовая модель Stable Diffusion заметнее сохраняет объёмность, мягкие световые переходы или более современную трактовку лиц и одежды

Original size 4049x2101
Original size 4049x1523

Визуально серия держится на повторяющихся мотивах дождя, движения, отражений и городской среды и одиночества в толпе, но при этом каждая сцена отличается по композиции, плотности фигур, характеру освещения и распределению акцентов. В работе над результатом не использовались дополнительные методы сложной постобработки: основной эффект был достигнут именно за счёт дообучения модели на собственном датасете и генерации по серии тематически связанных промптов. В некоторых случаях нейросеть смешивала элементы исторической стилизации с более современной логикой изображения, но я рассматриваю это не только как ограничение, а и как часть самого исследования. В целом итоговая серия соответствует моей первоначальной идее: современный город действительно начинает выглядеть как пространство, переведённое на язык японской гравюры, а привычные сцены повседневности превращаются в более медитативные и художественно организованные образы.

Original size 4049x2101
Original size 4049x1523

Процесс обучения

Сначала я настроила рабочую среду в Google Colab и проверила, доступен ли ускоритель для запуска модели. После этого были установлены все необходимые библиотеки, которые нужны для работы с Stable Diffusion XL, обучения LoRA и последующей генерации изображений. Затем я собрала и загрузила в ноутбук собственный датасет из 17 изображений, объединённых эстетикой японской гравюры. Все изображения были заранее приведены к квадратному формату и сохранены в отдельной папке, чтобы использовать их как единый набор для дообучения модели.

0

После загрузки изображений для каждого файла были подготовлены текстовые подписи, чтобы связать визуальный материал с языковым описанием.

0

Обучаем модель с инструментом LoRa.

0

Подгружаем модель на huggingfacehub, там она доступна для использования и генерации новых изображений.

0

Использование ГенИИ

Stable Diffusion XL  1.0  — основная модель, на базе которой строилась вся визуальная часть проекта. Именно она использовалась как исходная архитектура для последующего дообучения на моём датасете и генерации финальной серии изображений.

BLIP (Bootstrapping Language-Image Pre-training) — модель автоматического описания изображений, которую я использовала для создания caption’ ов к обучающим примерам. Это помогло связать визуальный материал с текстовыми описаниями и сделать процесс обучения более структурированным.

DreamBooth + LoRA  — не отдельная генеративная модель, а способ адаптации базовой модели под конкретную задачу. Этот подход я использовала для того, чтобы настроить Stable Diffusion XL  под выбранный мной художественный стиль на основе небольшого набора изображений.

Обучение нейросети стилю укиё-э
Project created at 23.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more