Укиё-э на стенах: обучение нейросети стилю Кацусики Хокусая on Dafes

Концепция

Original size 2480x1691

Работы Кацусики Хокусая

Кацусика Хокусай — японский художник эпохи Эдо, один из главных мастеров укиё-э. Его графика узнаваема мгновенно: чёткие контурные линии, плоские цветовые заливки, динамичные природные стихии. «Большая волна у Канагавы» стала одним из самых тиражируемых изображений в истории искусства.

Идея проекта — переосмыслить язык Хокусая через призму современной уличной культуры. Нейросеть обучалась на гравюрах художника, а генерация велась с промптами в духе стрит-арта и муралов: что если бы Хокусай расписывал стены?

Для обучения использовалась технология DreamBooth + LoRA на базе Stable Diffusion XL.

Original size 2480x666

Работы Кацусики Хокусая

Для обучения был собран датасет из 114 работ Хокусая — гравюры из серий «Тридцать шесть видов горы Фудзи», «Манга» и отдельные листы. Все изображения приведены к квадратному формату 1:1. Картины отбирались по принципу разнообразия: пейзажи, фигуры людей, морские сцены, изображения животных — чтобы нейросеть усвоила стиль в широком диапазоне, а не одну конкретную композицию.

Итоговые изображения

Original size 2480x1843

Генерация велась по двум направлениям. Вертикальные изображения создавались по запросам типа mural — они ближе к монументальной живописи. Квадратные — по запросам street art / graffiti, передающие энергию уличного искусства. Оба направления объединяет одно: визуальный язык Хокусая, перенесённый в городское пространство.

Original size 2480x2480

Original size 2480x1230

Original size 2480x1224

Original size 2480x2480

Оценка процесса

Original size 2480x2480

Нейросеть уверенно воспроизводит характерную для Хокусая графическую линию — чёткие контуры, деление пространства на цветовые плоскости, условность перспективы. В изображениях с водой заметна стилизация волн, близкая к «Большой волне у Канагавы». Цветовая палитра тяготеет к синим, бирюзовым и охристым тонам.

Original size 2480x1842

Original size 2480x816

Промпты с ключевыми словами street art, graffiti, mural направляли модель в сторону более объёмных, контрастных решений — ближе к тому, как выглядели бы работы Хокусая в реальном городском пространстве. Результаты варьируются от почти буквального перевода гравюры на стену до более свободных интерпретаций с граффити-текстурой.

Original size 2480x2480

Изображения заметно отличаются друг от друга: часть ближе к традиционной гравюре, часть — к цифровой иллюстрации.

Original size 2480x1229

Original size 2480x2480

Детальные многофигурные композиции теряют чёткость. Специфические элементы — иероглифы, печати художника — нейросеть не воспроизводит. Генерация изначально квадратная, поэтому вертикальные муральные форматы получались при дополнительной обработке с апскейлингом.

Original size 2480x1224

Original size 2480x2480

Original size 2480x1228

Ссылка на ноутбук с кодом

Первый шаг — убедиться, что GPU доступен и правильно работает командой.

Далее были установлены библиотеки, которые помогут обучить нейросеть (bitsandbytes, transformers, accelerate, peft — инструменты для работы с ИИ; diffusers — для генерации изображений; train_dreambooth_lora_sdxl.py, — обучение модели).

Далее картины Хокусая загружались в папку для изображений (doroga). Перед загрузкой все изображения были обрезаны до квадратного формата 1:1.

Original size 2480x596

Перед обучением датасет визуально проверяется — выводится сетка из первых пяти изображений. Это помогает убедиться, что все файлы загрузились корректно и формат единый.

Original size 2480x983

Каждое изображение датасета автоматически получает текстовую подпись с помощью модели BLIP, которая описывает содержимое картинки, а к описанию спереди добавляется кастомный префикс — «in the style of HOKUSAI».

После запускается процесс обучения DreamBooth с LoRA, используя предобученную модель stable-diffusion-xl-base-1.0. Задаются параметры: размер 512×512, скорость обучения, количество шагов — оно было увеличено по сравнению с базовыми настройками для лучшей передачи визуального языка Хокусая. Нейросеть обучается рисовать в стиле художника.

Original size 2480x949

В завершение загружается обученная модель, вводится описание изображения, например «in the style of HOKUSAI, street art mural, waves crashing on city wall», и нейросеть создаёт новую картинку.

Original size 2480x836

Описание применения генеративной модели

ChatGPT — решение технических проблем с кодом в процессе обучения, разработка промтов

Upscayl — улучшение качества и разрешения сгенерированных изображений.