Визуальный язык Хокусая в генеративной нейросети на Dafes

Концепция

В данном проекте проводится обучение генеративной нейросети Stable Diffusion XL с использованием метода DreamBooth LoRA на основе не популярных изображений японского художника Кацусики Хокусая.

Цель проекта — проверить, насколько модель способна воспроизводить характерные особенности художественного языка Хокусая: выразительную линию, плоскостность композиции, декоративность, природные мотивы, графичность волн, облаков и горных форм.

Пионы и воробей

Воздушный Колокольчик и Стрекоза

Примеры исходных изображений

Модель была обучена на датасете, включающем произведения художника в жанре японской гравюры укиё-э, что позволило передать характерные черты его художественного языка: выразительную линию, плоскостную композицию, ограниченную цветовую палитру и типичные мотивы, такие как морские волны, горные пейзажи, птицы и природные сцены.

Далее представлена серия изображений, полученных в результате обучения генеративной нейросети

Промпты: «hokusai style great ocean wave at sunset, dramatic sky, japanese ukiyo-e woodblock print», «hokusai style mountain landscape with clouds and wind, japanese ukiyo-e woodblock print»

Промпты: «hokusai style river and bridge, blue palette, japanese ukiyo-e woodblock print», «hokusai style storm over the sea, dynamic wave forms, japanese ukiyo-e woodblock print»

Промпты: «hokusai style storm over the sea, dynamic wave forms, japanese ukiyo-e woodblock print», «hokusai style fishing boats near coast, japanese woodblock print», «hokusai style village ne

Промпты: «hokusai style birds over water and clouds, japanese woodblock print», «hokusai style moonlit sea, elegant linework, japanese ukiyo-e print»

В результате обучения модель смогла перенять ряд характерных признаков художественного языка Хокусая.

В сгенерированных изображениях заметны: декоративная плоскостность композиции; выразительная контурная линия; ритмичная организация волн, облаков и горных форм; ограниченная, но узнаваемая цветовая палитра; характерная для японской гравюры графичность.

Процесс обучения нейросети

Для обучения модели был собран датасет из 20 изображений, кадрированных в формате 1:1

Исходный размер 1266x604

Фрагмент кода

После загрузки датасета был выполнен этап настройки параметров обучения, включающий выбор конфигурации модели, оптимизацию гиперпараметров и подготовку вычислительной среды. Далее был запущен процесс обучения нейросети, в ходе которого модель последовательно анализировала изображения из датасета и адаптировала свои внутренние параметры

Исходный размер 1266x593

Фрагмент кода

После этого была загружена обученная модель, с её помощью была сгенерирована итоговая серия изображений

Исходный размер 1266x889

Фрагмент кода

Вывод

Итоговая серия изображений демонстрирует вариативность внутри одной стилистической системы. В разных генерациях меняются композиционные центры, природные элементы и пространственная организация, но сохраняется единый визуальный язык. Особенно хорошо модель передаёт движение воды, волнообразные формы, облака и пейзажные мотивы.

Это показывает, что LoRA-обучение может использоваться как инструмент исследования художественного языка и генерации новых визуальных вариаций на его основе.

Ссылка на блокнот

Описание применения генеративной модели

В проекте использовался ChatGPT — для помощи в корректировке кода, структурировании ноутбука