Original size 2480x3500

Обучение нейросети генерации лесных фотографий

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

От бальзамических запахов лесных цветов, трав, хвои и коры исчезает усталость. Великая сила жизни видна во всем: в колебании вершин, в пересвисте птиц, в мягком освещении.

— Константин Георгиевич Паустовский

Цель данного проекта — обучение генеративной нейросети Stable Diffusion (архитектура SDXL) созданию аутентичных изображений, передающих многогранную эстетику лесного пространства. Лес в данном контексте выступает не просто как набор объектов (деревьев или кустов), а как сложная визуальная и текстурная система. В отличие от абстрактного понятия «лес», сфокусированном на общем плане, в рамках проекта ставилась задача научить нейросеть работать с камерными, детализированными состояниями природы: фактурой мха, структурой старой древесины (пни, бревна), взаимодействием леса с другими природными элементами — горами, водоемами.

Пример фотографий из датасета

big
Original size 3640x3640

Пример фотографии из датасета

Ключевая задача заключалась не в простом копировании природных форм, а в усвоении характерной цветовой палитры и композиционных приемов. Итоговая модель должна была научиться не воспроизводить конкретные фотографии из датасета, а генерировать новые, ранее не существовавшие лесные сцены, сохраняя при этом узнаваемую эстетику и высокое качество детализации, характерное для выборки.

Можем наблюдать разные композиции

Фотографии были скачаны с сайта Pexels, их лицензия позволяет использовать фото практически в любых целях.

Визуальный анализ итоговой серии изображений

Результаты нескольких генераций

В результате обучения была получена модель, демонстрирующая высокую степень усвоения концепции проекта. Сгенерированные изображения можно разделить на несколько смысловых и визуальных групп, что говорит о глубине обработки датасета нейросетью.

Пример результатов

  1. Фокус на деталях и текстурах: В серии присутствуют изображения, где объектом внимания становится моховое бревно или фактура коры. Эти работы отличаются высоким уровнем реализма в передаче материалов — мягкость мха, неровности древесины. Это свидетельствует о том, что модель усвоила не только общие очертания леса, но и микроструктуры, которые были обильно представлены в датасете.

  2. Ландшафтное разнообразие: В отличие от простых генераторов, выдающих однотипный «зеленый массив», обученная модель вариативно подходит к композиции. Это подтверждает, что модель успешно экстраполировала связи между объектами, увиденными в датасете (лес+горы, лес+вода).

  3. Цветовая палитра и стилистические аномалии: Основной массив сгенерированных изображений соответствует заявленной цветовой гамме — доминируют глубокие зеленые и приглушенные желто-зеленые тона, характерные для средней полосы.

Пример генераций с артефактами

В процессе экспериментов были замечены интересные артефакты: часть изображений получила несвойственные исходному датасету цветовые фильтры — ярко-розовые, фиолетовые и насыщенные зеленые оттенки.

Наличие цветных фильтров можно объяснить спецификой обучающей выборки. В датасете присутствовали черно-белые изображения, которые, вероятно, были восприняты нейросетью не как стилистическое решение, а как сигнал к снижению цветовой привязки. В результате, стремясь к генерации «нестандартного» (не зеленого) леса, модель начала иногда накладывать яркие монохромные фильтры, пытаясь имитировать черно-белую графику, но ошибаясь в выборе цветового канала.

Но даже такие артефакты не разрушили концепцию, а добавили экспрессивности, показав, что нейросеть научилась «фантазировать» за пределами строгих границ датасета.

Пример черно-белых фотографий из датасета, которые скорее всего послужили причиной артефактов

Технические детали генерации и обработка данных

Original size 1645x337

Промпты

Для реализации проекта использовался ноутбук SDXL_DreamBooth_LoRA_Colab.ipynb, предоставленный в ссылках курса, а также модель SDXL (Stable Diffusion  XL).

Original size 1104x773

Проект был начат в среде для программирования Google Colab. Были установлены и настроены библиотеки diffusers, accelerate, peft, bitsandbytes. Обязательным этапом стала проверка наличия GPU (графического процессора), что позволило ускорить процесс обучения в десятки раз по сравнению с CPU. В Google Colab эту функцию выполняет бесплатный GPU T4.

Original size 1170x422
Original size 1066x837

Применялась техника LoRA в связке с DreamBooth. Это позволило дообучить большую базовую модель SDXL  на относительно небольшом датасете (91  изображение) без риска переобучения или «забывания» моделью базовых знаний о том, что такое дерево или вода в целом. LoRA выступила в роли «тонкой настройки», зафиксировавшей уникальный стиль и характерные элементы именно моего датасета.

Использование генеративных нейросетей в проекте

В рамках данного исследования генеративные нейросети использовались как основной инструмент, так и как вспомогательные средства для организации работы.

  1. Stable Diffusion  XL (SDXL) — основной генеративный художник.
  2. Deepseek  — ассистент для сопроводительной работы. Он мне помог в создании промптов для тестирования обученной модели, в уточнении и проверке фрагментов кода в ноутбуке, а также в редактировании и коррекции текста исследования, устранения стилистических ошибок.
Обучение нейросети генерации лесных фотографий
Project created at 23.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more