Original size 1140x1600

Обучение нейросети

PROTECT STATUS: not protected
The project is taking part in the competition

Идея проекта

В данном проекте я дообучаю нейросетевую модель Stable Diffusion XL для воспроизведения авторского визуального стиля, исследующего эстетику постиндустриального одиночества. В основе проекта лежит концепция взаимодействия человека с индустриальным, заброшенным пространством, где тело перестает быть функциональным и становится частью ландшафта и формой, созвучной рельсам, бетону и заброшенным конструкциям. Проект демонстрирует, как современные алгоритмы способны масштабировать узкий авторский стиль на новые, ранее не существовавшие сюжеты, сохраняя атмосферу сталкерского таинства, холодную палитру и специфическую геометрию поз.

Исходные изображения

В качестве исходных изображений я использовала фотографии, подогнанные под формат 1:1, сделанные и отредактированные мной, в которых лучше всего отражено мое видение.

Результат

Итоговая серия работ подтверждает успешную передачу стилевого ядра авторского датасета. Нейросеть точно воспроизвела ключевые характеристики стиля: низкий ключ (low-key lighting), холодную пограничную палитру и специфическую андрогинную пластику героев. Удалось сохранить консистентность визуального языка: даже при смене локаций (от нью-йоркского метро до заброшенного баскетбольного поля) прослеживается характерная ломкость силуэтов и ощущение пустоты пространства.

Визуальный анализ показывает, что модель корректно интерпретировала взаимодействие фигур с промышленной средой. Персонажи не выглядят инородными объектами, а интегрируются в текстуру окружения. В генерациях достигнут баланс между реализмом и мистическим напряжением, что полностью соответствует первоначальной идее проекта о теле как части постиндустриального ландшафта.

Были использованы такие промты как: «Young fashionable people standing in the New York subway, dark atmosphere» «A fashionable girl and a boy at a bus station in an English town, 2000s aesthetic» «Wide shot of a girl band performing music on a roof, urban setting» «A stylish photo of a fashionable girl lying near the railroad tracks, cinematic» «Five children playing basketball on an abandoned court in a deserted area, wide shot» и т. д.

Original size 1024x1024

Обучение модели

Для обучения использовалась архитектура Stable Diffusion XL, дообученная методом LoRA (Low-Rank Adaptation) с использованием техники DreamBooth. Обучение проходило в среде Google Colab.

Процесс

  1. Подготовка датасета: 10 авторских фотографий (1:1), очищенных от лишних метаданных.

  2. Создание текстовых описаний для каждого изображения с использованием модели BLIP.

  3. Оптимизация: для работы в условиях ограниченной памяти (бесплатный тариф Colab) применялись методы gradient checkpointing, смешанная точность (fp16) и оптимизатор 8-bit Adam.

  4. Параметры: модель прошла 1500 шагов обучения (steps), что позволило закрепить визуальные особенности стиля без переобучения базовой модели.

Original size 1610x160

Подготовка среды: Установка зависимостей

Original size 1820x1348

Загрузка изображений

Original size 2504x1098

Обучение

Original size 2050x1452

Генерация

Описание применения генеративной модели

В данном проекте искусственный интеллект применялся на нескольких этапах:

  1. Модель Stable Diffusion XL (SDXL) — основная генеративная модель для создания изображений.

  2. Модель BLIP — для автоматической генерации текстовых описаний к исходному датасету.

  3. Модель Gemini — использовалась в качестве ассистента для написания/отладки кода на Python.

Обучение нейросети
Project created at 23.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more