Обучение нейросети на Dafes

Идея проекта

В данном проекте я дообучаю нейросетевую модель Stable Diffusion XL для воспроизведения авторского визуального стиля, исследующего эстетику постиндустриального одиночества. В основе проекта лежит концепция взаимодействия человека с индустриальным, заброшенным пространством, где тело перестает быть функциональным и становится частью ландшафта и формой, созвучной рельсам, бетону и заброшенным конструкциям. Проект демонстрирует, как современные алгоритмы способны масштабировать узкий авторский стиль на новые, ранее не существовавшие сюжеты, сохраняя атмосферу сталкерского таинства, холодную палитру и специфическую геометрию поз.

Исходные изображения

В качестве исходных изображений я использовала фотографии, подогнанные под формат 1:1, сделанные и отредактированные мной, в которых лучше всего отражено мое видение.

Результат

Итоговая серия работ подтверждает успешную передачу стилевого ядра авторского датасета. Нейросеть точно воспроизвела ключевые характеристики стиля: низкий ключ (low-key lighting), холодную пограничную палитру и специфическую андрогинную пластику героев. Удалось сохранить консистентность визуального языка: даже при смене локаций (от нью-йоркского метро до заброшенного баскетбольного поля) прослеживается характерная ломкость силуэтов и ощущение пустоты пространства.

Визуальный анализ показывает, что модель корректно интерпретировала взаимодействие фигур с промышленной средой. Персонажи не выглядят инородными объектами, а интегрируются в текстуру окружения. В генерациях достигнут баланс между реализмом и мистическим напряжением, что полностью соответствует первоначальной идее проекта о теле как части постиндустриального ландшафта.

Были использованы такие промты как: «Young fashionable people standing in the New York subway, dark atmosphere» «A fashionable girl and a boy at a bus station in an English town, 2000s aesthetic» «Wide shot of a girl band performing music on a roof, urban setting» «A stylish photo of a fashionable girl lying near the railroad tracks, cinematic» «Five children playing basketball on an abandoned court in a deserted area, wide shot» и т. д.

Исходный размер 1024x1024

Обучение модели

Для обучения использовалась архитектура Stable Diffusion XL, дообученная методом LoRA (Low-Rank Adaptation) с использованием техники DreamBooth. Обучение проходило в среде Google Colab.

Процесс

Подготовка датасета: 10 авторских фотографий (1:1), очищенных от лишних метаданных.
Создание текстовых описаний для каждого изображения с использованием модели BLIP.
Оптимизация: для работы в условиях ограниченной памяти (бесплатный тариф Colab) применялись методы gradient checkpointing, смешанная точность (fp16) и оптимизатор 8-bit Adam.
Параметры: модель прошла 1500 шагов обучения (steps), что позволило закрепить визуальные особенности стиля без переобучения базовой модели.

Исходный размер 1610x160

Подготовка среды: Установка зависимостей

Исходный размер 1820x1348

Загрузка изображений

Исходный размер 2504x1098

Обучение

Исходный размер 2050x1452

Генерация

Описание применения генеративной модели

В данном проекте искусственный интеллект применялся на нескольких этапах:

Модель Stable Diffusion XL (SDXL) — основная генеративная модель для создания изображений.
Модель BLIP — для автоматической генерации текстовых описаний к исходному датасету.
Модель Gemini — использовалась в качестве ассистента для написания/отладки кода на Python.

Ссылка на Google Colab

Датасет использованный для обучения