Обучение генеративной нейросети на машинах на Dafes

ИДЕЯ ПРОЕКТА

Идея проекта заключается в исследовании возможностей генеративных моделей для создания изображений автомобилей в премиальной и спортивной стилистике. Основной концепт — работа с единым визуальным языком автомобильного дизайна, включающим агрессивные формы, чёткую геометрию и характерные элементы современных спорткаров.

В качестве исходных данных был использован набор изображений (датасет), включающий фотографии автомобилей премиального сегмента: с акцентом на тёмные цветовые решения, глянцевые поверхности, контрастные детали и выразительный дизайн кузова.

Все изображения были предварительно обработаны: — приведены к единому формату 1:1 — очищены от лишнего визуального шума — отобраны по принципу визуального сходства (единый стиль, ракурсы, освещение)

Данный датасет позволил задать модели чёткое представление о целевом визуальном стиле генерации и ключевых признаках автомобильной эстетики.

РЕФЕРЕНСЫ

ИТОГОВЫЕ ИЗОБРАЖЕНИЯ

В целом полученные изображения соответствуют изначальной идее проекта: нейросеть смогла передать общий стиль автомобильного дизайна и сохранить узнаваемые элементы формы.

Особенно хорошо читаются: — общий силуэт автомобилей — акцент на передней части (фары, решётка) — спортивные, немного агрессивные пропорции — контрастные и чистые цветовые решения

При этом видно, что модель не просто копирует исходные изображения, а комбинирует их. В результате появляются новые варианты автомобилей, которые выглядят реалистично, но при этом не существуют в реальности.

Также можно заметить: — упрощение некоторых мелких деталей — смешение элементов разных моделей — небольшую гиперболизацию форм (делает их более выразительными)

Таким образом, можно сказать, что нейросеть хорошо уловила общий визуальный стиль и смогла его воспроизвести, но работает больше на уровне обобщения, чем точной детализации

ПРОЦЕСС ОБУЧЕНИЯ

Обучение модели проводилось в среде Google Colab и включало несколько последовательных этапов.

На первом этапе загружался подготовленный датасет, где все изображения были предварительно приведены к единому формату и размеру. Далее для изображений автоматически генерировались текстовые описания с использованием модели BLIP.

После этого выполнялось обучение модели с применением метода LoRA на базе архитектуры SDXL, а также последующая генерация изображений, соответствующих заданному стилю.

Обучение осуществлялось с использованием графического процессора (GPU), что позволило значительно ускорить вычисления.

В процессе работы были выявлены ограничения, связанные с вычислительными ресурсами: модель периодически прерывала обучение из-за перегрузки. В связи с этим проводилась оптимизация кода и параметров обучения, включая снижение вычислительной нагрузки, что позволило обеспечить более стабильный процесс работы модели

Ссылка на код и референсные изображения

Описание применения генеративной модели

Для оптимизации и уточнения финальных текстовых промптов использовался ChatGPT