Original size 2480x3500

Нейросети и Бублик

PROTECT STATUS: not protected
The project is taking part in the competition

Идея проекта

Original size 3500x2108

Д. Грибкова, «Бублик в дикой природе», акрил, 2025 // фотографии Бублика, включённые в датасет

Всё детство я мечтала о коте, но по разным причинам моя семья не могла завести питомца. Однако этому желанию было суждено сбыться, и вот уже почти 5 лет я живу бок о бок с лучшим котом на свете — Бубликом! Он является важной частью моей жизни и часто вдохновляет, поэтому мной было принято решение сделать его ключевой фигурой проекта по обучению генеративной нейросети.

Так, мой проект — это исследование возможностей генеративной нейросети в области воссоздания черт конкретного животного в разных сюжетах.

Original size 3500x1206

Фотографии Бублика, включённые в датасет

Процесс обучения

Путь к созданию желаемого стиля (в моём случае, запоминания нейросетью внешности Бублика) можно разделить на большие блоки:

  1. Формирование и подготовка набора изображений;
  2. Создание текстового датасета (подписей) на основе визуальной базы;
  3. Непосредственное обучение с использованием заранее настроенных библиотек;
  4. Генерация результатов нейросетью на основе усвоенных инструкций.

В рамках проекта использовались следующие программные решения:

  1. Stable Diffusion (обучение генеративной модели);
  2. Google Colab (среда выполнения);
  3. Hugging Face (получение токена и последующая загрузка обученной модели);
  4. ChatGPT (создание сложных фрагментов кода, проверка и консультации, помощь с промптом для генерации финальных изображений);
  5. Adobe Photoshop (минимальная постобработка результатов, коллажирование, графическая обработка скриншотов кода);
  6. Picsart (улучшение качества изображения для обложки).

(1). Формирование и подготовка набора изображений

Датасет состоит из 46 фотографий Бублика или фрагментов его тела. Все изображения были взяты из моей фотогалерии и отформатированы до пропорций идеального квадрата вручную для уверенности в том, что будут сохранены самые важные части (однако изменение разрешения до 512×512 было произведено именно при помощи кода).

0

Подготовка среды обучения, датасета, генерация метаданных для LoRA, превью датасета

(2). Создание текстового датасета (подписей) на основе визуальной базы (3). Непосредственное обучение с использованием заранее настроенных библиотек

На данном этапе используется модель BLIP, которая автоматически генерирует текстовые описания для каждого изображения. Затем к этим описаниям добавляется общий стилевой компонент. Полученные данные сохраняются в файл metadata.jsonl, благодаря чему каждому изображению соответствует собственный обучающий промпт.

0

Генерация подписей, загрузка BLIP-модели, собрание промптов описания в JSONL-файл

После генерации подписей модель BLIP выгружается из GPU-памяти, чтобы освободить VRAM для последующего обучения LoRA.

Команда «accelerate config default» формирует стандартную конфигурацию библиотеки Accelerate, которая отвечает за организацию процесса обучения. Авторизация в Hugging Face необходима для работы во внешней среде: она позволяет загружать модель и публиковать её в собственном репозитории, обеспечивая доступ к ней другим пользователям.


После завершения обучения я убедилась, что все веса LoRA корректно сохранились, и создала репозиторий на Hugging Face. Туда добавилась model card с описанием процесса обучения. Затем я загрузила все файлы модели (за исключением временных чекпоинтов) и получила ссылку на готовый репозиторий.

На следующем этапе я подключила VAE для корректного декодирования изображений и интегрировала обученную LoRA в пайплайн Stable Diffusion XL, подготовив систему к тестовой генерации.

0

Непосредственное обучение генеративной нейросети

Теперь нейросеть знает, как выглядит Бублик, и готова создавать изображения с ним в качестве главного героя!

(4). Генерация результатов нейросетью на основе усвоенных инструкций

Original size 3500x1221

Бублик в библиотеке и на улице в разные сезоны

Промпты охватывают несколько тематических направлений. В первую очередь были созданы сцены, связанные с известными городами мира, где Бублик изображается в различных локациях — от оживлённых улиц мегаполисов до исторических достопримечательностей. Также были разработаны сюжеты с сельскими пейзажами: полями, садами и деревенской атмосферой, что позволило протестировать генерацию более спокойных и природных сцен.

Original size 3500x1221

Бублик в Париже, Риме и Нью-Йорке

Original size 3500x1898

Бублик в сельской местности

Отдельное внимание было уделено креативным и нестандартным сценариям, включая фантастические и сюрреалистические сцены, где Бублик взаимодействует с необычными объектами и окружением. Кроме того, были созданы промпты, вдохновлённые известными произведениями искусства, что позволило объединить стилистику классической живописи с особенностями обученной модели.

Таким образом, разнообразие тем позволило комплексно оценить возможности генеративной модели: от реалистичных сцен до художественных и экспериментальных изображений.

Original size 3500x1221

Бублик и фантастика

0

Бублик на картинах известных художников

Original size 3500x1221

Бублик на картинах известных художников

Заключение

В результате проведённых экспериментов можно сделать вывод, что модель в целом успешно справляется с задачей генерации изображений с Бубликом.

В частности, нейросеть хорошо понимает общее строение кота: в большинстве случаев изображения получаются с корректной анатомией, соблюдением пропорций и минимальным количеством артефактов. Это свидетельствует о том, что обучение модели прошло эффективно на уровне общей формы и структуры объекта.

Однако при этом была выявлена важная проблема: мордочка Бублика в сгенерированных изображениях практически не получается узнаваемой. Несмотря на сохранение общей «кошачьей» формы, индивидуальные особенности внешности теряются, что указывает на недостаточную точность передачи уникальных признаков. Вероятно, с увеличением датасета степень неточностей была бы ниже.

Также в ходе работы было замечено, что нейросеть стабильно генерирует кота при использовании в промптах фразы «cute cat». По этой причине я использовала данную формулировку во всех запросах, что позволило добиться более предсказуемых и стабильных результатов генерации.

Таким образом, модель демонстрирует хорошие результаты в генерации изображений с корректной анатомией и композицией, однако требует доработки для более точной передачи индивидуальных черт конкретного объекта.

Original size 3500x1898

Удачная передача фрагментов тела и шёрстки

Нейросети и Бублик
Project created at 24.03.2026
Loading...
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more