Original size 1140x1600

Африканская маска в разных контекстах: генерация образа с помощью Stable Di

PROTECT STATUS: not protected
The project is taking part in the competition

Идея проекта

В данном проекте исследуется, как генеративная нейросеть интерпретирует объект вне его исходного культурного и визуального контекста.

В качестве основы был выбран конкретный тип объекта — африканские ритуальные маски. Эти объекты обладают узнаваемой формой и исторически закреплённым значением, однако в рамках проекта они помещаются в несвойственные им среды.

46 изображений масок были найдены и загружены с сайта Wikimedia Commons. Все скаченные файлы распространяются по открытой лицензии и были собраны в единый датасет в облачном хранилище.

Работа с кодом

В результате работы над проектом был создан код, который берёт собранные мной заранее изображения африканских масок, самостоятельно подгоняет их под формат 1:1 и далее запускает процесс обучения модели

Полный код доступен к изучению по ссылке на диске

big
Original size 1038x1210
Original size 1288x650

Обучение проводилось в течение 1000 шагов с сохранением промежуточных чекпоинтов каждые 250 шагов, что позволяло отслеживать состояние модели на разных этапах обучения.

Original size 2722x604

Результаты генерации

После обучения модели была создана серия изображений, в которой африканские маски помещаются в различные визуальные контексты.

В отличие от классического подхода, где нейросеть генерирует вариации одного персонажа, в данном проекте исследуется поведение одного и того же типа объекта в разных средах.

Итоговая обученная модель есть на Hugging Face

Original size 2704x676

1. Prompt: «photo of afrmask african ritual mask as an ancient artifact in the desert at sunrise» 2. Prompt:"photo of afrmask african ritual mask in a misty forest, atmospheric fog»

Original size 1024x1024

Prompt: «photo of afrmask african ritual mask on a runway fashion show, spotlight, dark background, high contrast, ultra detailed»

1. Prompt: «photo of afrmask african ritual mask burning with subtle flames, dark background» 2. Prompt: «photo of afrmask african ritual mask in a frozen environment, ice textures, cold blue tones»

Original size 1024x1024

Prompt: «photo of afrmask african ritual mask in a neon cyberpunk alley, rain, reflections, night lighting, ultra detailed»

1. Prompt: «photo of afrmask african ritual mask as a sacred dream object, surreal atmosphere» 2. Prompt:"photo of afrmask african ritual mask in a museum of the future, minimal architecture, soft»

1. Prompt: «photo of afrmask african ritual mask inside a luxury jewelry showcase, gold reflections» 2. Prompt:"photo of afrmask african ritual mask in a volcanic environment, lava glow, smoke»

Анализ результатов

Итоговая серия изображений показывает африканские ритуальные маски в новых, несвойственных им контекстах: в футуристических интерьерах, тумане, студийной съёмке, цифровой среде и других пространствах. В исходном датасете маски существовали как музейные объекты, а в генерациях они начинают восприниматься как самостоятельные визуальные образы. Именно в этом и заключалась основная идея проекта: проверить, сохраняет ли объект свою идентичность при переносе в другой контекст.

Лучше всего нейросеть усвоила форму масок, симметрию, вытянутые пропорции лица, деревянную фактуру и общее ощущение резного предмета. Даже при смене окружения маски остаются узнаваемыми, что говорит о том, что модель запомнила не только внешний силуэт, но и характерные признаки объекта. При этом в разных изображениях меняются свет, атмосфера, композиция и настроение, за счёт чего серия выглядит вариативной.

Результаты в целом соответствуют первоначальной идее. Модель не просто повторяет музейные фотографии, а адаптирует образ маски под разные визуальные сценарии. В этом проекте важную роль сыграла подготовка датасета: изображения были приведены к квадратному формату 1:1, а также автоматически подписаны, чтобы модель лучше соотносила визуальный образ и текстовое описание. Дополнительные методы сложной постобработки не использовались: итог в основном строился на дообучении Stable Diffusion XL через DreamBooth и LoRA, а также на работе с промптами.

Изображения отличаются друг от друга прежде всего средой и подачей. В одних случаях маска выглядит как музейный артефакт будущего, в других — как модный объект или почти сюрреалистический образ. Иногда появляются небольшие артефакты или лишние декоративные детали, но в целом серия получилась цельной. Она показывает, что нейросеть может достаточно устойчиво переносить один и тот же тип объекта в разные контексты, сохраняя его узнаваемость.

Искусственный интеллект применялся для:

  • генерации изображений на основе обученной модели
  • автоматического создания описаний изображений (captioning)
  • тестирования вариативности визуального образа

Дополнительно генеративные инструменты могли использоваться для формулирования текстов проекта и разработки концепции.

Вывод

Данный проект показал, что генеративная нейросеть способна воспринимать объект как носителя визуальной идентичности и воспроизводить его в различных контекстах.

Маска, будучи предметом, в процессе генерации начинает восприниматься как персонаж, что позволяет рассматривать подобные технологии как инструмент для создания новых визуальных образов и концептов.

Использованные нейросети

ChatGPT (OpenAI) — редактирование промтов и помощь в подключении обученной модели в другой среде.
Stable Diffusion XL — генерация изображений и обучение генеративной модели.

Африканская маска в разных контекстах: генерация образа с помощью Stable Di
Project created at 24.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more