Original size 751x1013

Shock Advertising: Обучение генеративной нейросети

PROTECT STATUS: not protected
The project is taking part in the competition

Идея проекта

Цель моего исследования — изучить потенциал генеративного искусственного интеллекта для обогащения визуального языка авторского короткометражного метра.

Для этого я обучила персонализированную версию нейросети Stable Diffusion на материале собственного короткометражного метра. Основная задача заключалась в создании новых изображений, продолжающих эстетику и концепцию кадров, но выводящих их в область сюрреализма и абсурда, невозможного в реальной съёмке.

Original size 3840x2160

Датасет для обучения

Я переживала, что мне не хватит бесплатного времени процессора GPU на обучение по сюрреалистичному датасету и решила разбить обучение на 2 этапа, чтобы посмотреть после 1-го этапа, что получится.

Первоначально я выбрала 10 ключевых кадров из отснятого материала, отражающих стилистику американского ретро-интерьера 60-х годов и влияние режиссёра Уэса Андерсона. На этих кадрах персонажи и предметы размещены по центру, а дизайн выполнен в ярких цветах и минималистичном стиле.

Затем обрезала все кадры в квадратный формат (1:1) и задала разрешение 2160×2160 пикселей, чтобы нейросети было проще работать с композицией.

Из этих изображений получился первоначальный датасет Shock Advertising для обучения нейросети Stable Diffusion.

Original size 5262x3720

Кадры для обучения

Обучение модели

Описание модели с hugging face:

These are shock_output_LoRA LoRA adaption weights for stabilityai/stable-diffusion-xl-base-1.0. The weights were trained using DreamBooth. LoRA for the text encoder was enabled: False. Special VAE used for training: madebyollin/sdxl-vae-fp16-fix.

Original size 1024x1024

prompt: «collage of SHOCKADVERT style, a retro dress»

Original size 1385x530

Код (промты)

В качестве trigger words для промптов генерации изображений я использовала «collage of SHOCKADVERT style, …»

Например, мои промпты выглядели следующим образом: «collage of SHOCKADVERT style, a fish floating in a bowl of milk», «collage of SHOCKADVERT style, a rabbit sitting on a vinyl record», «collage of SHOCKADVERT style, a man on a TV screen».

Original size 1024x1024

prompt: «collage of SHOCKADVERT style, a tiger with a plate on its head»

Полученную модель с весами сохранила на hugging face, чтобы иметь возможность дообучить ее.

Original size 1024x1024

prompt: «collage of SHOCKADVERT style, many cereal boxes on a white tablecloth»

Дообучение модели

После первого этапа обучения стало очевидно, что нейросеть склонна к дублированию объектов (удваивались шкафы, люди и предметы). Это потребовало коррекции подхода:

Создала 18 дополнительных кадров, сохранив квадратное соотношение сторон (1:1) и высокое разрешение 2160×2160 пикселей.

Original size 1024x1024

prompt: «collage of SHOCKADVERT style, a white rabbit sits in a blue refrigerator»

Также я заметила, что модель хорошо генерирует животных — это связано с тем, что мой датасет небольшой и без животных, а модель помнит свое предобучение.

Original size 1024x1024

prompt: «collage of SHOCKADVERT style, a white rabbit sits in a blue refrigerator»

Папка с расширенными картинками

EXT_DIR = «/kaggle/input/datasets/linlin/shock-advertising/extended»

Общая папка датасета для обучения

DATA_DIR = «shock_ext» os.makedirs (DATA_DIR, exist_ok=True)

Копирую новые изображения

for f in glob.glob (os.path.join (EXT_DIR, «»)): if os.path.isfile (f): shutil.copy (f, DATA_DIR) print («Всего файлов в датасете:», len (glob.glob (os.path.join (DATA_DIR, «»))))

Original size 1287x530

Код (веса модели дообучения)

Итак, на первом шаге моя модель обучается, а на втором дообучается. Я реализовала обучение на kaggle, а дообучение на colab.

Мои генерации

Генерация изображений показала высокую степень соответствия оригинальной стилистике, сохраняя ключевые характеристики:

  1. Цветовая палитра и освещение в духе 60-х годов
  2. Композиционные приёмы Уэса Андерсона
  3. Сохранение фирменного юмора и абсурдности шокирующей рекламы

prompt: «collage of SHOCKADVERT style, a white rabbit sits in a blue refrigerator, soda»

Original size 1024x1024

prompt: «collage of SHOCKADVERT style, a cat sits in a cereal box»

Дообучение позволило улучшить качество генерации:

  1. Исчезла проблема удвоения объектов.
  2. Повысилась реалистичность и детализация изображений.
  3. Полученные результаты стали ближе к задуманной концепции шокирующей рекламы, сочетая сюрреализм и узнаваемый художественный стиль короткометражного метра.
Original size 1024x1024

prompt: «collage of SHOCKADVERT style, milk cartons with eyes line up on the kitchen counter like witnesses»

Original size 1024x1024

prompt: «collage of SHOCKADVERT style, a man on a TV screen»

Original size 1024x1024

prompt: «collage of SHOCKADVERT style, the kitchen»

Однако появились интересные вариации:

  1. Животные стали полноценными участниками рекламных сцен
  2. Объекты приобрели причудливые формы и размеры
  3. Пространства стали более открытыми
Original size 1024x1024

prompt: «collage of SHOCKADVERT style, a chicken pecks cereal from a bowl on the table, a white tablecloth»

prompt: «collage of SHOCKADVERT style, a rabbit sits on a black vinyl record»

Original size 1024x1024

prompt: «collage of SHOCKADVERT style, a box of American cereal on a white tablecloth»

Original size 1024x1024

prompt: «collage of SHOCKADVERT style, a retro dresses and hairstyles»

prompt: «collage of SHOCKADVERT style, a retro dresses and hairstyles»

Original size 1024x1024

prompt: «collage of SHOCKADVERT style, a retro orange dress on a hanger»

Original size 1024x1024

prompt: «collage of SHOCKADVERT style, a tiger sits with a bowl of cereal»

Критический анализ результатов

Полученные изображения успешно передают общую атмосферу и стилистику авторского короткометражного метра, однако имеют ряд характерных особенностей:

Достоинства:

  1. Чёткая согласованность визуального стиля.
  2. Успешная интеграция животных в рекламные сцены
  3. Появление оригинальных художественных решений, отсутствовавших в исходном материале

Недостатки:

  1. Нейросеть иногда игнорирует законы перспективы
  2. Сложности с передачей мелких деталей лиц персонажей
Original size 1024x1024

prompt: «collage of SHOCKADVERT style, an orange sofa in the room, posters»

Результат

Основной результат проекта — управляемая вариативность внутри единой концепции shock advertising: изображения различаются по художественным решениям, но сохраняют общий смысловой каркас и авторский стиль.

Данный проект демонстрирует огромный потенциал генеративного искусственного интеллекта для кинематографистов и художников. Создание кастомизированной нейросети позволяет значительно расширить выразительные средства автора, открывая путь к новым формам повествования и визуализации.

Дальнейшие направления развития включают увеличение размера датасета, применение более мощных вычислительных ресурсов и интеграцию моделей с улучшенной проработкой человеческих фигур.

Описание применения генеративной модели

В ходе реализации проекта использовались две генеративные модели. Основную роль играла модель Stable Diffusion XL, дообученная с помощью DreamBooth LoRA, что позволило достичь соответствия уникальному визуальному стилю авторского короткометражного метра.

Дополнительно применялась модель Gemini, которая помогала автоматизировать написание и тестирование Python-кода непосредственно в среде Google Colab, ускоряя разработку и повышая эффективность рабочего процесса.

Shock Advertising: Обучение генеративной нейросети
Project created at 24.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more