Original size 1750x2480

Обучение генеративной модели // Вся правда о медведях

PROTECT STATUS: not protected

Концепция

В своём проекте я решила исследовать, как нейросеть справляется с созданием иллюстративных персонажей, передавая их характер, эмоции и стиль. В качестве основы я выбрала трёх медведей — белого, бурого и панду — из мультфильма «Вся правда о медведях» (We Bare Bears). Мне было интересно, сможет ли алгоритм не просто нарисовать их внешность, но и показать их индивидуальность, привычки, мимику и взаимодействие друг с другом.

Я собрала визуальные материалы, вдохновлённые мультфильмом, и обучила модель на примерах сцен с этими героями. Я обращала внимание на форму, цветовую палитру, позы, выражения лиц и простую, но выразительную анимационную стилистику.

Мне было важно понять, может ли нейросеть не просто копировать стиль оригинала, а по-настоящему передать атмосферу мультфильма и ту «живость», за которую зрители любят этих персонажей.

Исходные данные

big
Original size 1679x833

Кадры из собранного датасета

Код

В рамках проекта используется метод дообучения модели изображений — DreamBooth-LoRA — поверх генеративной нейросети Stable Diffusion. Этот подход позволяет адаптировать нейросеть под конкретный визуальный стиль или образы, сохраняя при этом качество и разнообразие генерации. Для обучения используется датасет из 83 картинок, полученных из мультсериала «Вся правда о медведях» и методы эффективной адаптации (LoRA).

big
Original size 1354x616

К каждому изображению из датасета генерируется индивидуальная подпись. Полученные метаданные сохраняются в metadata.jsonl.

После завершения операции, стало понятно, что нейросеть верно распознает кадры из мультика, что говорит о корректной работе кода.

Original size 2048x916

В качестве основы берётся предобученная модель stable-diffusion-xl-base-1.0, разработанная командой Stability AI. Для улучшения качества изображений дополнительно используется VAE (вариационный автокодировщик) — madebyollin/sdxl-vae-fp16-fix, который обеспечивает более точную реконструкцию деталей при генерации.

Обучение проводится с использованием следующих ключевых параметров:

• Разрешение изображений: 512×512 пикселей • Размер батча: 2 изображения • Скорость обучения (learning rate): 1e-4 • Максимальное число шагов обучения: 500 • Оптимизатор: Adam с 8-битной точностью • Формат чисел: FP16 (снижение потребления памяти и ускорение обучения)

Такой подход позволяет эффективно дообучить модель на небольшом датасете, при этом сохранив стабильность генерации и выразительность образов. Использование LoRA значительно снижает требования к ресурсам и ускоряет процесс обучения, делая его более доступным.

Original size 1624x1036

После окончания обучения модель загружается на платформу Hugging Face с помощью функции upload_folder (), которая отправляет все файлы из указанной папки с результатами. Перед этим создаётся карточка модели (модельная документация), содержащая основную информацию о параметрах обучения. Это делается через функцию save_model_card () — в неё передаётся информация о базовой модели (stable-diffusion-xl-base-1.0), используемом VAE (madebyollin/sdxl-vae-fp16-fix), текстовом промте, а также другие настройки, например, отключение дообучения текстового энкодера.

Таким образом, благодаря этим функциям, весь процесс публикации модели становится автоматизированным: создаётся репозиторий, сохраняется карточка модели с описанием, и финальная версия модели отправляется в облачное хранилище Hugging Face.

Original size 1370x1096

После завершения обучения LoRA-модификации модели, она загружается и используется для генерации изображений с помощью DiffusionPipeline. В коде задаётся текстовый промпт, например: «cartoon in the style of We Bare Bears, White bear working as a barista in a tiny coffee shop, pouring latte art with precision, calm expression.» — этот запрос описывает конкретную сцену в мультяшном стиле по мотивам мультсериала «Вся правда о медведях».

Для генерации изображения используется pipe (prompt=…, num_inference_steps=100). При этом inference идёт в формате FP16, что ускоряет процесс и экономит видеопамять. Из полученного результата выбирается первое изображение: .images[0].

Такой подход позволяет гибко создавать сцены с любыми персонажами и сюжетами, используя уже дообученную на нужном стиле модель.

Original size 2048x526

Результат

В итоговой серии изображений демонстрируется способность нейросети не только точно воспроизводить визуальный стиль мультсериала «Вся правда о медведях», но и органично встраивать персонажей в разнообразные повседневные и фантазийные сцены. Генеративные изображения сохраняют ключевые элементы оригинального стиля — мягкую палитру, округлые формы, выразительную мимику и уютную атмосферу.

Более того, нейросеть уверенно оперирует характерными деталями: интерьеры, реквизит и композиции создаются с такой точностью, что результат визуально почти неотличим от оригинальных сцен. Алгоритм не только имитирует стиль, но и вносит творческий вклад — создавая ситуации, которых не было в мультсериале, при этом полностью сохраняя его дух.

Начальная фраза всех промтов: Cartoon in the style of We Bare Bears.

panda bear working as a barista, holding a cup, cozy coffee shop background // three bears sitting on the floor reading books, warm home atmosphere

Original size 1024x1024

white bear calmly reading a book, minimalistic background

grizzly and panda bear watching TV with popcorn, cozy evening // grizzly bear skateboarding downhill, excited expression

Модель отлично справляется с генерацией как одиночных портретов, так и сложных композиций с несколькими персонажами. Стиль, эмоции, антураж и характеры переданы точно и последовательно. Особенно хорошо реализованы сцены с взаимодействием между медведями — они выглядят натурально и сюжетно завершёнными.

Original size 2959x971

grizzly bear filming with a camera on tripod, home setup // white bear as a chef standing in money rain, dramatic scene // panda bear relaxing with a laptop in armchair, homey setup

all three bears in a colorful van on a road trip, nature background // panda bear in a bubble bath with rubber ducks, playful mood

Несмотря на общее довольно хорошее качество генераций, детали, вроде лап и глаз, требовали дополнительного внимания — как при составлении датасета, так и в подборе удачных промптов. Часто лапы выходили с неправильной формой — либо слишком вытянутыми, либо с неестественным количеством пальцев, а глаза могли съезжать с привычных пропорций или располагаться асимметрично — особенно у панды, где чёрные круги вокруг глаз часто искажались.

Original size 4925x1959

Все итоговые изображения

Заключение

В ходе проекта мне удалось исследовать, насколько хорошо нейросетевая модель способна воспроизводить стилистику и характер мультяшных персонажей, используя дообучение на примере героев из мультсериала «Вся правда о медведях».

Особое внимание уделялось не только визуальному сходству, но и передаче характеров героев — их мимики, привычных ролей и типичных взаимодействий. Благодаря этому результат получился живым и убедительным: групповые сцены передают атмосферу оригинального сюжета, а одиночные образы — раскрывают индивидуальность каждого персонажа.

В целом, проект подтвердил, что нейросеть может не только стилизовать изображения под заданную эстетику, но и сохранить анимационную идентичность, создавая узнаваемые, выразительные и харизматичные визуальные сцены.

Описание применения генеративной модели

Была использована модель для обучения и создания изображений Stable Diffusion. Для генерации промтов и помощи при возникших ошибках GPT-4o mini.

Обучение генеративной модели // Вся правда о медведях
Project created at 10.04.2025
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more