Генеративная интерпретация тибетской тханки на Dafes

Идея проекта

Проект посвящён исследованию возможности генеративной нейросети воспроизводить и трансформировать традиционный художественный стиль тибетской тханки.

Тханка — это не просто изображение, а строго структурированная визуальная система, включающая симметрию, сакральную геометрию, канонические позы и орнаменты.

В рамках проекта я обучила модель Stable Diffusion (LoRA) на наборе изображений тханки, чтобы проверить: — насколько нейросеть способна воспроизводить сложный декоративный стиль — может ли она выходить за пределы канона, создавая новые композиции — какие визуальные элементы сохраняются, а какие трансформируются

Исходные данные

Для обучения был собран датасет изображений тибетской тханки (≈70 изображений).

Все изображения приведены к квадратному формату и отражают ключевые элементы стиля: — симметричные композиции — центральная фигура — насыщенный орнамент — ограниченная цветовая палитра (красный, золотой, синий)

Использовались изображения из открытых источников. В датасет включались только материалы, находящиеся в общественном достоянии или не защищённые авторским правом.

Процесс обучения

Модель: Stable Diffusion XL Метод: LoRA (DreamBooth-подход)

Основные параметры: — resolution: 512 — batch size: 1 — max steps: 500 — mixed precision: fp16

Для описания изображений использовался единый префикс: «tibetan thangka painting»

Это позволило модели воспринимать стиль как визуальную категорию, а не как набор конкретных объектов.

Результаты

Классические композиции

Модель успешно воспроизводит классическую структуру тханки: центральная фигура, симметрия, орнаментальные рамки.

Динамика и вариации поз

В ряде генераций появляются более динамичные позы и композиции.

Абстракции и мандалы

Нейросеть активно воспроизводит сакральную геометрию и орнамент.

Экспериментальные

Появляются пейзажи, глубина и нестандартные цветовые решения (тёмные фигуры). Модель сохраняет стиль, но свободно интерпретирует композицию.

Визуальный анализ

В результате обучения удалось передать следующие характеристики стиля: — сложный орнамент и декоративность — симметричную композицию — ограниченную, но насыщенную цветовую палитру — наличие центральной фигуры или мандалы

При этом наблюдаются отклонения: — искажение пропорций фигур — упрощение деталей в некоторых генерациях — смешение иконографии

Вывод

Проект показал, что генеративная модель способна воспроизводить сложный художественный стиль даже при ограниченном датасете.

При этом нейросеть не просто копирует стиль, а трансформирует его, создавая новые визуальные вариации, находящиеся между традицией и генеративной интерпретацией.

Использование ИИ:

— Stable Diffusion (обученная модель) — ChatGPT (для формулирования описаний и анализа)

Блокнот