Original size 736x977

Анализ данных и визуализация благополучия в разных странах

PROTECT STATUS: not protected

Содержание

— Выбор данных — Почему именно эти данные? — Подход к визуализации — Обработка данных — Использование нейросетей — Стилизация графиков — Изучающий и объясняющий формат визуализации — Используемые статистические методы — Boxplot количественных показателей WHR — Scatterplot «ВВП на душу vs Уровень счастья» с линией регрессии — Boxplot уровня счастья по регионам мира — Карта Шухарта для России (2015–2021) — Ссылки на код и данные

Выбор источников

World Happiness Report — ежегодный отчёт о субъективном благополучии в более чем 150 странах (уровень счастья, свобода, социальная поддержка); World Bank Open Data — официальные макроэкономические показатели (ВВП на душу, продолжительность жизни, урбанизация и др.). Оба набора структурированы в формате CSV, регулярно обновляются и широко используются в научных и аналитических исследованиях.

Почему именно эти данные?

Меня заинтересовало, насколько субъективное ощущение счастья связано с объективными условиями жизни. Это социально значимый вопрос: понимание таких связей помогает правительствам и международным организациям принимать решения, направленные на реальное улучшение качества жизни. Кроме того, данные WHR основаны на опросах Gallup World Poll — одном из самых надёжных источников глобальных социологических данных.

Подход к визуализации

Для наглядности и глубины анализа использованы разные типы графиков: Гистограммы и boxplot — для оценки распределения и выявления выбросов; Scatterplot с линиями тренда — для демонстрации корреляций; Столбчатые диаграммы — для сравнения регионов и кластеров; Линейные графики и контрольные карты — для анализа динамики во времени. Каждый график не просто красив, а несёт конкретную аналитическую нагрузку — он объясняет, а не только показывает.

Обработка данных

Вся обработка данных проводилась в Python с использованием библиотеки Pandas. Работа шла в несколько этапов: Загрузка данных — через официальный API Kaggle (kagglehub) были скачаны два датасета: World Happiness Report (158 стран за один год), World Bank Open Data (более 21 тыс. строк, содержащих проектные и агрегированные макроэкономические данные). Проверка качества — анализ на пропуски, дубликаты и типы данных. WHR оказался полностью чистым; в WBOD пропуски были только во вспомогательных полях и не влияли на ключевые показатели (ВВП, население). Базовая очистка — удаление дубликатов (хотя их не было) и фильтрация по наличию названия страны. Анализ временного ряда — для второй части исследования был загружен многолетний датасет World Happiness Report 2015–2022, отфильтрованы данные по России, преобразованы в числовой формат и удалены пропуски. Весь код структурирован по блокам: загрузка → очистка → анализ → визуализация. Это позволило легко воспроизводить каждый этап.

Нейросети не использовались для анализа или моделирования. Вместо этого применялись классические статистические и машинно-обучающие методы (линейная регрессия, K-means, просы вроде «как рассчитать коэффициент вариации в pandas», «почему возникает ошибка при построении карты Шухарта», «как правильно оформить сводную таблицу по регионам». Это ускорило разработку и помогло избежатьANOVA), которые лучше подходят для интерпретируемости и соответствуют задачам исследования. Однако ChatGPT активно использовался как помощник при написании и отладке кода: за типичных ошибок.

Графики

Графики создавались с помощью Matplotlib и Seaborn с акцентом на ясность и консистентность, а не на декоративность. Основные принципы стилизации: Единая цветовая палитра: #4e79a7 (синий) — для высоких значений / благополучных групп, #f28e2b (оранжевый) — для средних, #e15759 (красный) — для низких / уязвимых. Все графики содержат заголовки, подписи осей, легенды и сетку для удобства чтения. Использованы разные типы визуализаций в зависимости от задачи: гистограммы — для распределений, scatterplot — для корреляций, линейные графики — для трендов. Вдохновением послужили работы The Economist и FiveThirtyEight — минималистичные, но информативные графики, где данные «говорят сами за себя».

Изучающий и объясняющий формат визуализации

Каждый график не просто показывает данные, а объясняет вывод: На scatterplot с регрессией подписаны коэффициент корреляции и p-value — сразу видно силу связи. Boxplot по регионам сопровождается ANOVA-результатами — визуально и статистически подтверждены различия. Карта Шухарта включает границы допуска (LSL/USL) и контрольные пределы — можно оценить и стабильность, и соответствие цели. Временной ряд содержит скользящую среднюю и прогноз — чётко видна тенденция и её продолжение. Такой подход превращает графики из иллюстраций в инструменты анализа.
Original size 754x699

Используемые статистические методы

1. Описательная статистика: среднее, медиана, стандартное отклонение, коэффициент вариации, квартили. 2. Корреляционный анализ: коэффициент Пирсона с проверкой p-value. 3. Регрессионный анализ: линейная и полиномиальная модели, оценка R², MAE, MPE. 3. Дисперсионный анализ (ANOVA): проверка различий между регионами, с предварительной проверкой гомогенности дисперсий (тест Левена). 4. Кластерный анализ: K-means с определением оптимального числа кластеров (метод локтя, силуэт). 5. Статистический контроль качества: карта Шухарта, индексы Cp и Cpk. 6. Анализ временных рядов: скользящая средняя, цепные и базисные показатели динамики (абсолютные приросты, темпы роста и прироста). Все методы выбраны целенаправленно и интерпретированы в контексте социально-экономической реальности.
Original size 1179x665

Boxplot количественных показателей WHR

Тип: Горизонтальный boxplot (ящик с усами) Что показывает: Распределение ключевых показателей счастья — разброс, медиану, наличие выбросов. Почему важен: Демонстрирует, что данные «чистые» (нет экстремальных выбросов), а также позволяет сравнить вариативность разных факторов (например, доверие к власти сильно варьируется, а ВВП — умеренно). Из какого блока кода: «Первая часть. 3. Первичный анализ данных» → визуализация, subplot (2,2,2)
Original size 1239x591

Scatterplot «ВВП на душу vs Уровень счастья» с линией регрессии

Тип: Точечная диаграмма \+ линия тренда Что показывает: Сильную положительную корреляцию между экономическим благосостоянием и субъективным ощущением счастья. Подписаны r = 0.78 и p < 0.001. Почему важен: Это ключевая гипотеза всего исследования — и она визуально и статистически подтверждена. Из какого блока кода: «Первая часть. 4. Анализ взаимосвязей» → первый scatterplot в сетке
Original size 1280x849

Boxplot уровня счастья по регионам мира

Тип: Вертикальный boxplot с категориями Что показывает: Статистически значимые различия между регионами (ANOVA: p < 0.001). Западная Европа — вверху, Африка — внизу. Почему важен: Подтверждает, что география и культура влияют на благополучие, даже при схожих экономических условиях. Из какого блока кода: «Первая часть. 6. Дисперсионный анализ (ANOVA)» → plt.figure (figsize=(12, 7))
Original size 951x701

Карта Шухарта для России (2015–2021)

Тип: Линейный график с контрольными и спецификационными границами Что показывает: Фактические точки (голубые кружки), Центральную линию (CL), Контрольные пределы (UCL/LCL — красные пунктиры), Целевой диапазон (LSL/USL — фиолетовая и оранжевая пунктирные линии). Почему важен: Это уникальный элемент вашего проекта — применение методов промышленного контроля качества к социальным данным. Показывает: процесс стабилен, но не соответствует целевому уровню (Cpk = 0.42). Из какого блока кода: «Вторая часть. 3. Карта Шухарта и индекс пригодности процесса»
Original size 780x497
Анализ данных и визуализация благополучия в разных странах
Project created at 05.02.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more