Original size 2480x3500

Популярность ≠ качество

PROTECT STATUS: not protected

«The Movies Dataset» (метаданные TMDB) — большой и достаточно «живой» набор данных о фильмах: в нём есть не только названия и даты релиза, но и жанры, зрительские оценки, число голосов, показатели популярности, а также финансовые метрики (бюджет и сборы). Мне было интересно взять именно эти данные, потому что в кино часто расходятся два понятия: популярность (что обсуждают и что массово смотрят) и качество/восприятие (насколько зрителям действительно понравилось). За счёт объёма и разнообразия признаков этот датасет хорошо подходит для анализа таких различий и поиска закономерностей.

В этом проекте я анализирую фильмы на основе movies_metadata.csv из Kaggle (The Movies Dataset). В ходе работы данные были очищены и подготовлены для анализа: я привела типы столбцов к корректным (даты и числа), выделила год релиза, обработала жанры и рассчитала взвешенный рейтинг, который учитывает не только среднюю оценку, но и количество голосов (чтобы отделить «случайно высокий рейтинг» от устойчивого). Далее я визуализировала результаты с помощью разных типов графиков (распределение рейтингов, сравнение жанров, связь бюджета и сборов, динамика по годам). Такой анализ позволяет увидеть, как связаны оценки, популярность и коммерческий успех, и сделать выводы о том, где «успех» действительно совпадает с «качеством», а где — нет.

Цель визуализации: объяснить различие между рейтингом, популярностью и коммерческим успехом. Выбранные виды графиков:

  1. Гистограмма рейтингов Почему: показать распределение и «типичную» оценку, а не отдельные примеры.
  2. Столбчатая диаграмма (горизонтальная) + доверительные интервалы: жанры vs взвешенный рейтинг Почему: сравнение групп + честно показываем неопределённость.
  3. Линейный график по годам: медианный рейтинг и количество релизов Почему: тренды/динамика во времени.

Обработка данных

— загрузка CSV в Pandas — удаление дубликатов — приведение типов: дата/числа — фильтрация строк без ключевых полей (год, оценка, число голосов)

big
Original size 1113x337

Жанры хранятся строкой в формате JSON‑подобного списка.

Original size 1102x403

Статистическая идея проекта: «взвешенный рейтинг»

Фильм с 10 голосами и оценкой 9.5 нельзя сравнивать напрямую с фильмом с 50 000 голосов и оценкой 8.1. Использован IMDb‑style weighted rating: — R — vote_average — v — vote_count — C— средняя оценка по датасету — m — порог голосов (в проекте: 90‑й перцентиль)

Original size 1102x280

Стилизация графиков (единый стиль)

Цель стилизации: сделать консистентную «редакционную» инфографику: светлый фон, воздух, один акцентный цвет, аккуратные подписи. Что сделано кодом: — единый фон и сетка — палитра (accent + нейтральные) — единые размеры, шрифты — сохранение графиков в PNG для презентации

Original size 1105x256

Использование нейросетей

Я использовала ChatGPT как помощник: — чтобы собрать план анализа и список подходящих графиков — чтобы продумать единый стиль визуализации (палитра, сетка, подписи) — чтобы сделать структуру презентации и формулировки выводов

Примеры промптов (можно вставить 2–4 штуки): — «Предложи 4–6 разных типов графиков для анализа TMDB, чтобы был data‑story.» — «Сделай светлый редакционный стиль для matplotlib: фон, сетка, цвета, шрифт, сохранение PNG.» — «Как корректно сравнивать фильмы с разным числом голосов? Предложи метрику и объяснение для презентации.» — «Сгенерируй структуру презентации: вводная, этапы, методы, выводы.»

График 1: Гистограмма рейтингов

Original size 1965x1162

— Большинство фильмов имеют рейтинг в узком диапазоне. — Среднее и медиана близки, поэтому «типичный» фильм оценивают примерно одинаково. — Это объясняет, почему для сравнения важнее дополнительные факторы (жанр, число голосов, популярность).

График 2: Жанры и взвешенный рейтинг + 95% CI

Original size 1962x1162

— Средний взвешенный рейтинг различается между жанрами. — Доверительные интервалы показывают, что разница не всегда «абсолютна»: есть перекрытия. — Визуально это честнее, чем просто ранжировать жанры по среднему значению.

График 3: Бюджет vs сборы

Original size 1956x1162

— В среднем больший бюджет связан с большими сборами, но разброс огромный. — Лог‑шкала нужна, потому что распределение денег крайне неравномерно (редкие блокбастеры). — Вывод: инвестиции повышают «потолок», но успех не гарантирован.

График 4: Динамика по годам

Original size 1963x1162

— Количество фильмов по годам меняется сильнее, чем медианный рейтинг. — Рынок расширяется/сжимается, но оценки остаются относительно стабильными. — Для выводов о «качестве эпохи» важно учитывать, что меняется объём выпуска.

Корреляции Spearman

Original size 1526x1165

— vote_count и popularity обычно связаны сильнее, чем рейтинг и касса. — Spearman выбран как устойчивый к выбросам и нелинейным зависимостям.

Ссылки на ноутбук и датасет

Популярность ≠ качество
Project created at 17.01.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more