Original size 1752x2317

Анализ самых популярных сериалов на IMDb.

PROTECT STATUS: not protected

Введение:

Для создания проекта по анализу данных мой выбор пал на информацию о сериалах и мультсериалах на платформе IMDb. IMDb содержит в себе рейтинги, статусы, отзывы и описания интересующих шедевров кинематографа.

На сайте Kaggle я нашла данные для своего анализа. Из файла imdb_tv_ranking_master.csv я получила подробную информацию о сериалах и мультфильмах, включая название, даты выхода и рейтинги IMDb.

Мной была выбрана именно эта тема, ибо я сама являюсь художником анимации и большим любителем кинематографа и истории кино. В приведённом ниже анализе мне бы хотелось, используя полученные на курсе знания, визуализировать имеющиеся данные, выявить определённые взаимосвязи между элементами и подвести конкретные итоги.

Для начала, затрону оформление и начало работы. Мною были выбраны, в качестве основной палитры, цвета 69e0a5, F198AA, FDF4A3, 008C76FF. Это комфортные для глаза, не слишком яркие и удачно сочетающиеся между собой оттенки.

Сперва мне понадобилось загрузить датасет и библиотеки для создания необходимых графиков в Google Collab.

Для того чтобы можно было создавать палитры для каждого графика я использовала переменные, дополняя код. Визуализации данных графиков, основных и дополнительных, были созданы на основе библиотек seaborn и matplotlib.pyplot.

График № 1 и № 2.

big
Original size 1389x989

График № 1.

Первый график и дополнительный график к нему представляют собой распределение сериалов по годам выпуска. В виде линейчатой и точечной диаграмм. Для этого нужно создать код, который очертит временной период (Допустим, за N указанных лет). Также, на основе предложенных данных из датасета, он проведёт анализ количества выпущенных сериалов за указанный промежуток времени по годам и визуализирует данное соотношение в виде таблиц.

Ключевые функции: pd.read_csv, загружающая данные о сериалах, drop_duplicates, убиравшая повторные упоминания одних и тех же сериалов и value_counts, считавшая, сколько вышло проектов в каждый год.

Благодаря данным графикам мы можем проследить тенденцию роста: Количество выпускаемых сериалов значительно увеличилось в последние годы (2018–2025 годах). Максимальное количество сериалов выпускалось в 2024 и 2025 годах, что свидетельствует о продолжающемся буме стриминговых платформ.

Original size 630x470

График № 2.

Визуализация предложенных данных помогает нам сделать определённый вывод. В данный момент телевизионная индустрия находится в состоянии активного роста, с рекордным количеством производимого контента.

Original size 859x328

Статистика по всем годам.

График № 3 и № 4.

Original size 1589x989

График № 3.

График под номером 3 и дополнительный график к нему визуализируют собой Самые рейтинговые сериалы указанного периода времени. График представлен в виде горизонтальной столбчатой диаграммы. Ключевые функции, использовавшиеся для создания графиков: sort_values, сортировавшая сериалы по рейтингу/году, sns.barplot, строившая столбчатые диаграммы рейтингов и plt.text, вписывавшая значения на столбцы/рядом с точками.

Благодаря данным графикам мы можем сделать ключевые выводы. Например, большинство топ-сериалов имеют рейтинг выше 8.0, что указывает на высокое качество контента.

В топе также представлены сериалы разных жанров. К примеру, драмы, фэнтези, триллеры. Это показывает зрелость индустрии. Сериалы с рейтингом выше 9.0 (Например, «Breaking Bad», «Game of Thrones») стали культурными феноменами.

Original size 712x470

График № 4.

Таким образом, визуализация этих данных помогает нам заключить, что качественный контент находит признание независимо от года выпуска и многие старые проекты становятся легендарными. Однако новые сериалы тоже демонстрируют конкурентоспособность.

График № 5 и № 6.

Original size 1590x989

График № 5.

Графики № 5 и № 6 демонстрируют нам количество сезонов в сериалах. Основной график выполнен в виде точечной диаграммы. Из информации, представленной в виде графиков, мы можем сделать следующие выводы: Существуют как короткие мини-сериалы (1 или 2 сезона), так и длительные проекты (более, чем 10 сезонов).

Ключевые функции, которые использовались для данных графиков: sort_values, сортировавшая сериалы по рейтингу/году, groupby, бравшая каждого сериала самую свежую информацию, а также plt.scatter, изображавшая точки для точечных диаграмм.

Визуализация данных помогла понять, что успешные сериалы имеют чаще всего умеренное количество сезонов (3 или 5), что позволяет сохранять качество и баланс сюжета. Но некоторые сериалы продолжаются уже много лет, демонстрируя устойчивую популярность.

Original size 1189x590

График № 6.

Количество сезонов, как показывают данные на диаграммах, не всегда коррелирует с рейтингом. Успех имеют как короткие, так и длинные проекты.

Таким образом, мы видим, что успех сериала определяется не количеством сезонов, а качеством контента и умением поддерживать интерес аудитории.

Original size 861x270

Распределение, созданное с помощью кода.

График № 7.

Original size 1979x992

График № 7.

Заключительный график под номером 7 представляет собой круговую диаграмму. Она визуализирует данные о распределении сезонов в самых рейтинговых сериалах. Большинство топ-сериалов имеют 2 или 4 сезона. Это оптимальный баланс для развития сюжета.

Ключевые функции, использовавшиеся для данных графиков и диаграмм: latest_data.sort_values, использовавшаяся для сортировки сериалов по рейтингу и году, drop_duplicates, убиравшая повторные записи одного сериала, plt.pie, создававшая круговую диаграмму распределения сезонов и plt.subplots, которая создает сразу несколько графиков на одной фигуре.

Долгосрочные проекты реже: Среди топ-рейтинговых относительно мало сериалов с более, чем 5-ю сезонами. Самые высокие рейтинги часто встречаются у сериалов с четкой нарративной аркой, не растянутой на многие сезоны.

Вывод:

Подойдём к заключению. Современные зрители ценят качественное завершенное повествование больше, чем длительные, но менее качественные проекты. Данный вывод мы сделали оперативно именно благодаря визуализации данных, это помогло нам структурировать такой крупный набор информации о сериалах и мультфильмах.

Описание применения генеративной модели.

Стоит отметить, что основу, в виде собственного классического кода, я добавляла в нейросеть DeepSeek.com и писала промпт с просьбой дополнить детали кода, добавить дополнительные графики и исправить ошибки. Таким образом, мне удалось сделать код рабочим и более подробным. Ссылка на Нейросеть: https://www.deepseek.com/en/

Ссылки.

Ссылка на диск с файлами, датасетом и кодом: https://drive.google.com/drive/folders/13lNvV0kZvkeVyWSTB5u7uc1FEQEYHA7T?usp=sharing

Отдельная ссылка на Google Collab с кодом: https://colab.research.google.com/drive/125iksbt6iNIb4AK5ko9KK9YnAVbj9V8W?usp=drive_link

Ссылка на ресурс: https://www.kaggle.com/datasets/ashpalsingh1525/imdb-movies-dataset

Анализ самых популярных сериалов на IMDb.
Project created at 05.02.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more