Original size 1140x1600

Топ фильмов IMDb

PROTECT STATUS: not protected

Киноиндустрия занимает важное место в мировой индустрии развлечений и продолжает активно развиваться. Успех фильмов формируется под влиянием различных факторов, таких как жанр, продолжительность, возрастная классификация, режиссёр, актёрский состав, а также отклик аудитории, выраженный через рейтинги и количество голосов. Анализ этих характеристик позволяет выявить закономерности, связанные с популярностью и оценкой фильмов зрителями.

Original size 1640x624

Визуальное оформление

Original size 1277x780

При офрмлении визуализаций я буду использовать фирменный стиль IMDb

Original size 1221x210
Original size 1980x343

Источник данных

Для анализа данных будет использован датасет, содержащий информацию о 5000 фильмах с наивысшими рейтингами на сайте IMDb, размещённый на платформе Kaggle

Перед началом анализа требуется провести дополнительную фильтрацию и сортировку данных с целью повышения их качества и удобства для последующей обработки. На данном этапе будут выявлены и устранены возможные пропуски, а также приведены к единому формату ключевые параметры датасета. Это позволит обеспечить корректность анализа и достоверность полученных результатов.

Были выявлены и удалены строки с аномальными значениями в признаке runtime, которые не соответствовали формату продолжительности фильма. Кроме того, признаки runtime и gross_earn были очищены от нечисловых символов и приведены к числовым типам данных, что позволяет использовать их в статистическом анализе и визуализациях.

Также была выполнена сортировка данных по убыванию рейтинга фильмов и переопределение индексов, что упростило дальнейшую работу с датасетом. В результате проведённых преобразований был получен очищенный и структурированный набор данных, пригодный для последующего разведочного анализа.

Неграфический и графический анализ количественных признаков

Original size 3750x817

Сначала мы взяли столбец с доходами фильмов и сохранили его отдельно, чтобы с ним было удобнее работать. Потом посмотрели на максимальные и минимальные значения и заметили, что есть фильмы с доходом 0, поэтому мы их исключили, чтобы не искажать результаты.

Original size 1000x712

Дальше мы посчитали средний доход и медиану, чтобы понять, какой доход типичен для фильма, и посмотрели на разные процентили — это помогает увидеть, как распределены доходы и где сосредоточено большинство фильмов.

Original size 777x670
post

В итоге, с помощью функции describe () мы получили сводную статистику: минимальные и максимальные доходы, среднее, стандартное отклонение и квартильные значения — то есть полный портрет распределения доходов фильмов.»

Если мы попробуем построиить диаграмму «ящик с усами» с помощью метода boxplot (). Мы увидим, диаграмма пустая. Это связано с наличием пропущенных значений по признаку. Очистим клонку от пустых значений с помощью dropna и попробуем заново построить «ящик с усами»

Original size 692x481
Original size 953x670

Попробуем построить гистограмму с помощью метода hist (), чтобы посмотреть на распределение признака.

Original size 854x558
Original size 945x350

Гистограмма показывает, достаточно большой размах в данных, что подтверждается и показателями описательной статистики (min и max). Ограничем графический анализ 10 процентилем снизу и 90 процентилем сверху, тем самым обработав часть выбросов, и заново построим гистограмму передав в нее параметр bins=20 для лучшей визуализации

Original size 866x558
Original size 933x406

Выводы

Размах значений оказался очень большим от 0 до 936 у.е

Нулевых значений не так много. Можно их исключить из анализа.

Если вы хотите знать, какой доход имеют большинство фильмов, вы можете посмотреть на медиану (50-й процентиль).

Если вам интересно, какой доход имеют самые успешные 10% фильмов, вы можете посмотреть на 90-й процентиль.

Пример

Представьте, что у вас есть 100 фильмов, и вы хотите понять, как распределены их доходы. Процентили помогут вам увидеть: 10% фильмов зарабатывают меньше 0.797. 25% фильмов зарабатывают меньше 7.0. 50% фильмов зарабатывают меньше 28.345. 75% фильмов зарабатывают меньше 63.04. 90% фильмов зарабатывают меньше 121.968

Ящик с усами не дает полного понятия о распределении признака поэтому использовали гистограмму, далее обработав часть выбросов и увелича кол-во интервалов можем лучше провести анализ распределения признака.

Неграфический и графический анализ категориальных признаков

post

Сейчас мы посмотрим на признак certificate, который показывает возрастную классификацию фильмов по стандартам BBFC. Сначала с помощью метода describe () мы получили сводную информацию: сколько всего записей, сколько уникальных категорий и какое значение встречается чаще всего.

Затем мы посмотрели на все уникальные категории с помощью unique (), чтобы понять, какие сертификаты вообще встречаются в данных.

Дальше мы посчитали, сколько раз встречается каждая категория с помощью value_counts (). И чтобы потом красиво построить столбчатую диаграмму, мы отсортировали результаты по возрастанию: так самые популярные сертификаты будут отображаться сверху, а менее частые — внизу.

То есть мы не просто смотрим на числа, а сразу готовим данные для наглядного и понятного графика.

Original size 927x794

Построим горизонтальную столбчатую диаграмму с помощью метода barh ()

Original size 879x558
Original size 1108x361

Выделим топ-5 классов, по которым больше всего фильмов и сохраним результат в переменную certificate_counts_top_5

P. S. При анализе категориальных признаков если категорий не больше 5, то предпочтительна круговая диаграмма, в ином случае — столбчатая

Original size 636x670
Original size 922x457

Вывод

Количество уникальных значений: признак имеет 15 уникальных значений, что говорит о достаточно разнообразных категориях.

Наиболее часто встречающееся значение: чаще всего встречается значение 15, оно встречается 1843 раза, то есть почти в половине случаев.

Распределение значений: выделяются 5 крупных значений, которые встречаются значительно чаще остальных, остальные значения встречаются гораздо реже.

Графический анализ: столбчатая и круговая диаграммы показывают, что сертификат 15 занимает почти половину всех крупных сертификатов, что наглядно демонстрирует его доминирующее положение среди категорий.

Анализ взаимосвязи количественного и категориального признаков

Дальше мы решили посмотреть, как отличаются доходы фильмов в зависимости от класса сертификата. Для этого сначала мы сгруппировали данные по признаку certificate и посчитали медианный доход для каждого класса. Это позволило понять, какой доход является типичным внутри каждой категории.

Original size 970x678

Затем мы расширили анализ и рассчитали описательные статистики доходов в разрезе классов с помощью метода describe (). Так мы увидели не только медиану, но и средние значения, разброс, минимумы и максимумы по каждому сертификату.

Original size 927x621

После этого мы попытались визуализировать распределения доходов с помощью диаграммы «ящик с усами». Однако график получился малоинформативным: из-за большого количества классов и наличия выбросов его было сложно интерпретировать.

Original size 848x481
Original size 1083x532

Чтобы упростить анализ, мы посчитали, сколько раз встречается каждый класс, и увидели, что крупных классов всего 8. Поэтому мы решили ограничиться только ими. Мы сохранили список топ-8 сертификатов и отфильтровали исходный датасет, оставив только фильмы с этими классами.

0

Построим диаграмму «ящик с усами» с помощью метода boxplot (), передав в качестве x — значения классов, а в качестве y — доход с фильмов, при этом ограничив значение оси y на отметке 250 с помощью функции plt.axis () и параметров ymin и ymax

Original size 1002x569
Original size 1138x566

На графиках видно что фильмы с определенной сетрификацией получают разные сборы например фильмы с сертификатом U собирают больше всего но у 12А больше выбросов и фильмов которые собрали огромное количество денег

Original size 2656x579

Заключение

После проведённого анализа я могу сделать вывод, что он помог мне лучше понять закономерности в мире кино. Я увидел, какие классы фильмов и рейтинги чаще всего встречаются среди самых успешных, какие фильмы приносят высокий доход, а какие — менее прибыльны. Всё это помогает мне, как любителю кино, понять предпочтения зрителей, оценить популярность разных категорий фильмов и просто интересно увидеть цифры, подтверждающие мои впечатления о том, какие фильмы «выстреливают» в прокате.

Original size 4442x3683

Описание применения генеративной модели

Я использовала ChatGPT и Gemini для написания кода для обработки и визуализации данных. Ссылки: chatgpt.com и gemini.google.com

Топ фильмов IMDb
Project created at 17.01.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more