Original size 1140x1600

Анализ и визуализация данных индустрии видеоигр

PROTECT STATUS: not protected

Описание проекта и выбор данных

В поисках подходящего датасета для финального проекта я обратилась к ресурсам Kaggle и специализированным репозиториям. Мой выбор пал на исторические данные о продажах видеоигр (Video Game Sales), основанные на статистике авторитетного портала VGChartz. Я выбрала эту тему по двум причинам. Во-первых, игровая индустрия — это один из самых динамичных секторов мировой экономики, который обгоняет по выручке кино и музыку. Во-вторых, мне хотелось проанализировать объективные показатели успеха: не субъективные оценки критиков, а реальные продажи («голосование рублем»). Мне было интересно узнать, какие платформы исторически доминировали на рынке, как менялась активность издателей за последние 30 лет и существуют ли фундаментальные различия во вкусах геймеров из США, Европы и Японии

Подготовка и инструменты

Для реализации проекта я использовала язык программирования Python в среде Google Colab. Основной стек библиотек включал: • Pandas: для загрузки, очистки и агрегации табличных данных. • Matplotlib и Seaborn: для построения продвинутых визуализаций. • NumPy: для математических вычислений.

Визуальный стиль

Перед началом работы я уделила особое внимание дизайну. Чтобы графики выглядели профессионально и современно (в стиле «Tech Analytics»), я отказался от стандартных цветов Matplotlib. Был выбран монохромный стиль (Tech Blue) — градиенты от глубокого темно-синего (003366) до ярко-голубого (4da6ff). Все графики были созданы на прозрачном фоне, без лишних рамок («chartjunk»), чтобы их можно было бесшовно интегрировать в любую презентацию, сохраняя высокий коэффициент информативности (Data-Ink Ratio).

Этапы визуализации и анализ

Original size 974x671

Лидеры рынка платформ (Top Platforms) Тип: Горизонтальная столбчатая диаграмма (Horizontal Bar Chart)

Original size 851x290

Первым делом я решила выяснить, какие игровые консоли обладают самой богатой библиотекой игр. Используя метод value_counts (), я подсчитала количество уникальных релизов для каждой платформы. Инсайт: График демонстрирует безоговорочное доминирование экосистем Sony и Nintendo. Историческими лидерами остаются PlayStation 2 и Nintendo DS. Это объясняется их невероятно долгим жизненным циклом и огромной базой пользователей, что делало эти платформы привлекательными для разработчиков на протяжении более чем 10 лет.

Original size 974x704

Пульс индустрии (Industry Growth) Тип: Диаграмма с областями (Area Chart)

Original size 929x338

Чтобы понять, как развивалась индустрия во времени, я построила график динамики релизов с 1995 по 2020 год. Технически это было реализовано через группировку данных по годам и использование функции fill_between для создания эффекта объема. Инсайт: Мы наблюдаем экспоненциальный рост количества игр с середины 90-х, достигший пика в период «золотого века ритейла» (2008–2010 гг.). Интересно заметить спад на графике после 2015 года. Это не говорит о кризисе индустрии, а иллюстрирует фундаментальный сдвиг в дистрибуции: рынок массово перешел на цифровые продажи (Steam, PS Store), данные о которых часто закрыты и не попадают в классические отчеты о физических отгрузках.

Original size 974x628

Топ Издателей (Top Publishers) Тип: Столбчатая диаграмма (Bar Chart)

Original size 837x596

Для анализа ключевых игроков рынка я отфильтровала данные по издателям. В процессе очистки данных мне пришлось столкнуться с проблемой «грязных» данных (значения «Unknown» и скрытые пробелы), которую я решила с помощью строковых методов Pandas (str.strip ()). Инсайт: Рынок имеет олигополистическую структуру. Топ-5 компаний (Electronic Arts, Activision, Ubisoft и др.) формируют значительную часть всего контента. Эти гиганты делают ставку на конвейерное производство крупных франшиз (FIFA, Call of Duty, Assassin’s Creed), что обеспечивает им стабильное лидерство.

Original size 952x994

Сегментация рынка (Market Share) Тип: Кольцевая диаграмма (Donut Chart)

Original size 929x587

Для отображения долей рынка я использовала диаграмму-пончик. Это более современная альтернатива классическому «пирогу», которая легче воспринимается визуально. Инсайт: Визуализация подтверждает принцип «Winner Takes All» (Победитель получает всё). Несмотря на существование десятков консолей в истории, около 80% рынка контролируется тремя основными корпорациями: Sony, Nintendo и Microsoft. Платформы с наибольшей базой игроков привлекают больше эксклюзивов, еще сильнее увеличивая отрыв от конкурентов.

Original size 974x567

Битва регионов (Sales by Region) Тип: Стек-диаграмма (Stacked Bar Chart)

Original size 969x604
Original size 1129x397

Один из самых сложных технических графиков в проекте. Мне нужно было сравнить продажи на топ-платформах в трех ключевых регионах: Северной Америке (NA), Европе (EU) и Японии (JP). Для этого я написала алгоритм, который автоматически находил нужные столбцы в датасете и накладывал их друг на друга. Инсайт: График выявил четкое географическое разделение предпочтений: • США: Драйвер продаж для Xbox и жанра шутеров. • Европа: Более сбалансированный рынок, тяготеющий к PlayStation. • Япония: Уникальный изолированный рынок с аномально высокой долей портативных консолей (DS, 3DS, Switch) и ролевых игр, где домашние консоли Xbox практически не продаются.

Original size 974x561

Зал Славы (Hall of Fame) Тип: Горизонтальный рейтинг

Original size 1145x601

Рейтинг самых продаваемых игр всех времен. Здесь использовалась сортировка по глобальным продажам. Инсайт: В топ попадают так называемые «System Sellers» — игры, ради которых люди покупали саму приставку (Wii Sports, Super Mario, GTA V). Статистически эти проекты являются «выбросами»: их продажи превышают средние показатели по индустрии в десятки раз.

Original size 974x601

Жизненный цикл консолей (Platform Lifecycle) Тип: Тепловая карта (Heatmap)

Original size 1199x420

Для этого графика я использовала сводную таблицу (pivot_table), где по оси X отложены годы, а по оси Y — платформы. Интенсивность цвета показывает количество выпущенных игр. Инсайт: Тепловая карта идеально визуализирует смену поколений. Четко прослеживаются 5–7 летние циклы жизни консолей: запуск -> насыщение рынка -> угасание. Видно, как активность на PlayStation 3 падает ровно в тот момент, когда разгорается активность на PlayStation 4. Это «сердцебиение» индустрии, диктующее сроки разработки игр.

Использование генеративных моделей (ИИ)

В соответствии с требованиями, в проекте использовался искусственный интеллект (модель Google Gemini) в роли ассистента-аналитика («Thought Partner»). Цели применения:

  1. Оптимизация кода: ИИ помогал писать сложные конструкции Pandas (например, автоматический поиск и переименование столбцов с продажами, чтобы код работал универсально на разных версиях датасета).
  2. Отладка (Debugging): Помощь в устранении ошибок типа KeyError и проблем с типами данных при очистке пропусков.
  3. Стилизация: Генерация параметров для библиотеки Seaborn, чтобы добиться единого «бесшовного» стиля графиков без рамок и на прозрачном фоне.
  4. Интерпретация: Помощь в формулировке бизнес-инсайтов на основе полученных визуализаций. Ссылка на модель: Google Gemini https://gemini.google.com/u/1/

Заключение

В ходе работы был проведен полный цикл анализа данных: от поиска и очистки «сырого» датасета до создания презентационных материалов. Анализ подтвердил, что игровая индустрия — это цикличный рынок с высокой конкуренцией, где успех зависит от географического позиционирования и наличия сильных эксклюзивных проектов. Использование Python позволило обработать массив из тысяч строк за секунды и выявить тренды, которые невозможно заметить при обычном просмотре таблиц.

Анализ и визуализация данных индустрии видеоигр
Project created at 17.01.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more