Original size 595x842

Визуализация данных: анализ продаж супермаркета

PROTECT STATUS: not protected

Выбор базы данных

В этом датасете проводится анализ продаж супермаркета за период с января по март 2019 года с фокусом на структуру выручки и покупательское поведение. В рамках анализа рассматривается распределение продаж по товарным категориям и филиалам супермаркета, а также сравнивается средний чек в разных магазинах сети. Отдельное внимание уделяется популярности различных способов оплаты и тому, как клиенты совершают покупки в течение дня. Анализ также включает изучение покупательской активности по времени, что позволяет выявить часы наибольшего спроса. В завершение исследуется удовлетворённость клиентов на основе их рейтингов и анализируется связь между оценкой покупки и размером чека.

Мне было интересно работать именно с этими данными, потому что они максимально прикладные и понятные. Денежный формат легко интерпретируется, и результаты анализа можно сразу увидеть визуально, без сложных допущений. Кроме того, в датасете есть несколько логичных гипотез, которые хочется проверить на практике. Для учебного проекта по визуализации данных это хороший пример, где графики действительно помогают лучше понять структуру информации, а не просто иллюстрируют цифры.

Визуализация

В ходе работы я использовала несколько типов графиков, так как каждый из них решает свою задачу:

— Горизонтальная столбчатая диаграмма была выбрана для сравнения продаж по товарным категориям, так как она наглядно показывает различия между ними и удобна для категорий с длинными названиями. — Круговая диаграмма использовалась для отображения распределения способов оплаты, поскольку в этом случае важно показать доли от общего объёма. — Обычная столбчатая диаграмма применялась для сравнения показателей между филиалами супермаркета и среднего чека. — Линейный график позволил отследить динамику покупок во времени и увидеть пиковые периоды активности. — Диаграмма рассеяния использовалась для анализа связи между размером чека и оценкой покупки, чтобы визуально проверить наличие зависимости между этими показателями. Данные я нашла на сайте Kaggle.

Обраюотка данных

big
Original size 1348x602
Original size 917x457

По графику видно, что больше всего выручки приносит категория Food and beverages, то есть продукты питания и напитки. У остальных категорий вклад отличается незначительно, но они все же немного уступают лидеру. Меньше всего выручки приносит категория Health and beauty. Но, в целом, продажи распределены достаточно ровно, без сильного разрыва между категориями.

Original size 1348x602
Original size 537x542

Здесь видно, что покупатели почти одинаково часто покупают что-либо за наличные деньги, электронные кошельки и банковские карты. Небольшое преимущество у электронных кошельков и наличных. Это говорит о том, что клиенты пользуются разными способами оплаты, и ни один из них не является единственным предпочтительным.

Original size 1348x602
Original size 660x434

Филиал C имеет самый высокий средний чек. Филиалы A и B немного уступают, но разница между всеми ними совсем небольшая. Это может быть связано с расположением магазинов или особенностями покупателей в этих районах.

Original size 1582x602
Original size 776x434

Видно, что больше всего покупок совершается в утренние и обеденные часы и особенно много — в вечернее время, около 19 часов. После этого активность резко снижается. Это говорит о том, что многие покупатели приходят в супермаркет после работы или в свободное время вечером. А также часто приходят в обед (видимо во время обеденного перерыва) и утром (видимо, чтобы позавтракать).

Original size 1324x362
Original size 596x488

По графику видно, что высокие и средние оценки встречаются при любых суммах покупок. Большая трата денег не гарантирует высокую оценку, так же как и небольшой чек не означает низкую оценку. Это говорит о том, что удовлетворённость клиентов больше зависит от качества обслуживания и товаров, а не от суммы покупки.

Нейросети

ИИ в проекте использовался для вопросов по графикам. Примеры промптов: Как нарисовать графы в python? Как описать данные в питоне? Как обработать данные в питоне? Как проанализировать данные? Какие графики лучше использовать? Какими функциями их рисовать? Как покрасить графики?

Также обложку к проекту мне тоже сгенерировал Chat GPT по запросу «сгенерируй обложку к проекту по анализу и визуализации данных продаж супермаркета за период с января по март 2019 года»

Источники

Ссылка на папку с блокнотом и датасетом: https://disk.yandex.ru/d/cJULb75fedaaGw

Визуализация данных: анализ продаж супермаркета
Project created at 17.01.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more