Original size 1140x1600

Анализ данных и визуализация

PROTECT STATUS: not protected

Вводная часть

Титаник является одной из самых известных трагедий в истории, и исследование выживания пассажиров может дать представление о социальных, экономических и демографических факторах, влияющих на шансы на выживание.

Анализ данных о выживших на Титанике может выявить паттерны и зависимости, такие как влияние класса (первый, второй, третий), возраста, пола и других факторов на вероятность выживания. Это позволяет глубже понять, как различные условия и обстоятельства могли повлиять на соблюдение жизни в критической ситуации.

Данные доступны в формате CSV (Comma-Separated Values) на платформе GitHub, что позволяет легко загружать и обрабатывать их в различных аналитических инструментах.

Данные содержат различные характеристики пассажиров, такие как имя, пол, возраст, класс, цена на билет, количество родителей/детей на борту и другие. Эти атрибуты позволяют проводить многопараметрический анализ, делая данные уникальными для изучения социальных динамик и кризисных ситуаций.

Я решила использовать следующие виды графиков:

Столбчатые графики  — Они идеально подходят для визуализации категориальных данных, таких как количество выживших и погибших по полу или классу. Столбчатые графики позволяют легко сравнивать между собой разные группы и акцентировать внимание на количественных различиях.

Круговая диаграмма  — Использую круговую диаграмму для отображения процентного соотношения выживших и погибших. Этот вид графика наглядно демонстрирует общий расклад — какой процент пассажиров выжил, а какой нет, что дает быстрое и понятное представление о ситуации на Титанике.

Тепловая карта  — Тепловая карта помогает визуализировать взаимосвязь между несколькими переменными, например, между возрастом, классом и вероятностью выживания. Она может продемонстрировать, как разные факторы влияют на шансы на выживание, добавляя дополнительный уровень анализа.

Этапы работы

big
Original size 1280x160

Анализ данных начинается с импорта необходимых библиотек для работы с данными и визуализацией, после чего задаётся URL-адрес для загрузки набора данных о Титанике в формате CSV. Затем данные из этого файла считываются и сохраняются в переменной, представляющей собой таблицу, что позволяет их далее анализировать и визуализировать.

big
Original size 1280x570

Далее производится комплексный анализ загруженного датасета о Титанике. Сначала выводятся первые строки таблицы, информация о структуре данных и описательная статистика для числовых и категориальных столбцов. Затем проверяются пропущенные значения, их количество и процент в каждом столбце. Также определяется количество уникальных значений в столбцах и конкретно рассматриваются уникальные значения для категорий пола и порта посадки. Далее анализируется распределение целевой переменной, рассчитывается процент выживших и погибших, средний возраст для различных групп, а также факторы, влияющие на выживание, такие как класс каюты, пол, порт посадки, стоимость билета и количество родственников. Все эти операции позволяют глубже понять данные и выявить зависимости между различными переменными.

Original size 1280x523

После чего начинается визуализация различных аспектов данных о пассажирах Титаника с помощью графиков. Сначала строится гистограмма для распределения возрастов пассажиров, затем создается круговая диаграмма, показывающая долю выживших и погибших. Проводится анализ зависимости возраста от выживаемости с помощью гистограммы и затем строится столбчатая диаграмма, иллюстрирующая выживаемость в зависимости от пола и класса каюты. Наконец, формируется скрипичный график, который показывает распределение возраста по полу с учетом выживаемости.

Итоговые графики

Original size 793x432
Original size 662x433
Original size 376x394
Original size 663x430
Original size 660x418
Original size 667x432
Original size 671x429

Ссылки

Анализ данных и визуализация
Project created at 03.04.2025
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more