Original size 1038x1536

Визуализация данных о пингвинах

PROTECT STATUS: not protected

Выбор данных

Для того чтобы найти интересные данные для визуализации, я обратилась к сайту Kaggle. Среди множества вариантов моё внимание сразу привлёк датасет про пингвинов — ведь они такие забавные и милые. Мне стало интересно узнать о них больше с научной точки зрения: чем отличаются разные виды, связан ли их рацион с массой тела, какие факторы в целом влияют на их здоровье?

Анализируемые данные были собраны на архипелаге Палмера, расположенном вблизи Антарктиды. Датасет содержит информацию о трёх видах пингвинов (Adelie, Gentoo и Chinstrap) и охватывает следующие показатели:  — Биометрические данные: длину и глубину клюва, длину ласт, массу тела.  — Вид, пол и информацию о жизненной стадии.  — Геолокацию и год, когда проводились наблюдения.  — Особенности питания и информацию о состоянии здоровья пингвинов.

Для того, чтобы можно было более точно и грамотно работать с кодом, я использовала DeepSeek. Обращалась к нему, когда мне нужно было исправить ошибки в коде. Для создания визуализаций я выбрала следующие типы графиков:  — Столбчатую диаграмму (countplot), отображающую распределение видов пингвинов по разным островам.  — Круговые графики (pie chart) для визуализации распределения пингвинов по полу и возрасту.  — Гистограммы (histogram), отображающие распределение числовых значений для каждого вида пингвинов.  — Ящик с усами (boxplot) для визуализации распределения массы тела пингвинов на каждом острове.  — Диаграмму рассеяния (scatter plot), показывающую зависимость между длиной и глубиной клюва у пингвинов разных видов.  — Составную столбчатую диаграмму (stacked bar chart), чтобы показать, как тип питания влияет на состояние здоровья пингвинов.

Загрузка данных

Для начала я подключила свой Google Drive к Google Colab, чтобы Colab мог работать с данными, хранящимися в облаке.

Original size 1899x153

Далее я импортировала библиотеки pandas, matplotlib.pyplot, и seaborn для анализа и визуализации данных. Затем подгрузила CSV-файл с данными о пингвинах из моего Google Drive и вывела первые несколько строк, чтобы убедиться, что данные загрузились правильно.

Original size 1899x321
Original size 3711x744

Стиль

Для того, чтобы в дальнейшем можно было стилизовать графики, я сгенерировала арктический пейзаж в Recraft AI и с помощью Adobe Color извлекла цветовую палитру.

/промт: Antarctica landscape. Blue sky with light pink clouds. Light snowfall.

Original size 1820x1024
Original size 3640x586

Теперь можно перейти к стилизации графиков. Я изменяю цвета (используя созданную палитру), шрифты и размеры текста, чтобы визуализации стали более понятными и приятными для восприятия.

Original size 1899x825

Визуализации

/01 визуализация

Мне было интересно посмотреть, какие виды пингвинов (Adelie, Chinstrap, Gentoo) обитают на каждом острове (Biscoe, Dream, Torgensen) и каково их количество. Для начала я задала размеры диаграммы и цветовую палитру (эта часть кода будет немного видоизменяться при построении следующих визуализаций, так как количество оттенков в каждой из них индивидуально, также как и необходимые размеры самого графика).

Далее я перешла к созданию столбчатой диаграммы, в которой:  — По оси X расположены названия островов.  — По оси Y отложено количество пингвинов.  — Для каждого острова показаны три столбика, каждый из которых соответствует одному из видов пингвинов.  — Высота столбика отражает количество пингвинов этого вида на данном острове.  — Цвета столбиков соответствуют разным видам пингвинов.

Original size 1899x573
Original size 1190x690

Из графика видно, что:  — На острове Biscoe живут все пингвины Gentoo, а на острове Dream — все пингвины Chinstrap.  — На острове Torgersen живут только пингвины Adelie, при этом представители данного вида практически равномерно распределены между всеми тремя островами.  — Самый населенный пингвинами остров — Biscoe, а менее населенный — Torgersen.

/02 визуализация

Далее я хотела узнать о соотношении самцов и самок (Male, Female), а также о распределении пингвинов по возрастным категориям (Adult, Juvenile, Chick). Для этого были созданы два круговых графика:  — Размер каждого сектора пропорционален доле пингвинов, относящихся к соответствующей категории.  — Внутри каждого сектора указан процент пингвинов, приходящихся на эту категорию.

Код также задает цвета для графиков, заголовки и текст для отображения процентного соотношения каждой категории.

Original size 1899x1203
Original size 1189x674

Из графиков видно, что:  — Соотношение самцов и самок (Male, Female) примерно одинаковое, при этом есть небольшое преобладание самцов (50.3%).  — Наибольшую долю составляют взрослые пингвины (Adult) (44.9%), затем молодые особи (Juvenile) (30.0%), а наименьшую — птенцы (Chick) (25.1%).

/03 визуализация

Также мне стало интересно сравнить разные виды пингвинов по числовым характеристикам (Body Mass (g), Flipper Length (mm), Bill Length (mm), Bill Depth (mm)), чтобы узнать, есть ли какие-то различия в их размерах. Для этого я создала четыре гистограммы, где:  — По оси X отложены значения характеристики.  — По оси Y отложено количество пингвинов, имеющих данное значение характеристики.  — Каждый вид пингвинов представлен своим цветом.  — Линия поверх столбцов — это оценка плотности распределения (KDE — Kernel Density Estimate), которая показывает общую форму распределения для каждого вида.

Original size 1899x1623
Original size 1189x704

Из графиков видно, что:  — Пингвины Gentoo в среднем имеют наибольшие значения по всем четырём параметрам: массе тела, длине плавника, длине клюва и глубине клюва (Body Mass (g), Flipper Length (mm), Bill Length (mm), Bill Depth (mm)).

/04 визуализация

Далее я решила посмотреть, как масса тела пингвинов (Body Mass (g)) зависит от острова (Biscoe, Dream, Torgensen) и пола (Male, Female). Для этого я построила ящик с усами, где:  — Ящик отображает интерквартильный размах (IQR), то есть 50% центральных значений данных. Верхняя и нижняя границы коробки — 75-й и 25-й процентили соответственно.  — Медиана (50-й процентиль) массы тела.  — «Усы» показывают диапазон данных, за исключением выбросов (1.5*IQR).  — Выбросы — отдельные значения, которые значительно отличаются от основной массы данных.

Original size 1899x912
Original size 1189x690

Из графика видно, что:  — На всех островах самцы пингвинов (Male) в среднем тяжелее самок (Female).

/05 визуализация

Также мне было интересно узнать, как связаны длина (Bill Length (mm)) и глубина клюва (Bill Depth (mm)), и как это соотносится с разными видами (Adelie, Chinstrap, Gentoo). Для этого я создаю диаграмму рассеяния, где:  — Каждая точка на графике представляет измерение длины и глубины клюва для одной птицы.  — Цвет точки соответствует виду пингвина.  — Линия регрессии, которая показывает общую тенденцию в данных. Она стремится пройти как можно ближе ко всем точкам, показывая, как в среднем глубина клюва меняется с увеличением длины клюва.

Original size 1899x951
Original size 1190x690

Из графика видно, что:  — Есть слабая положительная корреляция между длиной и глубиной клюва, то есть чем длиннее клюв, тем он глубже.

/06 визуализация

Интереснее всего мне было узнать, как типы питания (Fish, Krill, Parental, Squid) связаны с состоянием здоровья пингвинов (Healthy, Overweight, Underweight). Для этого я сначала сгруппировала данные, подсчитала количество пингвинов для каждой комбинации диеты и состояния здоровья, а затем преобразовала эти значения в проценты. После чего создала диаграмму, где:  — Каждый столбец представляет основной рацион.  — Общая высота каждого столбца соответствует 100% пингвинов с данным типом питания.  — Каждый сегмент внутри столбца представляет процент пингвинов с определенным состоянием здоровья.

Original size 1899x825
Original size 1189x690

Из графика видно, что:  — Большинство пингвинов, питающихся рыбой (Fish), имеют избыточный вес (Overweight).  — Большинство здоровых пингвинов (Healthy) получают пищу от родителей (Parental).  — Большинство пингвинов с недостатком веса (Underweight) питаются крилем (Krill).

Заключение

На основе собранных данных можно сделать вывод о том, что существует сложная взаимосвязь между видом пингвина, средой обитания, диетой и состоянием здоровья. Понимание этих взаимосвязей имеет важное значение для разработки стратегий сохранения и защиты этих уникальных видов.

Original size 1820x1024

/промт для изображения: A group of cute fluffy penguins in blue and pink scarves, with big black eyes and playful poses, standing on snowy ice. Background: snowy expanses, pink winter sky, light snowflakes.

/промт для обложки: Two little fluffy penguins stand on an ice floe and hold tightly to their flippers. Big shiny eyes, awkward poses, contented smiles. One in a blue scarf, the other in a pink one. Background: snowy expanses, pink winter sky, light snowflakes.

Визуализация данных о пингвинах
Project created at 08.07.2025
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more