Original size 1684x2528

Исследование клинических и демографических факторов при раке молочных желез

PROTECT STATUS: not protected

Введение в проблематику

Рак молочной железы — одно из самых распространенных онкологических заболеваний в мире, которое кардинально меняет жизнь женщин. За каждой цифрой в медицинской статистике стоит реальная человеческая история, сложный путь лечения и надежда на ремиссию. Сегодня медицина все больше опирается на данные: анализ специфических белков-маркеров и клинических показателей помогает врачам точнее прогнозировать течение болезни и выбирать оптимальную стратегию борьбы.

В своем исследовании я использовала датасет Breast Cancer Survival с сайта kaggle.com, содержащий данные о пациентках, прошедших хирургическое лечение. База включает в себя информацию о возрасте, стадии опухоли (Tumour_Stage), типе гистологии, уровнях экспрессии четырех специфических белков (Protein1 — Protein4), виде проведенной операции (Surgery_type), а также даты операции и последнего визита, что позволяет рассчитать сроки выживаемости и отследить текущий статус пациента (жив/мертв).

Original size 1746x888

Для визуального оформления проекта я выбрала строгую, но эмпатичную палитру, состоящую из нежно-розовых (международный цвет борьбы с раком груди) и сдержанных матово-серых оттенков. В качестве основного шрифта использован лаконичный Montserrat. Моей целью было создать ощущение чистоты медицинских исследований, не теряя при этом фокуса на человеческой стороне вопроса.

Обработка данных

Для начала я импортировала необходимые мне библиотеки: numpy, matplotlib.pyplot, seaborn и pandas. После чего считала скачанный csv-файл датасета breast_cancer_survival.csv.

Original size 1488x361

Использовала метод .dropna (), чтобы исключить из анализа строки с пропущенными критически важными значениями (например, статусом пациента или стадией).

Для поиска скрытых закономерностей в распределении диагнозов я применила тепловую карту. Этот изучающий подход позволил мне найти специфические паттерны. Например, карта помогла мне обнаружить аномалию: слизистая карцинома (Mucinous Carcinoma) образует «холодную зону» на 3-й стадии, что может указывать на менее агрессивный характер этого типа опухоли по сравнению с другими

Original size 963x589

Распределение пациентов по полу

Чтобы продемонстрировать демографический состав базы данных, я подготовила данные для круговой диаграммы. Переменную name (или индексы) я использовала для информации о поле пациентов (Female и Male), а value — для подсчета количества упоминаний каждого пола. Этот базовый объясняющий график наглядно подтверждает известный медицинский факт, что абсолютное большинство пациентов с диагнозом рак молочной железы (в данной выборке более 98%) составляют женщины, тогда как на долю мужчин приходятся лишь единичные случаи.

Original size 2828x1313
0

Рост доли летальных исходов на разных стадиях

Представленный график представляет собой сгруппированную столбчатую диаграмму, которая относится к объясняющему типу визуализации данных. Здесь данные уже посчитаны и агрегированы, чтобы максимально быстро и понятно донести до зрителя главную найденную закономерность.

Original size 989x590

Сгруппированная столбчатая диаграмма

Original size 2828x836

Зависимость от гистологического типа опухоли и итогового статуса выживаемости

Этот график представляет собой горизонтальную столбчатую диаграмму, которая относится к объясняющему типу визуализации. Горизонтальный формат был выбран намеренно: он позволяет легко и естественно читать длинные медицинские названия гистологических типов опухолей слева направо, не искажая и не обрезая текст.

Original size 1189x590

Горизонтальная столбчатая диаграмма

Применение генеративной модели

Я использовала нейросеть Gemini AI для того, чтобы понять как решить технические проблемы при визуальном оформлении графиков. Пример запроса

Исследование клинических и демографических факторов при раке молочных желез
Project created at 23.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more