Инфографика данных заболеваний Альцгеймером на Dafes

Проект показывает структуру MRI-датасета для распознавания стадий деменции. Основная идея: сделать видимым не только медицинский сюжет, но и устройство данных, какие классы представлены хорошо, какие почти исчезают из выборки, и почему это важно для обучения модели

В основе инфографики лежит MRI-датасет с изображениями мозга, разделенными на четыре класса: отсутствие деменции, очень легкая деменция, легкая деменция и умеренная деменция, поэтому главный фокус проекта — не описание симптомов, а визуальный анализ того, как болезнь представлена внутри набора данных. Эта тема выбрана потому, что болезнь Альцгеймера связана с одной из самых важных проблем современной медицины: ранним выявлением нейродегенеративных изменений. Чем раньше замечены признаки нарушения, тем больше возможностей для наблюдения, поддержки пациента и планирования лечения. Цель инфографики — объяснить, как устроен набор медицинских изображений для распознавания стадий деменции и какие выводы можно сделать еще до обучения алгоритма.

Польза проекта в том, что он переводит сложный медицинско-технологический материал на понятный визуальный язык. Для обычного зрителя инфографика объясняет, что искусственный интеллект в медицине зависит от качества данных

Исходные данные

Исходный размер 1411x941

Исходный размер 4500x3000

Исходный размер 2703x1802

Исходный размер 3000x2000

Описание процесса создания

Сначала я изучила датасет и посмотрела, из каких материалов он состоит, в нем собраны MRI-снимки мозга, разделенные на группы для обучения и проверки модели. На этом этапе было важно понять, сколько всего изображений есть в наборе, какие стадии деменции в нем представлены и насколько равномерно распределены данные. После этого я посчитала, сколько снимков относится к каждой категории: без деменции, очень легкая деменция, легкая деменция и умеренная деменция. Эти подсчеты я сверила с таблицами из датасета, чтобы убедиться, что данные совпадают, так появилась основа для будущих схем: общее количество снимков, соотношение стадий и распределение изображений между частями датасета. На основе обработанных данных были выбраны четыре визуальные схемы. Первая: диаграмма баланса классов, потому что она сразу показывает масштаб различий между группами, вторая: схема train/valid/test, объясняющая, как датасет используется в машинном обучении, третья: визуальная шкала стадий с MRI-миниатюрами, чтобы зритель видел связь между классами и реальными изображениями, четвертая: матрица, которая показывает, сохраняется ли дисбаланс внутри каждой части датасета.

Использованные инструменты

В проекте использовался Codex для анализа и производства, он помог разобрать структуру архива, определить, какие показатели можно визуализировать, сформулировать идею проекта и собрать технический пайплайн

Пайплайн

Распаковка архива и изучение структуры датасета
Подсчет MRI-снимков по классам ND, VMD, MD, MoD
Подсчет распределения по train, valid и test
Сверка результатов с CSV-файлами классов
Формулирование главного вывода по датасету
Выбор графиков для разворота: баланс классов, split-схема, MRI-шкала и матрица
Проектирование журнального разворота как носителя инфографики
Подбор MRI-миниатюр по одному примеру на каждый класс
Сборка SVG-графики
Создание обложки и трех мокапов, показывающих инфографику как журнальный разворот