Визуализация данных о мемах c Reddit on Dafes

Выбор данных для анализа

Original size 1536x1024

Я очень люблю мемы. Именно поэтому я выбрала эту тему для анализа. Тем более, простые и смешные картинки могут сказать гораздо больше, чем кажется на первый взгляд: предпочтения людей, их мировоззрение, мнения, взгляды.

На сайте kaggle.com я нашла датасет Memotion Dataset 7k, из которого брала информацию.

Стиль

Один из самых узнаваемых мемов — лягушка Пепе. В честь Пепе в качестве цветовой палитры я использую градацию зеленого цвета.

Original size 3467x1415

Анализ текста

Я подумала, что анализ мемов стоит проводить в несколько разделов. Первый — текст. Он задает характер повествования, доносит мысль и является основополагающим элементом.

Первый анализ — взаимосвязь количества слов и «уровня» мемов. Зависит ли то, насколько смешной мем, от количества слов в его тексте? Чаще происходит так, что чем меньше слов — тем картинка смешнее.

Большая часть мемов строится вокруг личного опыта («you», «I») и типичных мемных конструкций («when you», «i can’t»), что подчёркивает разговорный характер мемного языка.

Была построена столбчатая диаграмма соотношения кол-ва знаков препинания и уровня юмора мемов. Для этого были использованы классификации юмора: not_funny, funny, very_funny, hilarious.

Original size 3467x1415

После этого был построен круговой график на анализ соотношения доли мемов, где используются только заглавные буквы (капс), и где не используются.

Также было создано облако слов с наиболее часто использованными словами в мемах с текстовой составляющей.

По структуре текста заметно, что большинство мемов используют короткие, простые слова и предложения. Однако в самых смешных и самых саркастичных мемах средняя длина слов выше, это указывает на более насыщенный и «умный» стиль подачи. Анализ пунктуации показывает, что эмоциональность выражается главным образом через восклицания и CAPS LOCK, который часто встречается в условиях высокой интенсивности юмора или токсичности.

Анализ характера мемов

Original size 3467x1900

Далее я провела анализ мемов по их характеру: мемы могут быть весёлыми, оскорбительными, нейтральными, добрыми и тд.

Каждую характеристику я перевела с английского (из датасета) на русский язык, но с сохранением оригинального названия параметра.

Судя по анализу и первому столбчатому графику в этом разделе, юмор гораздо чаще возникает в позитивном или нейтральном тоне, а попытки сделать «злой юмор» встречаются реже.

Распределение оскорбительности существенно различается между категориями юмора. Наиболее заметно, что в группе funny значительную долю составляют неоскорбительные и слегка оскорбительные примеры. Это означает, что умеренный юмор чаще всего подаётся в относительно мягкой форме.

Большинство мемов используют мягкую, универсальную форму сарказма, встречающуюся в повседневной интернет-коммуникации.

Тепловая карта показывает, что большинство текстовых и смысловых характеристик мемов слабо коррелируют друг с другом. То, насколько мем смешной, не объясняется напрямую ни его тональностью, ни саркастичностью, ни токсичностью.

Юмор и тональность в мемах распределяются довольно хаотично и не образуют выраженной линейной зависимости: смешные мемы встречаются как среди позитивных, так и среди негативных сообщений.

Эмоциональный анализ текста показывает доминирование позитивных эмоций (joy, anticipation), но при этом есть и заметный слой негативных эмоций (anger, sadness), что отражает разнообразие тем и тонов.

Топ мемов по разным характеристикам

Original size 3467x1900

Далее мне захотелось визуализировать датасет. Например, отобрать топ мемов по какой-либо характеристике (сарказм, оскорбительность, весёлость), взять из каждой группы (от 1 до 3 по силе характеристики) по несколько примеров и показать и график, и мемы, которые в нём находятся.

Original size 3508x2480

Original size 989x590

Original size 3508x2480

Original size 3508x3136

Заключение

Original size 3467x1900

В целом, мемы в датасете демонстрируют комбинацию простоты текста, высокой эмоциональности и разнообразных коммуникативных стратегий.

Ссылка на датасет и блокнот

Описание применения генеративной модели

В проекте использовались нейросети ChatGPT и DeepSeek для генерации кода и для помощи в анализе данных.

Иллюстрации были созданы с помощью ChatGPT.