Анализ данных по серии книг «Властелин колец» on Dafes

Тема

Для анализа мной была выбрана серия книг «Властелин колец». В данном исследовании мной будут сравниваться частота употребления тех или и географических названий, имён и наименований рас.

Данные

С платформы Kaggle мной был взяты файлы с текстом Дж.Толкиена «Братство кольца», «Две крепости» и «Возвращение короля» и объединены в один txt файл.

Для написания кода мной был использован Google Colab.

Типы диаграмм

1. Столбчатая 2. Линейная 3. Точечная

График 1

Мне хотелось проанализировать какие географические названия являются самыми популярными во всех трёх частях.

Для точности результатов мне для начала понадобилось разделить текст. С помощью регулярных выражений (re.compile) я искала заголовки «THE FELLOWSHIP OF THE RING», «THE TWO TOWERS» и «THE RETURN OF THE KING».

Original size 1384x884

Также при работе с текстом мне понадобилось создать функцию count_occurrences (), которая использовала бы регулярные выражения для поиска точных совпадений слов с учетом их границ. Это позволило избежать подсчета частичных совпадений (например, «Gondor» в «Gondorian»). Для каждого анализируемого объекта (стран, рас, персонажей) были составлены списки ключевых слов и вариантов их написания.

Для корректного подсчета мне также понадобилось объеденить синонимы («Lothlórien» и «Lórien») через словарь Python. Результаты были сохранены в DataFrame Pandas.

График 2

Вторым моим шагом был анализ расового состава и визуализация того, как он менялся на протяжении всех трёх частей.

Original size 1588x984

Мной был составлен словарь races с девятью расами и их вариантами написания на английском языке. Для каждой расы учитывал множественное число и синонимы (wizard» и «mage»).

График 3

Третьим моим шагом было проанализировать сколько раз употребляются наименования, связанные с родиной хоббитов по мере их продвижения к цели.

Original size 1184x683

Для анализа динамики упоминаний мне понадобилось создать функцию count_occurrences_by_part (), которая подсчитывала частотность слов в каждой из трех частей отдельно. Это позволило проследить, как меняется упоминание Шира и Бэг Энда.

График 4

Четвёртым моим шагом был анализ того, как часто упоминается Саурон (антагонист) по мере приближения главных героев к нему.

Original size 1177x783

Для этого мне также понадобилось создать функцию count_occurrences_by_part (). Это позволило отследить количество упоминаний Саурона и синонимичных ему слов по трём частям.

Вывод

В тройке лидеров по частоте упоминания находятся следующие регионы: Шир (родина главного героя), Гондор (финальное поле битвы) и Мордор (заключительная точка путешествия хоббитов), что объясняется их важностью для сюжета.
К началу Эпохи людей и финальной битве количество упоминаний их в тексте увеличивается.
Чем дальше хоббиты отходят от Шира и Бэг энда, тем реже они упоминаются в тексте, однако в заключительной части число этих наименований возрастает.
Чем ближе главные герои подходят к Саурону, тем больше его имя фигурирует в тексте.

Нейросети

В ходе работы мной были использованы следующие сервисы:

ChatGPT — для поиска ошибок в коде и их исправления.

Ссылка на Яндекс Диск с кодом