От Тацита до Оксимирона: цифровые исследования студентов

Студенты факультета гуманитарных наук представили свои цифровые исследования для курса «Современные методы в гуманитарных науках». В исследовательский прицел попали Стивен Кинг и Дарья Донцова, Михаил Шолохов и Михаил Булгаков, Аркадий и Борис Стругацкие, русский рок и русский рэп, Владимир Мединский и Владимир Путин.

На  курсе «Современные методы в гуманитарных науках» студенты ФГН НИУ ВШЭ осваивают новые цифровые подходы к анализу культурных артефактов, произведений литературы и искусства, исторических свидетельств. Под руководством специалистов Центра цифровых гуманитарных исследований историки, филологи, лингвисты, культурологи, философы, историки искусств учатся применять компьютерные методы «дальнего чтения» (т.е. автоматического анализа текстов и извлечения из них информации), овладевают программами и навыками сетевого анализа, постигают азы визуализации данных.

Курс разбит на тематические отрезки, каждый отрезок заканчивается представлением студенческих проектов — небольших групповых или индивидуальных исследований. Первый отрезок курса традиционно посвящен корпусным методам в гуманитарных науках, стилометрии (компьютерной стилистике) и тематическому моделированию. В этом учебном году первая волна студенческих проектных презентаций продолжалась в течение всего марта, в сумме было представлено 18 исследований. Ниже мы кратко опишем особенно примечательные:

Студенты-лингвисты Галина Рязанская, Мария Суворова и Алена Щевьева использовали тематическое моделирование для анализа творческой эволюции русских писателей-эмигрантов — И. А. Бунина, С. Д. Довлатова, А. И. Солженицына ( Презентация Emigre Writers: Topic Modeling Before and After). Используя программный пакет Mallet, авторы исследования показали, как меняются преобладающие темы в творчестве писателей после отъезда из России. В частности, становится менее выраженной тема употребления алкоголя, зато больше оказывается описаний быта за границей.

Историки Владислав Тюрин и Полина Янина провели сразу четыре исследования, объединенных методом (стилометрия) и целью (проверка истинности авторства). Используя пакет Stylo, исследователи

  • удостоверились в том, что трактат «Германия» действительно написан Тацитом и НЕ является средневековой подделкой (такие подозрения существовали из-за комплиментарного по отношению к германцам характера текста)
  • обнаружили возможные следы литературных негров в творчестве Дарьи Донцовой
  • не обнаружили таковых в творчестве Стивена Кинга
  • проверили подозрения относительно диссертации Владимира Мединского

Презентация Владислава Тюрина и Полины Яниной

Лингвисты Дарья Шапоренко и Кирилл Семенов предприняли при помощи тематического моделирования попытались развеять некоторые устойчивые стереотипы о священных книгах разных религий (Презентация Topic Modeling of the Sacred Books). Анализу подверглись тексты Библии, Корана, Авесты и Трипитаки. В результате авторам удалось показать, что

  • Коран, вопреки распространенному мнения, не является более «агрессивной» книгой, чем прочие
  • Библия имеет наибольший интерес к истории и историческим событиям
  • Трипитака и Авеста сильнее сконцентрированы на религиозных практиках и обрядах.

Тема противостояния добра и зла одинаково сильно прослеживается во всех книгах.

Филологи Даниил Игнатьев, Дмитрий Крылов и Марина Толкачева применили стилометрию к одной из известнейших проблем определения авторства — спору вокруг романа «Тихий Дон» ( Презентация Authorship of Quiet Don ). Результаты подтвердили предыдущие эксперименты: стиль «Тихого дона» не похож на стиль ни одного из известных кандидатов (Крюков, Краснушкин, Серафимович) и ближе всего к стилю автора «Поднятой целины», то есть самого М. А. Шолохова.

Софья Стежко (ОП «История искусства») тем же методом исследовала соавторство фантастов Аркадия и Бориса Стругацких. Собрав корпус из 28 текстов братьев Стругацих и сопоставляя их с теми, что были написаны Аркадием и Борисом по отдельности, автор исследования продемонстрировала соотношение вклада братьев в совместные книги.

Еще одно стилометрическое исследование на текстах XX века провели филологи Мария Шур и Ксения Самохвалова. В своей работе они предприняли смелую попытку оценить, насколько профессиональный писатель способен переключиться на другой стиль при создании «книги в книге». Для анализа использовались «Мастер и Маргарита» М. А. Булгакова (с романом Мастера) и «October Light» Джона Гарднера.

В ряде исследований объектами становились артефакты современной культуры. Так, лингвисты Эдуард Григорьев и Маргарита Берсенева изучили новогодние обращения и послания к федеральному собранию президента РФ. С помощью стилометрии и тематического моделирования удалось показать разницу в выборе тем между Владимиром Путиным и Дмитрием Медведевым, а также стилистические различия между Путиным первых двух сроков (2000 – 2008) и Путиным после 2012 года.

Культурологи Ирина Терехова и Даниил Поленок теми же методами сопоставляли русский рок 1980-х (группы Кино, Аквариум, ДДТ, Аукцыон, Ноль) и современный русский рэп (Oxxxymiron, Хаски, Каста, Скриптонит, ЛСП). Рэп-тексты по итогам исследования оказались гораздо более стилистически разнородными.

Команда Центра цифровых гуманитарных исследований ФГН НИУ ВШЭ в лице доцентов школы лингвистики Франка Фишера, Бориса Орехова и преподавателя Даниила Скоринкин благодарит студентов за вдохновляющие исследования.

Презентации и данные экспериментов доступны в нашем GitHub-репозитории.