От Тацита до Оксимирона: цифровые исследования студентов
Студенты факультета гуманитарных наук представили свои цифровые исследования для курса «Современные методы в гуманитарных науках». В исследовательский прицел попали Стивен Кинг и Дарья Донцова, Михаил Шолохов и Михаил Булгаков, Аркадий и Борис Стругацкие, русский рок и русский рэп, Владимир Мединский и Владимир Путин.
На курсе «Современные методы в гуманитарных науках» студенты ФГН НИУ ВШЭ осваивают новые цифровые подходы к анализу культурных артефактов, произведений литературы и искусства, исторических свидетельств. Под руководством специалистов Центра цифровых гуманитарных исследований историки, филологи, лингвисты, культурологи, философы, историки искусств учатся применять компьютерные методы «дальнего чтения» (т.е. автоматического анализа текстов и извлечения из них информации), овладевают программами и навыками сетевого анализа, постигают азы визуализации данных.
Курс разбит на тематические отрезки, каждый отрезок заканчивается представлением студенческих проектов — небольших групповых или индивидуальных исследований. Первый отрезок курса традиционно посвящен корпусным методам в гуманитарных науках, стилометрии (компьютерной стилистике) и тематическому моделированию. В этом учебном году первая волна студенческих проектных презентаций продолжалась в течение всего марта, в сумме было представлено 18 исследований. Ниже мы кратко опишем особенно примечательные:
Студенты-лингвисты Галина Рязанская, Мария Суворова и Алена Щевьева использовали тематическое моделирование для анализа творческой эволюции русских писателей-эмигрантов — И. А. Бунина, С. Д. Довлатова, А. И. Солженицына ( Презентация Emigre Writers: Topic Modeling Before and After). Используя программный пакет Mallet, авторы исследования показали, как меняются преобладающие темы в творчестве писателей после отъезда из России. В частности, становится менее выраженной тема употребления алкоголя, зато больше оказывается описаний быта за границей.
Историки Владислав Тюрин и Полина Янина провели сразу четыре исследования, объединенных методом (стилометрия) и целью (проверка истинности авторства). Используя пакет Stylo, исследователи
- удостоверились в том, что трактат «Германия» действительно написан Тацитом и НЕ является средневековой подделкой (такие подозрения существовали из-за комплиментарного по отношению к германцам характера текста)
- обнаружили возможные следы литературных негров в творчестве Дарьи Донцовой
- не обнаружили таковых в творчестве Стивена Кинга
- проверили подозрения относительно диссертации Владимира Мединского
Презентация Владислава Тюрина и Полины Яниной
Лингвисты Дарья Шапоренко и Кирилл Семенов предприняли при помощи тематического моделирования попытались развеять некоторые устойчивые стереотипы о священных книгах разных религий (Презентация Topic Modeling of the Sacred Books). Анализу подверглись тексты Библии, Корана, Авесты и Трипитаки. В результате авторам удалось показать, что
- Коран, вопреки распространенному мнения, не является более «агрессивной» книгой, чем прочие
- Библия имеет наибольший интерес к истории и историческим событиям
- Трипитака и Авеста сильнее сконцентрированы на религиозных практиках и обрядах.
Тема противостояния добра и зла одинаково сильно прослеживается во всех книгах.
Филологи Даниил Игнатьев, Дмитрий Крылов и Марина Толкачева применили стилометрию к одной из известнейших проблем определения авторства — спору вокруг романа «Тихий Дон» ( Презентация Authorship of Quiet Don ). Результаты подтвердили предыдущие эксперименты: стиль «Тихого дона» не похож на стиль ни одного из известных кандидатов (Крюков, Краснушкин, Серафимович) и ближе всего к стилю автора «Поднятой целины», то есть самого М. А. Шолохова.
Софья Стежко (ОП «История искусства») тем же методом исследовала соавторство фантастов Аркадия и Бориса Стругацких. Собрав корпус из 28 текстов братьев Стругацих и сопоставляя их с теми, что были написаны Аркадием и Борисом по отдельности, автор исследования продемонстрировала соотношение вклада братьев в совместные книги.
Еще одно стилометрическое исследование на текстах XX века провели филологи Мария Шур и Ксения Самохвалова. В своей работе они предприняли смелую попытку оценить, насколько профессиональный писатель способен переключиться на другой стиль при создании «книги в книге». Для анализа использовались «Мастер и Маргарита» М. А. Булгакова (с романом Мастера) и «October Light» Джона Гарднера.
В ряде исследований объектами становились артефакты современной культуры. Так, лингвисты Эдуард Григорьев и Маргарита Берсенева изучили новогодние обращения и послания к федеральному собранию президента РФ. С помощью стилометрии и тематического моделирования удалось показать разницу в выборе тем между Владимиром Путиным и Дмитрием Медведевым, а также стилистические различия между Путиным первых двух сроков (2000 – 2008) и Путиным после 2012 года.
Культурологи Ирина Терехова и Даниил Поленок теми же методами сопоставляли русский рок 1980-х (группы Кино, Аквариум, ДДТ, Аукцыон, Ноль) и современный русский рэп (Oxxxymiron, Хаски, Каста, Скриптонит, ЛСП). Рэп-тексты по итогам исследования оказались гораздо более стилистически разнородными.
Команда Центра цифровых гуманитарных исследований ФГН НИУ ВШЭ в лице доцентов школы лингвистики Франка Фишера, Бориса Орехова и преподавателя Даниила Скоринкин благодарит студентов за вдохновляющие исследования.
Презентации и данные экспериментов доступны в нашем GitHub-репозитории.