К полету готовы: школа по Digital Humanities как предчувствие гуманитарного космоса

В конце октября в Вороново снова прошла «самая поздняя летняя школа» по цифровым гуманитарным исследованиям. Рассказываем о том, что происходило на IV Московско-тартуской школе «fall 4 digital» и как все участники выпали в цифровое.

Digital Humanities… это попытка смоделировать сложную гуманитарную мысль методами, похожими на первые летательные аппараты: они красивы, очень непрактичны и часто ломаются». Такое определение дал Элайджа Микс (Elijah Meeks) — специалист по визуализации данных из Apple, ранее работавший в Стэнфорде, создатель карты ORBIS, один из самых талантливых людей, когда либо заходивших в DH.

Цифровые гуманитарии запускают проект

Ежегодная Московско-тартуская школа по Digital Humanities, которую проводит Центр цифровых гуманитарных исследований НИУ ВШЭ, — что-то вроде съездов авиалюбителей на заре авиации (на такие в начале XX века ездил молодой Сергей Королёв). Раз в год в Вороново — а до того в Ясной Поляне — собираются вместе увлеченные люди и пытаются моделировать гуманитарные объекты цифровыми методами. То есть строят самолеты, которые еще никто всерьез не умеет строить.

Честный разговор о Digital Humanities

Школа номер IV началась с лекции руководителя DH-центра Анастасии Бонч-Осмоловской о «фрустрациях» Digital Humanities. Лекция была заявлена как «честный разговор на неудобную тему: что нас раздражает в Digital Humanities и как не потерять самообладания».

Действительно, если ты строишь самолет не первый год, попутно открывая все больше и больше «законов тяготения», легко впасть в уныние. Именно об этом унынии цифровых гуманитариев и говорила А.А. Бонч-Осмоловская. Когда вдруг становится ясно, что технологии не дают автоматического выигрыша ни в надежности, ни в полноте материала, ни даже в скорости. Не говоря уже о глубине анализа — примитивные вещи, которые можно посчитать с помощью компьютера в художественном тексте, по-прежнему вызывают у нецифровых гуманитариев презрительную усмешку.

Что делать? Ответ А.А. Бонч-Осмоловской примерно такой: наберитесь терпения — и пытайтесь делать более глубокие исследования, комбинируя и усложняя методы. Не просто частотности слов или категории существительных, но детектирование на их основе элементов сюжета. Не просто социальные сети персонажей, а многостороннее и многомерное моделирование их активности и взаимодействий. Одновременно стоит вспомнить гуманитарные корни: если компьютер будет делать что-то сопоставимое с тем, что делал со сказками В.Я. Пропп, а не просто строить графики слова «война» в «Войне и мире», смысла в Digital Humanities будет гораздо больше.

Видеозапись доклада А.А. Бонч-Осмоловской:

Практика: от векторной семантики до GIS

Справившись с унынием (чему способствовал обеденный перерыв — кормят в Вороново знатно), участники разошлись по практикумам. Это наименее магическая часть школы — просто две пары обучения какому-то конкретному методу или технологии. В этом году на выбор были практикумы по семантическим векторным моделям, стилометрии, геоинформационным системам, тематическому моделированию, а также комбинированный семинар «Цифровые подходы к русской литературе».

Один из практикумов все-таки выглядел достаточно магически // Фото: Ксения Костомарова

Практикумы хороши тем, что можно сразу что-то поделать руками, поработать с данными, заставить компьютер что-то сделать, увидеть результаты работы программ. Это помогает от DH-фрустрации примерно так же, как шоколад — от дементоров. В отзывах по итогам школы участники сожалели о невозможности посетить несколько занятий сразу — и высказывались за расширение «тренировочной» программы школы.

Юлия Брюханова, участница:

Может быть, это мой взгляд «новичка», но мне бы хотелось более расширить мастерские, которые были в первый день. Там хороший инструментарий. И было большое желание (но не было возможностей) посетить два или три направления.

Конференция участников

Вечером первого дня все собрались в актовом зале послушать доклады участников, не побоявшихся выступить со своими собственными исследованиями. Обсуждали плюсы и минусы количественных методов в анализе художественных произведений (от классических пьес и романов — до фанфиков); беседовали о компьютерном зрении в кино; обсуждали, насколько «всемогущ» цифровой анализ, может ли он вывезти исследование без конкретных задач и целей (к слову о шарлатанстве) и что кроется за частотностью слов «поэт» в стихотворениях А.С. Пушкина.

Доклад участницы школы Марии Кнышевой о количественных методах в киноведении

Пожалуй, главное преимущество таких конференций в Вороново — возможность получить конструктивный feedback и привлечь заинтересованных людей, готовых помочь с кодом, разметкой и даже написанием статьи — лишь бы исследование все-таки состоялось. Потом из таких мероприятий появляются научно-исследовательские группы, формируются лаборатории. А все потому, что кому-то захотелось вместе поизучать фанфики.

«Think hack» с вкраплениями китайского бестиария

Основная программа началась утром второго дня с представления тьюториалов. Если оставить за скобками еду, тьюториалы — самая главная часть Московско-тартуской школы по цифровым гуманитарным исследованиям, её «killer feature». Формат — что-то среднее между «think tank» и хакатоном. Организаторы каждого тьюториала привозят интересные социально-гуманитарные данные, а затем участники каждой команды просвечивают данные как цифровыми, так и аналоговыми методами. В этом году тьюториалов было шесть:

  • Из чего состоит виртуальный дом: категории меню домашних страниц ранних российских веб-сайтов
  • Кинопрокат Москвы и Ленинграда 1920-х годов: анализ статистики кинотеатров в ключевой для советского кино период становления
  • Дальнее чтение дневников: анализ тональности прожитого на корпусе проекта «Прожито»
  • Анатомия жизни: разработка стандарта обмена данными в просопографических исследованиях
  • Богослужебные тексты: скрытые и явные параллели — исследование текстов богослужений РПЦ на разных языках (церковнославянский, французский, африкаанс, современный русский)
  • Кино для всех: сравнительный анализ эмоций и поз в кинематографе и в жизни методами компьютерного зрения (pose recognition, facial keypoint detection)

На представлении команды рассказывали о своих планах: какие данные уже готовы, какие предстоит получить, что хочется посчитать, смоделировать, измерить, понять.

А вот небольшой фрагмент представления команды «Кино для всех» (руководитель и автор идеи — Ильдар Белялов, специалист по машинному обучению, директор программы Deep Learning на «Летней школе»). Благодаря Ильдару и его помощникам школа впервые не была ограничена исследованием текста (гипертекста) — у нас было настоящее компьютерное зрение.

Пообедав (мы ведь уже говорили, что в Вороново это главное?), команды разошлись по отдельным аудиториям и начали брейнстормить, придумывать и тестировать гипотезы, всячески вгрызаться в данные. Групповая работа на тьюториалах перемежалась выступлениями приглашенных лекторов:

  • Роман Лейбов (Тартуский университет) совместно с Борисом Ореховым (НИУ ВШЭ) рассказали об исследовании топики Крыма на крупнейшем русскоязычном сайте любительской поэзии Стихи.ру. На стихах.ру публикуются сотни тысяч авторов (а всего стихов уже 47 миллионов; нет, мы не ошиблись, миллионов). В отличие от блогов и соцсетей, довольно трудно заподозрить их в массовой ангажированности, поэтому стихи.ру _ интересный объект не только для тех, кого интересует наивная литература, но и для исследователей общественных настроений. В данном случае, изучалась реакция поэтов-любителей на крымские события 2014 года.

  • Мариана Зорькина (Университет Цюриха) рассказала об изучении бестиария в поэзии династии Тан. В текстах поэтов встречаются тигры, единороги, львы, верблюды, зайцы и другие животные — реальные или вымышленные, действительно обитавшие в Китае или известные его жителям только по слухам. Контексты упоминания животных, их своеобразные «семантические ореолы» исследовались при помощи векторных моделей (word2vec) и тематического моделирования. В частности, выяснилось, какие животные ближе к какой религии (лев и буддизм, без сюрпризов), какие значимы в контексте международных отношений, а какие хуже пахнут. Для анализа совместной встречаемости животных применялся сетевой анализ.

  • Андрей Кутузов (Университет Осло/RusVectōrēs) прочитал лекцию о том, почему мир переходит на контекстуализированные векторно-семантические модели (ELMo, BERT), а классический word2vec уже не в моде. Контекстуализированные модели обучаются строить вектор каждого слова с учетом контекста. Т.е. в них, в отличие от word2vec или fastText, нет четко заданного вектора слова кошка  — он порождается в тот момент, когда на вход системе приходит целое предложение с этим словом. То, каким будет   вектор кошки  , и как он будет относиться к словам   альпинист или когтеточка  , зависит от контекста: для предложения Альпинист надел кошку вектор будет совсем не таким, как для  Пушистая кошка прыгнула на холодильник.

Но за пределами лекций участники школы все сильнее втягивались в атмосферу гаражной разработки, возникавшей на тьюториалах. Команды тусовались в своих комнатах ночами, с ноутбуками наперевес оккупировали диванчики, обсуждали данные и задачи в курилке, столовой, а также специально отведенных для этого «Кулуаре» и «Фойе».

Чем закончились попытки взлететь?

Подробнее о том, что происходило на тьюториалах в разгар их работы, мы еще расскажем — вслед за этим репортажем на сайте Центра цифровых гуманитарных исследований выйдет и серия личных заметок от непосредственных участников разных команд. А сейчас перейдем к итогам.

Финал школы традиционно напоминает финалы хакатонов. В последний день участники, увлеченные кодингом, но подгоняемые дедлайном и неумолимо скорым приездом автобусов, спешно выкатывают презентацию. Иногда при этом продолжая кодить, обрабатывать данные вплоть до выхода на сцену (и даже прямо на ней).

Краткий обзор итоговых выступлений

Участники тьюториала по анализу богослужебных текстов русской православной церкви на разных языках сначала рассказали про технологии. Чтобы выравнять тексты богослужений на африкаанс, французском, церковнославянском и русском, потребовался целый ворох NLP-инструментов: лемматизаторы, стеммеры, элайнеры… Получившаяся первая версия параллельного корпуса позволила сделать нетривиальные наблюдения — например, про перевод Месопотамии (во французском и африкаанс она названа как в иврите, «Paddan Aram», в русском и церковнославянском вариантах — Месопотамией как в греческой Библии).

Итоговая презентация команды «Богослужебные тексты» на IV Московско-тартуской школе

Участники тьюториала «Дальнее чтение дневников»  работали с текстовым корпусом личных дневников «Прожито» под руководством сотрудников Центра цифровых гуманитарных исследований НИУ ВШЭ Анастасии Бонч-Осмоловской и Бориса Орехова. После проверки датасета и исправления нескольких ошибок (например, одна из женщин вела дневник аж с трехлетнего возраста) все разделились на три команды: data-саентисты (датасатанисты) предобрабатывали и визуализировали данные, ТМ-щики (тематические модуляторы) занимались тематическим моделированием, а остальные участники  проводили лексико-семантический анализ, работая как по всей выборке, так и отдельно, с мужскими и женскими записями. В итоге, получились не только красивые графики, но и выводы об отражении в дневниках Большого Террора и об эмоциональном диапазоне мужчин и женщин.

Тьюториал «Кино для всех» от Ильдара Белялова открыл эпоху компьютерного зрения на Московско-тартуских школах. Участники этой команды попытались найти такую метрику, которая отражала бы изменение экспрессивности актера на видео. В качестве метрики выбрали изменение угла положения рук, бровей и расстояние от бровей до глаз. таким образом можно анализировать целые  периоды развития кинематографа, не просматривая при этом каждый фильм (distant viewing, по аналогии с distant reading). Кроме многообещающих результатов работа тьюториала стала основой для заявки на конференцию ADHO 2020.

Если «Кино для всех» был совершенно новой страницей в истории Московско-тартуских школ, то тьюториал «Виртуальный дом» — наоборот, проект команды ветеранов и постоянных участников школы из Клуба любителей интернета и общества. Участники занимались интернет-археологией — исследовали  устройство ранних российских веб-сайтов и веб-экосистем, в частности, Томского интернета или тонета.

Итоговая презентация команды «Виртуальный дом» на IV Московско-тартуской школе

Тонет был отдельным сегментом интернета в пределах Томска и Томской области. Примерно с 1998 по 2008 год Тонет из-за специфики местных провайдеров развивался в режиме мягкой изоляции от остального Рунета: внутри города трафик был почти бесплатным, скорость — высокой (оптоволокно), а выход за пределы Тонета стоил существенных денег (за сотню мегабайт можно было отдать месячную зарплату). В результате в пределах одного города выросла интересная цифровая экосистема, Тонет стал своеобразным культурным феноменом.

Заранее собрав и обработав корпус исходных кодов заархивированных домашних страниц Тонета, участники туториала исследовали составы их меню: «Гостевая книга», «Новости», «Ссылки», «Архив»… Еще исследователи искали в исходном коде следы конкретных инструментов веб-разработки. Выяснилось, что многие вебмастера Тонета писали сайты вручную в html, но большинство все-таки использовали стандартные фреймворки вроде Frontpage или HomeSite. Самым популярным однако оказался не продукты от Microsoft или Macromedia/Adobe, а местная томская система СИПС Stack. В дальнейшем планируется поиск границ тонета-веба и тонета-инфраструктуры, а также сосредоточение на «фоновых» данных исторического объёма.

Участники команды  «Анатомия жизни» разрабатывали удобный и понятный цифровой формат представления биографических данных (для тех, кому Wkikdata с RDF-ом недостаточно). Осваивая инструменты XML и TEI, участники учились перегонять неструктурированные биографии (в данном случае биографии писателей) в машиночитаемый вид.

Итоговая презентация команды «Анатомия жизни» на IV Московско-тартуской школе

Итогом их тьюториала стал первый вариант структуры биографических данных. Хранение данных в таком формате позволит исследователям получить ответы на, например, такие вопросы: Чья первая публикация была раньше? Бывали ли они в одном и том же городе? Кто меньше всех прожил? У кого самое длинное название произведения? Кто из писателей обладал высокими военным чином? Кто получил университетское образование?

Шестой тьюториал школы Вороново «Кинопрокат Москвы и Ленинграда в 1920-е» исследовал вкусы раннего советского кинозрителя. Данные, которые привезли в Вороново авторы тьюториала, позволили увидеть, в какой момент зарубежные фильмы сменяются советскими:

… как это происходит (или не происходит) внутри разных киножанров:

… а также тематику фильмов по дням недели:

..и многое другое.

Материалы школы можно найти здесь (страница пополняется).

Ну и что с того?

Подводить итоги всегда довольно непросто почти так же непросто, как писать репортаж о школе, которая прошла месяц назад. Но хочется верить, что IV Московско-тартуская школа стала новым кирпичиком в здании как  российского, так и мирового Digital Humanities. Посетившие ее 90 человек из нескольких стран и городов уже вряд ли смогут забыть мем про шарлатанство (см. раздел «Честный разговор о Digital Humanities» выше).

А если говорить чуть более серьезно, разнообразие проводимых  мероприятий — лекций, конференций, практикумов и тьюториалов лишний раз подтверждает, что сами Digital Humanities находятся только на первых курсах Школы Науки, Чародейства и Междисциплинарных  направлений. Предстоит еще множество разочарований, переосмыслений и тупиковых решений. Однако бесконечная рефлексия и продвижение «per aspera ad astra» — и есть смысл существования. У цифровых гуманитариев еще нет летающих  машин, но в воздухе уже носится предчувствие цифрогуманитарного космоса.

Отзывы о школе

Захватывающий процесс обсуждения, в который оказались вовлечены почти все участники, независимо от бэкграунда. Волновалась, что сильно помешает отсутствие даже базовых навыков программирования, но востребованными оказались не только они, ну и руководитель создал комфортную атмосферу, не деля участников на тех кто умеет и кто нет.  До последнего казалось, что презентовать будет нечего, но принцип  «семь раз отмерь» сработал, и после основательных обсуждений результат появился вполне презентабельный.

Елена, участница

Организаторам школы низкий поклон — ни малейших претензий бытового и технического характера не возникало. Хорошо, что лекции были записаны на видео. И с едой всё в полном порядке.

о. Пантелеимон (Королёв), руководитель тьюториала

Я в полном восторге! Очень здоровское мероприятие: программа, участники, мерч, еда, лес — полный кайф! Хочу уже на следующую школу поехать волонтером.

Евгения Заковоротная, участница

Понравилась программа: она была насыщенной, но время на прогулки в лес всё равно оставалось. Лес понравился тоже.

Мария Подрядчикова, участница

Все здорово! Первый раз участвовала в подобной школе, получила много впечатлений. Ехала с внутренним запросом о перспективах своей научной деятельности. На конференции и в ходе работы на школе поняла, какие методы могу использовать в своей научной деятельности. Увидела, что среди российских вузов существует DH-комьюнити 🙂

Елена Михайловна Северина, участница

Спасибо организаторам и идеологам школы за прекрасную атмосферу, возможность поработать с интересными данными, послушать лекции от лучших, задать вопросы и структурировать свое представление о DH. Это было очень вдохновляюще и ценно для развития направления в своем университете.

Спасибо Анастасии Александровне за организацию работы и результат на тьюториале, Даниилу Андреевичу за общую организацию и очень вдохновляющую напутственную речь в конце, и всем участникам за потрясающий праздник разума. Прекрасные условия, свежий воздух (иногда), лес и тишина вокруг.

Праздник закончился, но было бы интересно продолжить обучение и общение, дальнейшее изучение данных, какие-то общие проекты. Какой может быть площадка по DH, на которой продолжилась бы общая работа комьюнити?

Страничка с цифровыми следами школы