Лес, сосиски, (не)работающий код: второй хакатон по Digital Humanities

Как прошел августовский выезд цифровых гуманитариев на «Летнюю школу» на берегу Волги.

3 августа сотрудники Центра цифровых гуманитарных исследований НИУ ВШЭ совместно с научно-популярным изданием «Системный Блокъ» провели второй хакатон по Digital Humanities. На этот раз хакатон был выездным: он прошел среди елок, сосен и палаток на берегу Волги. Там неподалеку от Дубны уже не первый год проходит «Летняя школа», она же бывшая Летняя школа «Русского репортёра», она же ЛШ.

Так выглядит типичная ЛШ. Правда, в этом году было серо-дождливо, поэтому мы взяли наш снимок ЛШ из божественного лета 2018-го (и плачем над ним)

Участие в однодневном «закоде» приняли около 50 человек — участники мастерской «Анализ данных в социальных и гуманитарных науках», широко известной под названием АнДан. На АнДане не первый год собираются любители анализа данных и языка программирования R.

Легендарный кальмар — флаг АнДана

В последние годы в этом все активнее участвуют преподаватели и студенты НИУ ВШЭ, в частности, преподаватель школы лингвистики Георгий Мороз. Центр цифровых гуманитарных исследований на АнДане уже дважды представлял Даниил Скоринкин.

Хакатон дал участникам школы возможность обкатать свежеприобретенные знания в почти боевых условиях нехватки времени, места  и тепла.

А так выглядел сам хакатон; неспроста многие в куртках

Хакатон стал заключительным аккордом двух программ в рамках АнДана — стартовой, участники которой до этого две недели осваивали азы работы с данными, и визуализационной, где более опытные участники обучались техникам наглядного представления данных.

Навыки визуализации сильно помогли на представлении результатов хакатона

Организаторы привезла на хакатон несколько разнообразных наборов данных. Например, большой корпус российских газетных текстов с 2000 года. В нем можно с помощью статистики и компьютерной лингвистики анализировать разные новостные и общественные макротренды. Корпус состоял из 126 тыс. статей региональной прессы и 116 тыс. статей из нескольких крупных федеральных изданий.

Презентация итогов команды газетного корпуса

А датасет с предложениями жилья на Airbnb содержал данные по съемным домам, квартирам и комнтам в Нью-Йорке, Лондоне и Сиднее. Для каждого предложения были известны 96 параметров: от широты и долготы до средней оценки пользователей.

Презентация итогов одной из команд Airbnb

Больше всего команд сложилось вокруг набора данных о призыве во время Великой отечественной войны (кодовое название — (Не)Известный солдат). На этот раз в данных исследовали не только региональные особенности призыва, но и гендерные параметры, соотношение солдат и офицеров и другие параметры.

В конце дня участники хакатона выступили друг перед другом с презентациями. В данных нашлось много интересного и странного, а работа с ними принесла много боли интересного опыта, которым все радостно делились друг с другом, щедро сдабривая слайды локальными и общеизвестными мемами. Закончилось все общим костром, на котором жгли жарили сосиски, хотя наиболее суровые представители ЛШ ели их живьем, т.е. сырыми. Вгрызаясь в сосисочную плоть разной степени прожарки, участники сошлись на том, что хакатон удался на славу.