Лес, сосиски, (не)работающий код: второй хакатон по Digital Humanities
Как прошел августовский выезд цифровых гуманитариев на «Летнюю школу» на берегу Волги.
3 августа сотрудники Центра цифровых гуманитарных исследований НИУ ВШЭ совместно с научно-популярным изданием «Системный Блокъ» провели второй хакатон по Digital Humanities. На этот раз хакатон был выездным: он прошел среди елок, сосен и палаток на берегу Волги. Там неподалеку от Дубны уже не первый год проходит «Летняя школа», она же бывшая Летняя школа «Русского репортёра», она же ЛШ.
Участие в однодневном «закоде» приняли около 50 человек — участники мастерской «Анализ данных в социальных и гуманитарных науках», широко известной под названием АнДан. На АнДане не первый год собираются любители анализа данных и языка программирования R.
В последние годы в этом все активнее участвуют преподаватели и студенты НИУ ВШЭ, в частности, преподаватель школы лингвистики Георгий Мороз. Центр цифровых гуманитарных исследований на АнДане уже дважды представлял Даниил Скоринкин.
Хакатон дал участникам школы возможность обкатать свежеприобретенные знания в почти боевых условиях нехватки времени, места и тепла.
Хакатон стал заключительным аккордом двух программ в рамках АнДана — стартовой, участники которой до этого две недели осваивали азы работы с данными, и визуализационной, где более опытные участники обучались техникам наглядного представления данных.
Организаторы привезла на хакатон несколько разнообразных наборов данных. Например, большой корпус российских газетных текстов с 2000 года. В нем можно с помощью статистики и компьютерной лингвистики анализировать разные новостные и общественные макротренды. Корпус состоял из 126 тыс. статей региональной прессы и 116 тыс. статей из нескольких крупных федеральных изданий.
А датасет с предложениями жилья на Airbnb содержал данные по съемным домам, квартирам и комнтам в Нью-Йорке, Лондоне и Сиднее. Для каждого предложения были известны 96 параметров: от широты и долготы до средней оценки пользователей.
Больше всего команд сложилось вокруг набора данных о призыве во время Великой отечественной войны (кодовое название — (Не)Известный солдат). На этот раз в данных исследовали не только региональные особенности призыва, но и гендерные параметры, соотношение солдат и офицеров и другие параметры.
В конце дня участники хакатона выступили друг перед другом с презентациями. В данных нашлось много интересного и странного, а работа с ними принесла много боли интересного опыта, которым все радостно делились друг с другом, щедро сдабривая слайды локальными и общеизвестными мемами. Закончилось все общим костром, на котором жгли жарили сосиски, хотя наиболее суровые представители ЛШ ели их живьем, т.е. сырыми. Вгрызаясь в сосисочную плоть разной степени прожарки, участники сошлись на том, что хакатон удался на славу.