«12-часовой хакатон промелькнул на одном дыхании»

На первом в НИУ ВШЭ хакатоне по Digital Humanities и дата-журналистике исследовали данные военкоматов времен Великой Отечественной, статистику Airbnb по Москве, а также корпус прессы и корпус научпопа. Участники выяснили, из каких союзных республик призывали на фронт меньше всего, какие районы Москвы имеют завышенную самооценку, а также о чем пишут Олеги.

Участники хакатона по Digital Humanities и дата-журналистике за работой

27 апреля Центр цифровых гуманитарных исследований НИУ ВШЭ совместно с научно-популярным изданием «Системный Блокъ» провел хакатон по Digital Humanities и журналистике данных. В хакатоне приняли участие около 40 человек — организаторы выдали 33 официальных сертификата об участии, но в разные моменты к нам присоединялись part-time сочувствующие и забегали разные эксперты. В числе участников были студенты бакалавриата и магистратуры НИУ ВШЭ, представители других исследовательских организаций, сотрудники НКО и IT-компаний.

Участники хакатона за работой. На переднем плане — Антонина Лапошина, специалист по компьютерной лингвистике в Лаборатории инновационных средств обучения русскому языку Института русского языка имени А. С. Пушкина; за ней — аналитик ОВД-Инфо Екатерина Боровикова, студенты лингвистического бакалавриата Евгений Глазунов и Дарья Максимова, на заднем плане стоит сотрудник Яндекса Алексей Куликов

Хакатон начался с общей для всех команд разминочной задачки от Алексея Куликова из «Яндекса».

Алексей Куликов («Яндекс») предлагает участникам оптимизировать выбор места для пикника с опорой на данные

Используя заготовку кода от Леши, участники хакатона научились извлекать данные с портала открытых данных правительства Москвы и на их основе строили карты, отображающие лучшие места для пикника в зависимости от местонахождения человека.

Алексей Куликов («Яндекс»)

Далее участники уже в командах работали над одной из 4 больших тем — анализ данных Airbnb по Москве, социология и демография призыва на фронт в годы Великой Отечественной, исследование корпуса региональной прессы и корпуса современных научно-популярных изданий.

Афиша хакатона с перечислением тем (дизайнер — Ксения Костомарова, школа филологии НИУ ВШЭ)

Команды работали весь день. Хакатон стартовал около 10:30, разминочной задачки хватило до 12:15, после чего до 20:30 участники безостановочно кодили, поддерживая энергию с помощью кофе, кока-колы, печенек и козинаков. По плану был обеденный перерыв, но оторвать от упоенного кодинга удалось не всех — кое-кто вошел в поток и отказывался выходить.

«Ну должно же работать!»

Результатом хакатона стали 6 презентаций микроисследований. Выступления команд продолжались до начала одиннадцатого вечера.

Группа исследователей урбанистической темы рассказала, где в Москве основные зоны предложений жилья Airbnb и как они соотносятся с расположением отелей, какие районы Москвы имеют «завышенную» самооценку и как росло число предложений вокруг московских стадионов перед Чемпионатом мира по футболу 2018 года.

Бутовцы, вы слишком много о себе возомнили! Презентация команды исследователей Airbnb

Команда студентов лингвистического бакалавриата Дарьи Максимовой и Евгения Глазунова изучила состав онлайн-научпопа. Выяснилось, например, что Постнаука и научно-популярные лекции на Полит.ру выделяются большим объемом междометий — перевод устной речи письменный текст отражается в частеречной статистике. Тексты естественно-научной и инженерной тематики можно отличить по дробям (много формул), а у гуманитариев больше союзов.

Корпус научно-популярных текстов вообще стал самым популярным объектом исследования на хакатоне. В связи с этим команда организаторов еще раз выражает благодарность доценту школы лингвистики Борису Валерьевичу Орехову (который к нам тоже заглянул) и студентам магистратуры «Компьютерная лингвистика», собравшим этот корпус и любезно согласившимся предоставить его для исследования. Вместе с тем организаторы немного грустят, что им не удалось заманить Бориса Валерьевича на весь хакатон в качестве куратора — ведь в этом случае его экспертиза и мудрые советы имели бы в разы большую удельную полезность.

Доцент школы лингвистики Борис Орехов консультирует одну из команд на хакатоне

Благодаря тому, что создатели корпуса научно-популярных текстов снабдили его богатой метаинформацией, участники хакатона смогли довольно быстро перейти от обработки данных к содержательному анализу корпуса — особенно популярным оказалось сравнение тематических рубрик.

Презентация еще одной команды, исследовавшей научпоп

Еще более содержательным оказалось исследование корпуса СМИ (региональные + федеральные издания). Участники этой команд считали, какие политические фигуры употребляются совместно в текстах СМИ, строили графики и были близки к тому, чтобы визуализировать граф встречаемости (ребята, вы сделаете это!).

C чем употреблять Навального?

Наконец, команда «НеИзвестный солдат» представила анализ данных о военном призыве в СССР в годы Второй Мировой войны. В данных обнаружилось много интересного: аномально низкий призыв людей 1919-1921 годов рождения (видимо, сказывается демографическая яма Гражданской войны), а также диспропорции между союзными республиками: если смотреть долю призванных относительно населения, из некоторых республик призывали в разы меньше, чем из других. Интерпретация этого факта требует дополнительной работы с привлечением специалистов-историков, но цифры налицо.

График с демографией призыва по возрастам

Хакатон закончился совместным поеданием пиццы, уборкой пустых емкостей из-под кока-колы и обсуждением перспектив. Многие команды всерьез настроены продолжить исследования после хакатона (да, мы знаем, что так все всегда говорят, а потом никто ничего не делает; но у нас есть неопровержимые свидетельства того, что исследования действительно продолжились уже во время майских праздников).

Мария Подрядчикова, студентка магистратуры «Компьютерная лингвистика», участница хакатона:

Большое спасибо за возможность плохо покодить в приятной компании! Мы научились куче вещей (как технически, так и организационно) и хотим теперь повторить когда-нибудь еще.

Сергей Капочкин, системный аналитик, участник хакатона:

Увидев анонс хакатона в канале «Digital Humanities в Вышке», я не раздумывая кинулся регистрироваться, несмотря на то что дата хакатона была следующим днем после прилета в Москву. Хакатон полностью оправдал мои ожидания и превзошел их. Первые 6 часов пролетели незаметно — про еду и усталость не вспоминали. С небольшой дозаправкой в виде пищи весь 12-часовой хакатон промелькнул на одном дыхании и пробудил волну энтузиазма, ощущаемую до сих пор, и желание участвовать в подобных DH-мероприятиях.

Екатерина Боровикова, аналитик ОВД-Инфо, участница хакатона:

Мне очень понравилась атмосфера на хакатоне. Я думаю, все классные вещи как-то так и начинаются — с людей, которым просто по фану собраться вместе и запилить что-нибудь прикольное. Наша команда свой проект сделать не успела, но мы так воодушевились, что хотим собраться в ближайшие дни и все-таки доделать его. Я считаю, найти такую команду — это бесценно.

Jan Krasny, Tyumen Cultural Trends Lab:

The Hackathon at HSE was a great opportunity for all the participants not only to exercise data mining and to learn something new, but also to — and in my opinion this bears much more value — to meet and socialize with the colleagues we knew or did not know anything about. Only through regular meetings in this or similar formats (and maybe through more opening to visitors from abroad) the community will succeed in creating awareness of the relevance the ‘data mining’ has in everyday life, of the techniques needed for mining, of the digital tools and skills for using them (and which one can share with the community) and last but not the least of the reflection that is more than needed when it comes to the use of public data. Maybe the next meeting could have a hybrid form between the unconference and a hackaton?

Екатерина Сахарова, заместитель главного редактора в Shopping Centers Russia, участница хакатона

Спасибо организаторам хакатона за интересные задачи и датасеты — информации было подготовлено столько, что нам даже не хватило времени на то, чтобы подобраться ко всем вопросам, которые мы себе наметили. День пролетел незаметно, мы успели получить некоторые результаты, но хотим продолжать исследование, чтобы найти объяснения тем аномалиям, которые мы выявили в процессе, и проверить итоги на большем объеме данных. Мне понравилось, что даже с тем небольшим набором навыков области анализа данных, которые есть у меня, я смогла найти для себя работу в команде. Спасибо кураторам и организаторам за отличную возможность попрактиковаться.