Осенний хакатон: от образа медика в современных соцсетях до старых открыток

13 ноября 2021 года в 11:00 пройдет очередной онлайн-хакатон по цифровым гуманитарным исследованиям. На этот раз Центр цифровых гуманитарных исследований Вышки проводит его совместно с НИИ организации здравоохранения и медицинского менеджмента Департамента здравоохранения Москвы и изданием «Системный Блокъ».

У нас было несколько недоеденных с прошлого хакатона датасетов, корпус чтений законопроектов, сотни принтов футболок, 3000 мемов и целое море метаданных всех сортов и расцветок, а также дневники, корпус текстов из соцсетей о врачах от НИИ Здравоохранения и больше тысячи старых почтовых открыток в цифровой форме. Не то чтобы это был необходимый запас для нового хакатона, но если уж начали подготовку онлайн DH-хакатона ВШЭ, то становится трудно остановиться. Единственное что вызывало у нас опасение — это новый дистант. Нет ничего более беспомощного, безответственного и испорченного, чем идеи людей, готовящихся к новой затяжной самоизоляции. Мы знали, что 13 ноября мы перейдем от идей к делу.

С этого пародийного текста, основанного на известной копипасте из «Страха и ненависти в Лас-Вегасе», традиционно начинаются хакатоны Центр цифровых гуманитарных исследований НИУ ВШЭ. Предыдущий хакатон состоялся 17 января, собрал около 90 участников, которые объединились в 33 команды, и завершился глубоко заполночь. Будем надеяться, что новый хакатон, который пройдет 13 ноября начиная с 11:00, будет не менее вовлекающим. Хакатон проводится совместно с НИИ организации здравоохранения и медицинского менеджмента г. Москвы и изданием «Системный Блокъ».

Чтобы принять участие в хакатоне, заполните форму.

Цели и задачи хакатона:

«Торжественно клянусь, что замышляю шалость, и только шалость!»

Мы делаем хакатон, потому что нам это нравится и нам интересно цифровое в гуманитарном. Мы хотим познакомить исследователей из разных областей знания друг с другом и дать им возможность поработать вместе, а новичкам показать, какие данные бывают в гуманитарных исследованиях и что можно с ними сделать. Наша главная цель — исследовательская: мы хотим поискать в данных интересные закономерности, которые что-то говорят о современных культуре/медиа/обществе. А вторая цель — расширение комьюнити людей, интересующихся применением IT в гуманитарных науках.

⚠️ Важно: у нас нет и никогда не было цели устроить контест по программированию. Нам интересно исследовать данные и делиться результатами в атмосфере сотрудничества.

Датасеты:

  • Оцифрованная коллекцию почтовых открыток «Пишу тебе». Более 1000 открыток расшифрованы и снабжены метаданными: датами отправки и получения, географией пересылки, данными о получателе-отправителе. Вы получите мультимодальный датасет: сканы/фото открыток + текст + метаданные. Хакатон — отличная возможность потрогать этот датасет своими руками.
  • Корпус дневниковых записей, собранный проектом «Прожито». Вы получите большую таблицу (сотни тысяч записей) с текстами и метаданными. Самые ранние дневники велись в XVIII веке, самые поздние — в XXI-м, но большая часть относится к XX столетию. В метаданных есть имя автора и дата записи. Исследовать можно все, что угодно: особенности авторских стилей людей разного пола, тональность записей (когда чаще писали о грустном, а когда — о радостном), неологизмы или встречающиеся в дневниках имена собственные. Вы ограничены лишь вашей фантазией и навыками.
  • Тексты о врачах от НИИ здравоохранения. Вы получите выгрузку сообщений москвичей из социальных медиа и онлайн-СМИ по ключевым словам, связанным с врачами (160 000+ сообщений) и медсестрами (10 000+ сообщений). А еще выборка рисунков, выгруженная из части этих постов. Из выборки вычищены ветеринарные рисунки и рисунки 18+.
  • Корпус эволюции законопроектов. Вы получите набор законопроектов, принятых Госдумой в VI и VII созывах (т.е. с декабря 2011 года по июль 2021) — всего их 4661. К каждому законопроекту прилагается один или несколько текстов: текст при внесении, текст к первому чтению, второму, опубликованный текст. Отклоненных или находящихся в стадии рассмотрения законопроектов в датасете нет. К текстам собраны такие метаданные, как даты загрузки текстов, профильные комитеты, ответственные комитеты и прочие законотворческие нюансы. Цель этого трека — понять, как видоизменяется законопроект в Госдуме по мере прохождения чтений.
  • Корпус интервью проекта «Народная история России». Вы получите расшифровки устных рассказов, в которых люди делятся историями о своем районе/дворе/улице/деревне. Всего в таблице с данными 7669 объектов. Каждый из них – это реальный объект, с которым связаны личные воспоминания горожан, то есть одно из важнейших мест города в восприятии его обитателей. Для каждого объекта памяти есть свои геоданные.
  • Коллекция мемов  с imgflip. Вы получите датасет из 14 тысяч картинок-мемов с метаданными. Для каждого мема известен шаблон (например, “Нельзя просто так взять и “ или “Скрывающий боль Гарольд”), текст на конкретной картинке, а также число просмотров, комментов и голосов за каждый мем.
  • Коллекция принтов на футболках. Вы получите 3000 изображений футболок из очень популярного интернет-магазина. К картинкам прилагаются данные о популярности каждого принта (от 1 до 5 звезд). Принты на футболках — тоже своего рода культурный объект, достойный исследования.

Условия участия:

Заявка на участие подается через форму. В форме напишите, пожалуйста, свои настоящие Фамилию и Имя, чтобы все дипломы участников смогли найти своих хозяев. Участвовать можно как индивидуально, так и в команде. Оптимальный размер команды 3-4 участника, но ограничений нет. После заполнения формы мы добавим вас в чат.  Если у вас нет готовой команды, но вы хотите ее обрести — мы вам предложим подключиться к одной из уже сформированных команд.

Презентация проектов:

Главный итог нашего хакатона – презентация проектов участников, на ней вам предстоит в течении 5 минут рассказать и показать, что вы сделали (обычно в googleslides для удобство совместной работы команды). Вот тут можно посмотреть примеры презентаций прошлых лет:

Награды победителям:

Наш хакатон некоммерческий, делается на энтузиазме организаторов и DH энергии в их сердцах, поэтому вы можете рассчитывать на:

  • дипломы участников от DH центра НИУ ВШЭ
  • волшебство общения и командной работы
  • интересные данные
  • новые знакомства
  • путь от придумывания исследования до его реализации и презентации
  • публикация лучших исследований у наших партнеров
  • тематическая литература для авторов самых интересных исследований

Кроме того, после всех презентаций будет голосование за приз зрительских симпатий. Участникам нужно будет выбрать три самых понравившихся исследования (своё выбирать нельзя). Победители получат 5+   диплом с отличием и всеобщий респект.