«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским
Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском Доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что можно найти в тысячах оцифрованных детских книг, когда в детской литературе было допустимо употреблять слово «какашка», зачем филологам репозиторий открытых данных и может ли этот репозиторий как-то помочь в борьбе с мракобесием и войнами.
Миссия нашего Репозитория состоит не только в том, что мы просто выкладываем какие-то файлы. Публикация датасета — это не просто выкладывание файлов, это еще очень много всего. Когда мы получаем корпус или таблицу от коллег с предложением ее опубликовать как датасет, мы проводим достаточно большую редакционную работу. Например, в случае с датасетом о бытовании литературных текстов в ГУЛАГе у нас было около восьми раундов правки с авторами. Потому что эта таблица создавалась филологами как «человекочитаемые» данные, а не как машиночитаемые. Там и авторы могли написаны быть как-то вразбивку, и в датировке произведений были противоречия, когда одно и то же произведение упоминалось в таблице несколько раз с разной датировкой, а какие-то даты написаны со знаками вопроса вместо некоторых чисел.
Наша задача — переработать эти данные, не просто довести их до публики, но сделать их доступными для количественных исследований, для того, чтобы это можно было загрузить в какой-нибудь датафрейм в R или в Python и чтобы у вас колоночка «дата» была числового типа. Тот, кто находится в контексте Digital Humanities, понимает ценность этого дела. Если вы загружаете колоночку дата, а она у вас строкового типа, и там встречается все что угодно, включая пробелы, вопросики, точки, запятые, слеши и буквы русского алфавита, потому что где-то написано «1956-й, но это не точно»… C этим работать как с данными нельзя. Вам приходится сначала делать эту черную, тяжелую, неприятную работу, которую делают все, кто работает с данными. На правах рекламы нашего Репозитория — эту работу мы сделали за вас, господа!