От грязных данных — к машиночитаемой биографии

Как сделать, чтобы очистка данных в биографических базах не отнимала у историков недели, а то и месяцы труда? Возможна ли унификация имен, дат, геоданных и других стандартных полей в базах? Можно ли придумать общий формат обмена и экспорта биографических данных? Публикуем итоги круглого стола «На пути к машиночитаемой биографии: как нам оцифровывать, нормализовывать и объединять биографические данные в цифровой форме», прошедшего в рамках DH-адвента в Центре цифровых гуманитарных исследований НИУ ВШЭ.

Каждый год цифровые гуманитарии Вышки устраивают «Digital Humanities митап» — встречу ученых и практиков, работающих на стыке культуры, гуманитарных наук и цифровой среды. В этом году митап прошел онлайн — в форме двухдневной серии круглых столов в Zoom.

Здесь мы собрали все яркие моменты круглого стола «На пути к машиночитаемой биографии: как нам оцифровывать, нормализовывать и объединять биографические данные в цифровой форме». На этом круглом столе собрались люди, имеющие опыт работы с большими базами биографических данных (база жертв политических репрессий Международного Мемориала и ее производные, базы участников мировых войн и др.), в том числе опыт автоматического анализа и нормализации полей в этих базах.  Основные темы круглого стола:

  • Какие сложности возникают у исследователя при работе с ненормализованными биографическими данными и можно ли эти данные нормализовать
  • «Linked Human Data» против «самоизоляции» баз: возможно ли связать все данные об одном человеке
  • Обсуждение перспектив единого обменного формата биографических данных

Ниже мы рассказываем о каждом пункте подробно, приводя цитаты участников круглого стола. Список всех участников дискуссии есть в конце этого материала.

Иранец, перс, фарси: стандартизация данных в биографических базах

Алексей Куприянов, историк науки, исследователь кадровой статистики императорских университетов до 1917, ранее доцент факультета социологии НИУ ВШЭ в Санкт-Петербурге:

Одна из самых больших сложностей при работе с биографическими базами — они проектировались в первую очередь для чтения людьми. Человек может догадаться, что «венгр», «венгерка», «венгр (мадьяр)», «мадьяр» и т.п.   — все это варианты указания одной и той же венгерской национальности, так же как и «перс», «персиянка», «иранец», «иранка», «фарси» (реальные примеры заполнения национальностей в документах из базы Международного Мемориала). А села «Абсогачево», «Абсагачево» и «Апсагачево», записанные как варианты места рождения у одного и того же человека — это одно и то же село, записанное на слух.
Сначала все базы создавались под чтение людьми. На то, что придут какие-то сумасшедшие дата-энтузиасты и начнут все это пытаться читать машинно, никто не рассчитывал. На вид это выглядит именно так: ожидается, что человек прочтет — и как-нибудь поймет.

Екатерина Мишина, редактор “Открытого списка”, научный сотрудник Международного центра истории и социологии Второй мировой войны и ее последствий:

О проблемах историка, работающего с такими данными, рассказала Екатерина Мишина — редактор базы «Открытый список» жертв политических репрессий в СССР, постдок Международного центр истории и социологии Второй мировой войны и ее последствий.
Одни и те же данные могут быть записаны десятками разных способов. Когда смотришь данные через фильтры, невозможно просто взять и сделать выборку — из-за разных способов записи одного и того же. Среди многообразия записей одного и того же сложно существовать. Это увеличивает количество времени, которое тратится на этот анализ, просто в дни, в недели.

Никита Чистиков: эксперт по анализу данных, много работающий с базой «Открытого списка», GIS-эксперт, участник хакатонов Международного Мемориала:

Особенно сложно работать с информацией о профессиях и роде деятельности. Например, часто род деятельности записан строкой вида «бойщик скота пригородного хозяйства» или «столяр в конторе строительства школы “ФЗС”». Нормализовывать такие данные до обобщенных названий профессий непросто — хотя над этим небезуспешно работали на одном из хакатонов Международного Мемориала.   Но и с более простыми на вид полями много проблем. Например, с уже упоминавшимися национальностями.
Поле «национальность» — казалось бы: конечное количество вариантов. Но нет: национальности пишут как угодно, плюс есть разница в мужском и женском написании национальность, плюс не забываем про опечатки. Сотрудники, которые заполняли протоколы, из которых все перекочевало в базу, записывали на слух. Была история: не могли понять, что за национальность скрывается за одним из полей. Потом нашлась какая-то книга воспоминаний какого-то исследователя, который в качестве анекдота привел, что какой-то следователь МГБ по ошибке со слуха воспринял национальность совершенно не так, как она записывается на самом деле. Чтобы это выяснить, потребовалось достаточно много времени.

Движущиеся регионы: сложности с нормализацией географических данных

Екатерина Мишина, редактор “Открытого списка”, научный сотрудник Международного центра истории и социологии Второй мировой войны и ее последствий:

Особенно много сложностей именно с географическими наименованиями. Известно, что даже в общеизвестных названиях вроде «Азербайджанская ССР» возможны десятки вариаций, связанных с опечатками, ошибками, записью на слух и т.д.
С отдельными областями, районами и населенными пунктами все еще хуже. При этом, как правило, адрес хранится единой строкой, разделить которую на смысловые составляющие тоже не всегда просто.
Самый простой пример: можно написать начиная с села и заканчивая областью, можно — наоборот. Для человека, который сидит и это все вручную разбирает, это страшная морока.

Илья Воронцов, программист, биоинформатик, автор исследования «Разделить цену победы: кого, откуда и когда призывали в годы ВОВ?», участник хакатонов Международного Мемориала:

Кроме вариативности написания, есть и проблема исторических сдвигов в административно-территориальном делении, изменения границ, названий и типов населенных пунктов.
Очень сложная сущность — адрес или место. Допустим, у нас в качестве места рождения человека записана Кировская область. Но мы не знаем, по данным какого года это было записано в карточке. Поэтому человек мог быть рожден на территории Кировской области, а сейчас место его рождения — уже другая область. А могло быть и наоборот: он родился на территории другого региона, но потом его место рождения вошло в Кировскую область.

Никита Чистиков, эксперт по анализу данных, много работающий с базой «Открытого списка», GIS-эксперт, участник хакатонов Международного Мемориала:

С геоданными все плохо. Ни в закрытых, ни в открытых базах нет исторических границ с той точностью, которая нужна. Особенно в первой половине XX века, когда в Советском Союзе постоянно менялись границы названия и состав административных единиц. Часть моих сотрудников — из МИИГАиКа, и даже у них нет данных, когда и что точно было, и где и какие границ . Это огромная задача, которая не решена сейчас нигде. Мы точно не знаем, к какому административному образованию в каждый момент относилась какая деревня. Названия менялись по 10 раз.

Алексей Куприянов: историк науки, исследователь кадровой статистики императорских университетов до 1917, ранее доцент факультета социологии НИУ ВШЭ в Санкт-Петербурге:

Для структурирования географической информации и нормализации других полей нужны сводные авторитетные списки таких объектов, на которые бы опиралось научное сообщество. Пока таких списков нет.
Возможно, мы не ко всему готовы. Чтобы задавать для человека жесткие рамки, чтобы он не думал каждый раз мучительно, надо ли ему заводить какое-то новое нормализованное значение для заполнения поля — или надо все-таки найти старое? Неясно, готовы ли к такому волонтеры. А главное, неясно, готовы ли к такому мы сами, потому что нам тогда нужны большие сводные таблицы имен, географических названий, вообще любых именованных сущностей.

«Linked Human Data» против «самоизоляции» баз: возможно ли связать все данные об одном человеке

Количественным исследованиям на биографических базах мешает не только отсутствие нормализации, но и дублирование данных, а также разрозненность, низкая связность информации в разных базах.

Так, в одной и той же базе могут попадаться частично дублирующие друг друга записи об одном и том же человеке. С другой стороны, есть базы, посвященные разным аспектам истории, в которых люди тем не менее пересекаются. Самый яркий пример — пересечение между базами жертв репрессий и базами участников мировых войн.

Один и тот же человек — в базе жертв репрессированных и в базе участников ВОВ (был репрессирован, затем участвовал в войне и скончался в госпитале)

Тут бывают очень драматические сюжеты: человек мог быть репрессирован, затем освобожден, призван на фронт, взят в плен, освобожден — и снова репрессирован уже после войны. Такой человек может быть указан как обладатель наград и подвигов в одной базе, и как жертва репрессии — в другой. При этом никакого общего идентификатора, который позволил бы однозначно связать две такие записи, нет.

Происходит своеобразная «самоизоляция» баз, Бороться с такой самоизоляцией помогла бы единая система уникальных идентификаторов (URI), подобная wikidata ID. Но пока такого ресурса для персоналий, не входящих в wikidata, нет.

На пути к общему обменному формату

Кроме проблем, на круглом столе обсуждались и некоторые пути их решения. Несколько человек высказались о том, что было бы полезно создать обменный формат.

Проблема с тем, что данные не нормализованы, гигантская. Но задачу можно пробовать решать итеративно. Мы можем посмотреть на данные, сформулировать формат, к которому мы хотим прийти, — и постепенно, шаг за шагом, благодаря ботам, благодаря какому-то краудсорсингу приводить данные к этому формату.

Илья Воронцов, программист, биоинформатик, автор исследования «Разделить цену победы: кого, откуда и когда призывали в годы ВОВ?», участник хакатонов Международного Мемориала:

Пример такого формата уже создавался Никитой Чистиковым при работе над базой «Открытого списка» и может быть расширен и дополнен. Договорившись о нем и о минимальной степени унификации данных, можно сразу сильно облегчить работу будущим исследователям.
Вопрос унификации во многих базах изначально не ставился — поэтому он сейчас и представляется практически нерешаемым. При создании будущих баз данных эту цель надо ставить в первую очередь.

Алексей Куприянов, историк науки, исследователь кадровой статистики императорских университетов до 1917, ранее доцент факультета социологии НИУ ВШЭ в Санкт-Петербурге

Еще участники круглого стола обсудили необходимость критики источника применительно к базам данных (и почему информация может быть недостоверной), взаимодействие с архивами, а также проблемы персональных данных в тех биографических базах, где есть информация «моложе» 75 лет.

Публикуем видео круглого стола целиком:

Кто пришел обсудить биографические базы

  • Екатерина Мишина — редактор базы «Открытый список»  жертв политических репрессий в СССР, постдок Международного центр истории и социологии Второй мировой войны и ее последствий
  • Никита Чистиков — специалист по анализу данных, GIS-эксперт, «Открытого списка», участник хакатонов Международного Мемориала
  • Илья Воронцов — исследователь и программист, автор исследования «Разделить цену победы: кого, откуда и когда призывали в годы ВОВ?», участник хакатонов Международного Мемориала, победитель одного из хакатонов с проектом по восстановлению родственных связей между репрессированными
  • Алексей Куприянов — независимый дата-аналитик, историк науки, исследователь кадровой статистики императорских университетов до 1917, ранее доцент факультета социологии НИУ ВШЭ в Санкт-Петербурге, автор мастерской на пути к машиночитаемой биографии на IV Московско-тартуской школе по цифровым гуманитарным исследованиям
  • Алексей Макаров, историк, сотрудник Международного Мемориала, работает над биографической базой по диссидентскому движению
  • Никита Ломакин, историк, сотрудник Международного Мемориала, работает над базой мемуаров мемориала.

Коллаж: Кира Харлашова