Сбор биографий по кусочкам и непогибшие погибшие: об интеграции биографических баз

15 октября в Центре цифровых гуманитарных исследований НИУ ВШЭ состоялся доклад проектной группы «Всех поименно назвать». Команда проекта рассказала о работе по агрегации сведений из электронных баз, содержащих информацию о людях XX века — в первую очередь из баз жертв репрессий, участников войны, а также блокадников, представителей духовенства, партизан и др. Отдельной темой стали сложные и противоречивые судьбы участников ВОВ, обвиненных в коллаборационизме, чьи биографии очень по-разному отражаются в разных базах.

Команда проекта «Всех поименно назвать» (она же «Люди XX века») исследует возможности объединения и пересечения массивов данных в электронных базах, содержащих биографическую информацию о людях, живших в XX веке. В первую очередь речь идет о списках жертв репрессий, собранных «Международным Мемориалом», электронных базах участников Великой Отечественной войны, а также других биографических базах, относящихся к отечественной истории XX века.

Доклад состоял из 4 частей:

  1. Идея проекта
  2. Подходы к работе с данными
  3. «Непогибшие погибшие и непропавшие пропавшие»: как люди из списков безвозвратных потерь обнаруживаются после войны в процессах над коллаборационистами
  4. Планы по веб-сервису

В первой части руководитель проекта, доцент школы лингвистики Даниил Скоринкин рассказал о том, почему данные разных биографических баз имеет смысл пересекать между собой и как именно можно пытаться это делать. На конкретных примерах он показал, что базы, в которых содержатся десятки тысяч пересекающихся упоминаний, сегодня фактически агностичны друг по отношению к другу. Один и тот же человек может выступать как награжденный орденами и медалями участник войны, как жертва политических репрессий, как обвиняемый в коллаборационизме — и нет никакого способа проследить его или её биографию целиком. Именно это и пытается исправить проект.

Первый шаг для поиска пересечений — приведение данных из разных баз к общему машиночитаемому формату. Об этом рассказывала участница проекта, сотрудница института проблем передачи информации РАН Мария Подрядчикова. Она описала длинную эволюцию форматов биографических данных, которые разрабатывались в Центре цифровых гуманитарных исследований НИУ ВШЭ со времен IV Московско-тартуской школы по цифровым гуманитарным наукам, проходившей в Воронове в 2019 году.

Далее выступила научная сотрудница Института советской и постсоветской истории НИУ ВШЭ, старшая преподавательница школы исторических наук Ирина Махалова. Она рассказала о людях, чьи имена значатся в наградных листах и/или донесениях о безвозвратных потерях в электронных базах Минобороны — и одновременно обнаруживаются в следственных делах процессов над коллаборационистами в послевоенное время.

Здесь обнаруживаются явные противоречия в документах: так, человек сначала обнаруживается в списках безвозвратных потерь как погибший в 1944 году — и для него даже указан номер могилы. Затем тот же самый человек появляется уже в 1949 году как обвиняемый на процессе о сотрудничестве с немецкими властями на оккупированной территории. Наконец, спустя 40 лет после окончания войны, в 1985 году, он же получает юбилейный орден Отечественной войны II степени. При этом тождество всех данных — от ФИО и года рождения до места призыва и имен родных — исключают возможность случайного совпадения. И такой случай не один — автоматическое сопоставление данных из разных баз позволяет выявить десятки схожих историй. Известен случай, когда якобы погибший участник ВОВ даже был увековечен на современном воинском мемориале — однако, судя по архивным данным, в действительности он не погиб на войне, а позже проходил участником дела о коллаборационизме.

В заключительной части выступления команда поделилась планами развития веб-сервиса проекта, а также ответила на вопросы слушателей в зуме. Комментарии от слушателей были весьма полезными, команда проекта выражает отдельную благодарность специалистке по memory studies Арине Зуевой за ценные рекомендации по поиску данных.

Видео доклада и обсуждения: