Командные DH-проекты: «Instagram Л.Н. Толстого»
В это непростое время главное не поддаваться панике, сидеть дома и готовить домашние антисептики. Ну, а чтобы не сразу закончился список не просмотренных сериалов, фильмов, видео на Youtube и курсов на Coursera или Stepik, предлагаем почитать «Instagram Л.Н. Толстого» — проект команды цифровых гуманитариев НИУ ВШЭ.
Сложно найти человека, который не слышал бы о романе «Война и Мир» и не знал бы фамилию «Толстой». Лев Николаевич входит в список общепризнанных классиков русской литературы. Спустя 110 лет после смерти писателя интерес к его личности и творчеству не угасает, но наоборот возрастает. Так, например, в 2016 году появился совместный проект Государственного музея Толстого и IT-компании ABBYY «Весь Толстой в один клик», в ходе которого был оцифрован полное собрание сочинений писателя, а именно 90 томов. Теперь, в 2019 году возник новый проект, который называется «Instagram Л.Н. Толстого»
«Instagram Л.Н. Толстого» — это совместная работа Государственного музея Л.Н. Толстого и студентов магистратуры «Цифровые методы в гуманитарных науках», НИУ ВШЭ. Суть проекта заключается в цифровизации нетекстового наследия русского писателя, а именно фотографий.
В чем состоят задачи команды? Архив музея предоставляет около 26 000 различных изображений писателя (одиночные портреты, совместные снимки с женой, детьми, друзьями, коллегами и т.д), а также метаданные к ним (учетные музейные обозначения, название, дата создания), которые записаны с помощью тегов КАМИС. КАМИС — система каталогизации и хранения данных, которую используют сотрудники музеев России. Именно с ней и работают цифровые гуманитарии: они преобразовывают изначальную структуру данных с помощью TEI — стандартизированного языка разметки на основе XML, который на сегодняшний день является универсальным стандартом. Полученные данные загружаются в базу, где хранятся преобразованные метаданные.
Сейчас команда проекта успешно завершила процесс конвертации метаданных на язык TEI. Теперь основной задачей является создание реляционной базы данных, где предполагается хранение не только фотографий и метаданных, но также и писем Льва Николаевича Толстого. Кроме того, еще один challenge заключается в получении дополнительных метаданных (лицо, поза, техника съемки) из фотографий. Причем здесь не обойтись только одной сегментацией изображений или каким-то других алгоритмом компьютерного зрения — необходим и текстовый парсинг, т.к. иногда необходимая информация содержится в текстовом описании изображений.
На финальной стадии проекта команда «Instagram Л.Н.Толстого» планирует выложить готовую базу данных в открытый доступ. Подобный цифровой архив понравится не только поклонникам и биографам русского классика, но и филологам, историкам, фотографам и историкам фотографии, сотрудникам музеев, а также data-scientist-ам и программистам.
Ну, а кроме того, опираясь на успешный опыт телеграм-канала From:Tolstoy, команда планирует завести реальный инстаграм-аккаунт, куда будут выкладываться daily routine русского классика. Обязательно подпишитесь, когда это случится!