«Отечественные записки 2.0»
Цель проекта – создание цифрового издания одного из самых знаковых журналов для русской культуры XIX века «Отечественные записки».
Мы разрабатываем цифровое издание журнала «Отечественные записки». Создание современного корпуса текстов журнала способствует не только сохранению этого памятника русской периодики, но позволит проводить корпусные исследования лингвистам (с возможностью работы в параллельном корпусе старой и новой орфографии), а также откроет большие возможности для DH исследователей.
Несмотря на значимость журнала для понимания русской культурной и общественной жизни XIX века, его выпуски нельзя найти онлайн в адекватной машиночитаемой форме. В сети доступны либо нераспознанные изображения, либо разрозненные PDF-документы с текстовым слоем неприемлемого качества: доля ошибочно распознанных символов там достигает 50%, символы дореформенной орфографии утрачены. Из-за этого невозможны ни адекватный полнотекстовый поиск, ни автоматическая обработка текстов. Проведение исторических, лингвистических, филологических исследований с использованием «Отечественных записок» как междисциплинарного текстового корпуса (ср. многочисленные количественные исследования на основе Национального корпуса русского языка, выходящие далеко за пределы собственно лингвистики) требует разработки открытого общедоступного цифрового издания, отвечающего требованиям работы с данными в 2020 году.
Несмотря на то, что проект находится в начале своей работы, уже сейчас понятна его важность не только для «Отечественных записок», но и в целом для классической русской периодики. Алгоритмы и методы, которые сейчас разрабатывает и пробует наша команда, позднее могут быть использованы для создание цифровых копий и корпусов и к другим значимым документам прошлых эпох. Корпус «Отечественных записок» позволит не только сохранить столь значимый для культуры объект, но и станет «полем» для исследователей, позволив находить новые знания.
Борис Орехов
Я занимаюсь научными исследованиями и иногда говорю про них в популярном жанре. Еще я пишу код, как полезный, так и развлекательный. https://nevmenandr.github.io/