Отечественные записки 2.0: наш прогресс после гранта «Инфокультуры»
Весной проект по оцифровке знакового русского «учено-литературного» журнала XIX века «Отечественные записки» получил грант АНО «Инфокультура». Рассказываем, что удалось сделать благодаря гранту — и что еще впереди.
Проект по оцифровке журнала «Отечественные записки» (1814 – 1884) стартовал в октябре 2019 года как совместное начинание Центра цифровых гуманитарных исследований НИУ ВШЭ и магистратуры «Цифровые методы в гуманитарных науках». В марте команда проекта получила микрогрант АНО «Инфокультура».

В грантовом конкурсе «Инфокультуры» могли участвовать несколько категорий проектов, в том числе проекты по «цифровой архивации». Подразумевались «проекты, нацеленные на долгосрочное сохранение накопленных человечеством знаний, в первую очередь в цифровом формате». Это описание полностью соответствовало идее проекта: перевести в цифровую форму знаковый «учено-литературный» журнал XIX века.
С чем предстояло работать
«Отечественные записки» — важный источник для историков, филологов, исследователей общественных процессов и историков культуры, а также ценный для лингвистов памятник языка XIX века. На страницах журнала с 1818 по 1884 гг. публиковали свои произведения В. А. Жуковский, В. Ф. Одоевский, В. Г. Белинский, М. А. Бакунин, А. И. Герцен, Н. А. Некрасов, М. Ф. Салтыков-Щедрин, А. С. Островский, Ф. М. Достоевский, Л. Н. Толстой. Также там публиковались отчеты о путешествиях, экономические и политические статьи, антропологические заметки с окраин Российской империи, хозяйственные и деловые рекомендации, развлекательно-юмористические материалы.
«Отечественные записки» — классический русский «толстый журнал». Один выпуск журнала насчитывает от 800 до 1100 страниц. Всего выпусков свыше 250 — то есть речь идет об оцифровке сотен тысяч страниц текста.
Что было сделано
После получения гранта команда проекта привлекла для вычитки 25 человек и организовала их работу (вот так выглядит инструкция по вычитке). В результате на данный момент вычитано после распознавания уже более 30 000 страниц журнала. 6 томов журнала вычитаны полностью, остальные — частично. Всего оцифровано и находятся на разной стадии очистки 63 тома.

Благодаря грантовой поддержке команда смогла высвободить ресурсы для разработки технологических инструментов. Участниками команды были разработаны программные инструменты для перевода вычитанных документов в проприетарном формате MS Word — в свободный человеко- и машиночитаемый формат TEI/XML, который является международным стандартом цифрового сохранения гуманитарных данных. Также был доработан и применен инструмент для перевода, подготовленный ранее коллегами из школы лингвистики НИУ ВШЭ. В результате сейчас тома последовательно проходят несколько степеней очистки и нормализации:
- Первичная оцифровка (пример файла)
- Вычитка
- Перевод в TEI/XML (пример файла)
- Нормализация орфографии в формате TEI/XML (пример файла)
Одновременно была проделана работа по прототипированию веб-сервиса, который будет выполнять функцию пользовательского интерфейса для подготавливаемого корпуса. С прототипом веб-сервиса можно познакомиться по ссылке.

Что дальше
Команда цифрового архива «Отечественных записок» продолжает работу по оцифровке, подготовке инструментов нормализации и очистки файлов. Вскоре в пайплайн будет встроен код для исправления частотных ошибок OCR. Основные же усилия направлены на разработку веб-версии архива.

Команда цифрового архива «Отечественных записок» выражает благодарность АНО «Инфокультура» за поддержку проекта.