Отечественные записки 2.0: наш прогресс после гранта «Инфокультуры»

Весной проект по оцифровке знакового русского «учено-литературного» журнала XIX века «Отечественные записки» получил грант АНО «Инфокультура». Рассказываем, что удалось сделать благодаря гранту — и что еще впереди.

Проект по оцифровке журнала «Отечественные записки» (1814 – 1884) стартовал в октябре 2019 года как совместное начинание Центра цифровых гуманитарных исследований НИУ ВШЭ и магистратуры «Цифровые методы в гуманитарных науках».  В марте команда проекта получила микрогрант АНО «Инфокультура».

Участники проекта на церемонии вручения гранта «Инфокультуры»

В грантовом конкурсе «Инфокультуры» могли участвовать несколько категорий проектов, в том числе проекты по «цифровой архивации». Подразумевались «проекты, нацеленные на долгосрочное сохранение накопленных человечеством знаний, в первую очередь в цифровом формате». Это описание полностью соответствовало идее проекта: перевести в цифровую форму знаковый «учено-литературный» журнал XIX века.

С чем предстояло работать

«Отечественные записки» — важный источник для историков, филологов, исследователей общественных процессов и историков культуры, а также ценный для лингвистов памятник языка XIX века. На страницах журнала с 1818 по 1884 гг. публиковали свои произведения В. А. Жуковский, В. Ф. Одоевский, В. Г. Белинский, М. А. Бакунин,  А. И. Герцен, Н. А. Некрасов, М. Ф. Салтыков-Щедрин, А. С. Островский, Ф. М. Достоевский,  Л. Н. Толстой. Также там публиковались отчеты о путешествиях, экономические и политические статьи, антропологические заметки с окраин Российской империи, хозяйственные и деловые рекомендации, развлекательно-юмористические материалы.

«Отечественные записки» — классический русский «толстый журнал». Один выпуск журнала насчитывает от 800 до 1100 страниц. Всего выпусков свыше 250 — то есть речь идет об оцифровке сотен тысяч страниц текста.

Что было сделано

После получения гранта команда проекта привлекла для вычитки 25 человек и организовала их работу (вот так выглядит инструкция по вычитке). В результате на данный момент вычитано после распознавания уже более 30 000 страниц журнала. 6 томов журнала вычитаны полностью, остальные — частично. Всего оцифровано и находятся на разной стадии очистки 63 тома.

Технологический процесс проекта на сегодня

Благодаря грантовой поддержке команда смогла высвободить ресурсы для разработки технологических инструментов. Участниками команды были разработаны программные инструменты для перевода вычитанных документов в проприетарном формате MS Word — в свободный человеко- и машиночитаемый формат TEI/XML, который является международным стандартом цифрового сохранения гуманитарных данных. Также был доработан и применен инструмент для перевода, подготовленный ранее коллегами из школы лингвистики НИУ ВШЭ. В результате сейчас тома последовательно проходят несколько степеней очистки и нормализации:

  • Первичная оцифровка (пример файла)
  • Вычитка
  • Перевод в TEI/XML (пример файла)
  • Нормализация орфографии в формате TEI/XML (пример файла)

Одновременно была проделана работа по прототипированию веб-сервиса, который будет выполнять функцию пользовательского интерфейса для подготавливаемого корпуса. С прототипом веб-сервиса можно познакомиться по ссылке.

Прототип веб-интерфейса к корпусу «Отечественных записок»

Что дальше

Команда цифрового архива «Отечественных записок» продолжает работу по оцифровке, подготовке инструментов нормализации и очистки файлов. Вскоре в пайплайн будет встроен код для исправления частотных ошибок OCR. Основные же усилия направлены на разработку веб-версии архива.

Обновленный технологический процесс проекта

Команда цифрового архива «Отечественных записок» выражает благодарность АНО «Инфокультура» за поддержку проекта.

РЕПОЗИТОРИЙ ПРОЕКТА НА GITHUB