Как цифровые гуманитарии зафрендились с ABBYY

Новшества FineReader, машинное обучение и нейронные сети, история краудсорсинговых проектов под чай с печеньками, или как цифровые гуманитарии сходили в гости к ABBYY.

На прошлой неделе цифровые гуманитарии с образовательной программы «Цифровые методы в гуманитарных науках» впервые покинули аудитории на Басманной и отправились пить чай с печеньками где-то еще — а именно, в центральный офис ABBYY, международной IT-компании с российскими корнями, которая занимается оцифровкой документов, OCR-распознаванием, инженерией знаний и компьютерной лингвистикой.
Даниил Скоринкин
Студенты в гостях у компании ABBYY // Фото: Полина Старосоцкая

Основной темой встречи была программа для оптического распознавания символов ABBYY FineReader. Цифровым гуманитариям уже доводилось пользоваться FineReader в работе над учебными задачами и проектами по оцифровке. Поэтому они активно интересовались преимуществами программы на фоне других OCR-систем. Вот некоторые полезные «фичи» FineReader:

  • наличие широких параметров настроек для языков. Так, только для русского существует несколько видов: современный, дореволюционный, с выделенными ударениями;
  • автоматическое фоновое распознавание, которое не требует применение основного OCR при высоком качестве оцифровки документа или изображения;
  • функция редактирования pdf-документа, а также защита паролем или цифровой подписью от несанкционированных изменений;
  • удобное копирование объектов: текста, таблиц, картинок, ссылок, сносок.
  • функция сравнения двух документов, которая позволяет обнаружить количество несоответствий или несанкционированных изменений;
  • сохранение комментариев к документу из предыдущих версий;
  • возможность пользовательской настройки языков и словарей.

Не желая отпускать рассказчиков, студенты начали расспрашивать об алгоритмах, заложенных в основу программы. Не обошлось без многослойных нейронных сетей и сквозного (end-to-end) подхода.

Тимлид OCR New Technologies Group в ABBYY Андрей Упшинский рассказывает о новых технологиях в оптическом распознавании символов // Фото: Полина Старосоцкая

Однако нейросети применяют не для всех языков и в особо сложных для распознавания случаях. А все дело во времени работы и большой нагрузке на вычислительные ресурсы компьютера. Оказывается, в большинстве случаев классические алгоритмы машинного обучения тоже хорошо справляются.

И о высоком

На третьем часу встречи, когда гости почти уничтожили заботливо приготовленные для них фрукты и печенья, разговор перешел на цифровые проекты, реализованные ABBYY. Наибольшее внимание уделили инициативам «Весь Толстой в один клик», «Открой историю Большого».

PR-директор ABBYY Россия Татьяна Поташева рассказывает о проектах по сохранению культурного наследия // Фото: Даниил Скоринкин

В проекте вокруг Льва Толстого участвовали волонтеры из 49 стран (всего — 3249 человек!), в «Открой историю Большого» — уже из 60. В обоих случаях количество участников соответствовало масштабности задач — создание электронной версии 90-томного собрания сочинений Льва Николаевича Толстого и архива афиш, программок и прочих документов Большого театра.

Фото: Даниил Скоринкин

К концу встречи возникло убеждение, что значительные проекты проще реализовать в команде и с применением качественных технологий. Так что цифровые гуманитарии, тепло попрощавшись с ABBYY, ушли с мыслями о проведении собственных исследований в сотрудничестве с этой компанией.