Как цифровые гуманитарии зафрендились с ABBYY
Новшества FineReader, машинное обучение и нейронные сети, история краудсорсинговых проектов под чай с печеньками, или как цифровые гуманитарии сходили в гости к ABBYY.
Основной темой встречи была программа для оптического распознавания символов ABBYY FineReader. Цифровым гуманитариям уже доводилось пользоваться FineReader в работе над учебными задачами и проектами по оцифровке. Поэтому они активно интересовались преимуществами программы на фоне других OCR-систем. Вот некоторые полезные «фичи» FineReader:
- наличие широких параметров настроек для языков. Так, только для русского существует несколько видов: современный, дореволюционный, с выделенными ударениями;
- автоматическое фоновое распознавание, которое не требует применение основного OCR при высоком качестве оцифровки документа или изображения;
- функция редактирования pdf-документа, а также защита паролем или цифровой подписью от несанкционированных изменений;
- удобное копирование объектов: текста, таблиц, картинок, ссылок, сносок.
- функция сравнения двух документов, которая позволяет обнаружить количество несоответствий или несанкционированных изменений;
- сохранение комментариев к документу из предыдущих версий;
- возможность пользовательской настройки языков и словарей.
Не желая отпускать рассказчиков, студенты начали расспрашивать об алгоритмах, заложенных в основу программы. Не обошлось без многослойных нейронных сетей и сквозного (end-to-end) подхода.
Однако нейросети применяют не для всех языков и в особо сложных для распознавания случаях. А все дело во времени работы и большой нагрузке на вычислительные ресурсы компьютера. Оказывается, в большинстве случаев классические алгоритмы машинного обучения тоже хорошо справляются.
И о высоком
На третьем часу встречи, когда гости почти уничтожили заботливо приготовленные для них фрукты и печенья, разговор перешел на цифровые проекты, реализованные ABBYY. Наибольшее внимание уделили инициативам «Весь Толстой в один клик», «Открой историю Большого».
В проекте вокруг Льва Толстого участвовали волонтеры из 49 стран (всего — 3249 человек!), в «Открой историю Большого» — уже из 60. В обоих случаях количество участников соответствовало масштабности задач — создание электронной версии 90-томного собрания сочинений Льва Николаевича Толстого и архива афиш, программок и прочих документов Большого театра.
К концу встречи возникло убеждение, что значительные проекты проще реализовать в команде и с применением качественных технологий. Так что цифровые гуманитарии, тепло попрощавшись с ABBYY, ушли с мыслями о проведении собственных исследований в сотрудничестве с этой компанией.