Датасет с текстами в старой орфографии

Опубликован датасет с изображениями и текстами, изданными на русском языке в дореформенной орфографии. Данные пригодятся для разработки и оценки систем оптического распознавания символов (OCR). Тексты, представленные в датасете, были вручную проверены экспертами

DOI: https://www.doi.org/10.57967/hf/3280
URL: https://huggingface.co/datasets/nevmenandr/russian-old-orthography-ocr

Для цитирования:

@misc {boris_orekhov_2024,
  author = { {Boris Orekhov} },
  title = { russian-old-orthography-ocr (Revision 6f60636) },
  year = 2024,
  url = { https://huggingface.co/datasets/nevmenandr/russian-old-orthography-ocr },
  doi = { 10.57967/hf/3280 },
  publisher = { Hugging Face }
}

Борис Орехов

Я занимаюсь научными исследованиями и иногда говорю про них в популярном жанре. Еще я пишу код, как полезный, так и развлекательный. https://nevmenandr.github.io/