Систему для оцифровки древних судебных журналов разрабатывают в НГУ
Журналы дореволюционных волостных судов представляют из себя толстые подшивки отчётов, записанных от руки. Как рассказали в университете, существующие системы распознавания текстов к таким документам не применимы.
Магистрант ФИТ НГУ Степан Гудков разрабатывает собственное решение. Ему удалось создать алгоритм машинного зрения, который обучает нейросети различать слова как набор символов, без осмысления и корректировки. На следующем этапе необходимо научить систему «понимать» контекст, предлагать варианты написания и правки.
Оцифровка древних документов даст историкам доступ к уникальному материалу. В отчётах секретарей содержится множество деталей крестьянского быта и жизни, которые радикально изменились после революции. Сейчас учёные работают над расшифровкой и описанием этого материала вручную, что занимает огромное количество времени.
В будущем ИТ-специалисты НГУ планируют создать полноценную информационную систему с поисковыми интерфейсами, чтобы находить документы по разным критериям — по селению, персонам, категориям дел. Разработку можно будет применять для оцифровки любых рукописных исторических архивов, написанных с середины 19-го века до 1917 года.









































