Алгоритм перевода текстов из дореформенной орфографии в современную с учетом морфологии слов

Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30

Дата выступления: 3 Октябрь 2018

Организация: ИВТ СО РАН

Авторы: Тагирова Елизавета Павловна

Большинство алгоритмов автоматической обработки текстов на русском языке поддерживают только современную орфографию. Для того чтобы иметь возможность работы с данными, представленными в дореформенной орфографии, необходимо решить задачу автоматического перевода текстов из исторической орфографической системы в нынешнюю.

Несмотря на то, что есть немало онлайн-ресурсов по переводу из старой орфографии в новую, для работы программного комплекса по автоматической обработке текста необходимо иметь непосредственно встраиваемый модуль, осуществляющий перевод. Более того, алгоритмы, лежащие в основе существующих переводчиков, нигде не описаны, что делает невозможным их модификацию с целью повышения точности и эффективности.

Стоит отметить, что большинство рассматриваемых правил правописания отражают зависимость между морфологическими признаками слова и его написанием. Поэтому необходимо учитывать морфологию слов при переводе.

В настоящей работе были изучены и протестированы основные алгоритмы морфологического анализа слов (MyStem и pymorphy). При оценке результатов тестирования выявлены закономерности в ошибках, допускаемых при работе с дореволюционной орфографией, морфологического анализатора pymorphy. Полученные закономерности использованы при адаптации данного анализатора к работе с дореформенной орфографией. На основе выявленных зависимостей между правилами дореформенного и современного правописания описаны формальные правила перевода между орфографическими системами. Таким образом, на базе вышеперечисленных результатов, разработан алгоритм, осуществляющий перевод текстов на русском языке из дореформенной орфографии в современную с учетом морфологии слов.

Помимо изначального своего назначения полученный алгоритм может быть широко применим при оцифровке старых текстов, при создании библиографических баз данных с поддержкой полнотекстового поиска в них.