Разработка и реализация алгоритма автоматического анализа метроритмических характеристик русских поэтических текстов
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 24 Октябрь 2018
Организация: НГУ
Авторы: Кузнецова Ирина Владимировна
В настоящее время в ИВТ СО РАН разрабатывается компьютерная система для автоматизации комплексного анализа поэтических текстов, применяемая в задачах филологии. Система предназначена для анализа структурного, семантического и прагматического уровней поэтических текстов. В докладе представлена реализация программного модуля, отвечающего за анализ структурного уровня – выделение метроритмики стихотворения (метр, стопность и рифма). Лежащий в основе программного модуля алгоритм разрабатывается на основе статьи В. Н. Бойкова и др., в которой описывался алгоритм извлечения метроритмических характеристик, предполагающий «идеальную» акцентуацию слов и не учитывающий некоторых метрических особенностей поэтического текста (например, пиррихий или проклитика).
Цель настоящего исследования – разработка методов улучшения упомянутого выше алгоритма для повышения точности автоматического определения метра и стопности. Предложен метод «по аналогии»: выбор строки и строфы с неоднозначной расстановкой ударения зависит от строк и строф, в словах которых ударения расставляются однозначно – производится выбор ударения, обеспечивающего единство метрических характеристик для всего стихотворения. Для учета безударных слов (клитик) была составлена база данных проклитик на основе словаря А. И.Зализняка. Усовершенствованный алгоритм реализован на языке Python и протестирован на корпусе стихотворений А. С. Пушкина (период творчества: 1818-1825 гг.).