Разработка и реализация алгоритма составления словарей словосочетаний для корпусов поэтических текстов на русском языке
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 8 Апрель 2020
Организация: НГУ
Авторы: Столбов Никита Станиславович
В докладе рассматривается задача составления статистических словарей словосочетаний, которые дают гораздо лучшее представление о технике конкретного автора, чем словари отдельных слов. В случае текстов на русском языке нахождение словосочетаний является более сложной задачей, чем, например, для текстов на английском или каком-либо другом языке, в которых имеет место строгий порядок слов в предложении. Целью данной работы является разработка и реализация алгоритма поиска полного набора словосочетаний для корпусов поэтических текстов на русском языке. Предлагается следующая последовательность действий для выполнения поставленной задачи:
1. Изменение порядка слов в предложениях таким образом, чтобы он был наиболее приближен к грамматическому;
2. Применение алгоритма выделения словосочетаний из полученного текста.
В итоге планируется разработка программного приложения для последующего использования экспертами-филологами при составлении словарей словосочетаний: как по литературным сборникам отдельных поэтов, так и по определенным литературным направлениям.