Алгоритм извлечения словосочетаний из корпусов поэтических текстов на русском языке
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 11 Март 2020
Организация: НГУ
Авторы: Столбов Никита Станиславович
В рамках доклада рассматривается алгоритм решения задачи извлечения словосочетаний из поэтических текстов. В связи с тем, что порядок слов в поэтическом тексте, как правило, значительно отличается от грамматического, а синтаксические анализаторы исходят именно из грамматического порядка слов, на первом этапе алгоритма происходит изменение порядка слов в предложениях текста, приближающее его к грамматическому. Далее производится непосредственная работа алгоритма по извлечению словосочетаний (в данный момент для этого используется программный пакет UDPipe). После извлечения словосочетаний из корпуса поэтических текстов предполагается их конкордация и статистический анализ.