Генерация синтаксически размеченного корпуса и векторное представление документов в рамках задачи кластерного анализа поэтических текстов
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 26 Февраль 2020
Организация: НГУ
Авторы: Тагирова Елизавета Павловна
Кластеризация поэтических текстов осуществляется на основе лексических признаков, в частности, словосочетаний. Для их извлечения используется синтаксический парсер, точность работы которого неудовлетворительна в случае поэзии ввиду обучающей выборки. В докладе будет представлен алгоритм генерации корпуса для обучения существующих синтаксических анализаторов при работе с поэтическими текстами. Также будет рассмотрена проблема векторного представления словосочетаний и текстов в применении к поэтическим формам.