Метод автоматической классификации текстов по тональности, основанный на составных ключевых термах

Семинар: Информационные технологии
Начало заседания: 14:35

Дата выступления: 2 Апрель 2013

Организация: ИВТ СО РАН

Авторы: Забайкин Алексей Васильевич

Работа посвящена улучшению характеристическо вектора текста путём построения составных ключевых термов. Для этого на начальном этапе запускается графематический модуль, включающий нахождение возможных грамматических ошибок по мере Левенштейна, далее производится морфологический анализ слов на основе стеммера от компании Яндекс и собственно выделение ключевых составных термов. В работе показано практическое преимущество автоматической классификации текстов по тональности на основе составных ключевых термов, составлена сравнительная таблица по основным мерам ошибок (Precison, Recall, F-measure). Установлено, что используя общедоступные программные средства, можно получить меньшее значение ошибки по сравнению с классическими алгоритмами, включая алгоритм Baseline.