Модели и алгоритмы определения прагматических характеристик поэтических текстов с применением технологий машинного обучения
(по материалам кандидатской диссертации)
Семинар: Информационные технологии
Начало заседания: 14:35
Дата выступления: 18 Июнь 2019
Организация: ИВТ СО РАН
Авторы: Пастушков Илья Сергеевич
Извлечение информации из текстовых документов — это важная и активно развивающаяся область исследований. Но, несмотря на то что уже разработаны, казалось бы, универсальные методы, основанные на нейронных сетях, и открытые данные для их обучения, существуют классы текстов, на которых они работают не так хорошо. Разработка методов автоматического определения таких характеристик поэтических текстов как жанр и стиль, с одной стороны, это шаг на пути к решению фундаментальной задачи филологии о влиянии низших характеристик стиха на высшие, с другой стороны, позволяет определять прагматические категории на классы текстов со сходными проблемами в применимости распространённых методов (особенности прагматических категорий, работоспособность при малом объёме размеченного корпуса текстов и свободный порядке слов), такие как сообщения и посты в социальных сетях.
В работе приведен обзор существующих методов классификации текстов, выделены их основные недостатки в рамках поставленной задачи и предложена технология классификации текстов, верифицированная на заведомо разделимом, каноническом корпусе лицейской лирики А.С. Пушкина. В данную технологию включены методы морфологического анализа текстов для приведения к начальной форме, методы уменьшения разницы представителей разных классов, а также методы машинного обучения для их классификации. Отдельно рассмотрены предложенные методы приведения порядка слов к грамматическому, что позволяет уменьшить размерность вектора признаков, не теряя в качестве, благодаря использованию синонимии и более аккуратного раскрытия омографов.