Эксперименты с упорядочением свободного порядка слов для автоматизированной классификации литературных текстов
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 6 Март 2019
Организация: ИВТ СО РАН
Авторы: Пастушков Илья Сергеевич
При классификации литературных текстов исследователи сталкиваются со следующей проблемой: даже периоды творчества одного автора могут быть неоднородны между собой, поэтому для использования моделей машинного обучения стоит разделять не только авторов, но и периоды. Но даже в случае А.С. Пушкина, период включает в себя немногим больше 100 текстов, чего для многих моделей недостаточно.
Ранее автором были испытаны методы генерации синтетических данных, что улучшило результат работы классификатора, но не изменило принципиально порядок обучающей выборки. Использовать обученные на других данных модели не представлялось возможным, так как размеченные данные обучены на прозе (обычно публицистике), порядок слов в которой является более детерминированным.
Метод текстового чанкинга (text chunking) считается разновидностью частичного синтаксического анализа. Использование указанного метода заключается в разбиении текста на синтаксически связанные фрагменты текста, представляющие собой синтаксические группы с помощью обучения модели CRFSuite на данных корпуса СинТагРус и последующего его применения к тексту.
В данной работе проблема порядка слов решается с помощью извлечения синтаксических групп методом синтаксического чанкинга, а также порядка слов внутри групп и порядка самих групп для обучения другой модели, которая исходя из контекста упорядочивает слова и группы, с последующим применением данной модели к литературному тексту. При дальнейшей обработке на выходе мы получаем тексты с порядком слов, чем, во-первых, расширяем спектр методов, которые могут применяться для анализа текстов, например, word2vec, а во-вторых, с помощью этих методов можем получить такие характеристики текста, как синонимы (используя косинусное расстояние) и значимые слова/словосочетания (используя метрику wmd – word’s mover distance), которые в числе прочих признаков (словарные признаки, рифма, размер, стопность и т.д.) подаются на вход классификатору, что значительно улучшает его качество определения жанра и стиля.