Оценка сложности текста методами машинного обучения (на материале русского языка)

(аннотация доклада представлена в авторской редакции)

Семинар: Информационные технологии
Начало заседания: 14:35

Дата выступления: 19 Март 2024

Организация: НГУ

Авторы: Дмитрий Алексеевич Морозов

Сложность текста, его читабельность и предполагаемый возраст читателя — величины, не имеющие строгого определения, но весьма востребованные с прикладной точки зрения. Вычислять сложность текста может быть необходимо при оценке понятности инструкций к медикаментам или оборудованию, юридических документов, учебников языка (в том числе, как иностранного). Оценка возраста читателя важна для создания релевантных систем рекомендаций в книжных магазинах или при составлении школьной программы. В то же время использование для вычисления этих величин экспертов или, тем более, проведение для каждого текста лингвистического эксперимента является долгим, дорогим и не всегда эффективным подходом.

 

Первые попытки автоматизировать оценку возникли на самых ранних этапах развития вычислительной лингвистики. Разработанные алгоритмы представляли собой линейные регрессии, опирающиеся на простые характеристики, например, среднюю длину предложений и слов. За прошедшие с тех пор 75 лет подходы значительно развились, повысилось и качество оценки. В частности, повышение качества может быть достигнуто за счёт использования в признаковом описании текста более сложных, лингвистически мотивированных величин. В то же время для русского языка эффективность применения различных лингвистических характеристик изучена недостаточно.

 

В рамках работы было проведено масштабное сравнение качества работы алгоритмов машинного обучения в задаче оценки сложности русскоязычных текстов в зависимости от используемого признакового описания. Изучены 7 категорий признаков, упомянутых в литературе, для трёх из семи категорий предложены ранее не использовавшиеся характеристики, оценено их влияние на качество оценки. Для анализа использованы четыре алгоритма: метод опорных векторов, метод случайного леса, свёрточная нейронная сеть и многослойный перцептрон. Сравнение проведено на материале четырёх русскоязычных корпусов с различными парадигмами разметки сложности. Использование сразу нескольких алгоритмов и корпусов позволило получить объективное представление об эффективности использования различных категорий лингвистических характеристик для улучшения качества оценки сложности текстов на русском языке.

 

Трансляция семинара будет осуществляться на платформе BigBlueButton по ссылке: https://vcs-6.ict.nsc.ru/rooms/nmm-jge-zjd/join.