Оценка сложности текста методами машинного обучения (на материале русского языка)
(аннотация доклада представлена в авторской редакции)
Семинар: Информационные технологии
Начало заседания: 14:35
Дата выступления: 19 Март 2024
Организация: НГУ
Авторы: Дмитрий Алексеевич Морозов
Сложность текста, его читабельность и предполагаемый возраст читателя — величины, не имеющие строгого определения, но весьма востребованные с прикладной точки зрения. Вычислять сложность текста может быть необходимо при оценке понятности инструкций к медикаментам или оборудованию, юридических документов, учебников языка (в том числе, как иностранного). Оценка возраста читателя важна для создания релевантных систем рекомендаций в книжных магазинах или при составлении школьной программы. В то же время использование для вычисления этих величин экспертов или, тем более, проведение для каждого текста лингвистического эксперимента является долгим, дорогим и не всегда эффективным подходом.
Первые попытки автоматизировать оценку возникли на самых ранних этапах развития вычислительной лингвистики. Разработанные алгоритмы представляли собой линейные регрессии, опирающиеся на простые характеристики, например, среднюю длину предложений и слов. За прошедшие с тех пор 75 лет подходы значительно развились, повысилось и качество оценки. В частности, повышение качества может быть достигнуто за счёт использования в признаковом описании текста более сложных, лингвистически мотивированных величин. В то же время для русского языка эффективность применения различных лингвистических характеристик изучена недостаточно.
В рамках работы было проведено масштабное сравнение качества работы алгоритмов машинного обучения в задаче оценки сложности русскоязычных текстов в зависимости от используемого признакового описания. Изучены 7 категорий признаков, упомянутых в литературе, для трёх из семи категорий предложены ранее не использовавшиеся характеристики, оценено их влияние на качество оценки. Для анализа использованы четыре алгоритма: метод опорных векторов, метод случайного леса, свёрточная нейронная сеть и многослойный перцептрон. Сравнение проведено на материале четырёх русскоязычных корпусов с различными парадигмами разметки сложности. Использование сразу нескольких алгоритмов и корпусов позволило получить объективное представление об эффективности использования различных категорий лингвистических характеристик для улучшения качества оценки сложности текстов на русском языке.
Трансляция семинара будет осуществляться на платформе BigBlueButton по ссылке: https://vcs-6.ict.nsc.ru/rooms/nmm-jge-zjd/join.