Оценка сложности текста методами машинного обучения с использованием количественных параметров

Семинар: Информационно-вычислительные технологии в задачах поддержки принятия решений
Начало заседания: 11:00

Дата выступления: 4 Март 2025

Организация: НГУ

Авторы: Обершт София Дмитриевна

Оценка сложности текста методами машинного обучения актуальна в различных задачах обработки естественного языка, а также при составлении научной и учебной литературы, документации; при этом текст градуируется по уровням академического образования или общеевропейским компетенциям владения иностранным языком (CEFR) и др.

В качестве подходов рассматриваются методы машинного обучения, глубокого обучения, а также гибридные модели: алгоритмы классификации и регрессии, обученные на отобранном наборе лингвистических признаков текста и предсказаний нейросетевых моделей.

В докладе представлен сравнительный анализ основных моделей машинного обучения: метод случайного леса, градиентный бустинг, метод опорных векторов, принимающие в качестве параметров количественные признаки текста (средняя длина предложений, среднее количество слогов в слове и др.). В качестве выборки взяты учебники по обществознанию, входящие в Russian Readability Corpus. Результаты проведенных экспериментов продемонстрировали, что модели, обученные на таком наборе параметров, показывают недостаточную точность предсказания, по сравнению с моделями, обученными на лингвистических параметрах; далее планируется расширение спектра количественных параметров для повышения точности.

 

Семинар будет проведен в смешанном формате. Очное заседание пройдет в конференц-зале ФИЦ ИВТ (к.513), дистанционно к семинару можно будет подключиться по ссылке https://vcs-6.ict.nsc.ru/rooms/grz-ayy-7ne/join

Для студентов и аспирантов, находящихся в Новосибирске и не имеющих причин для дистанционного подключения, очное присутствие обязательно.

 

Запись семинара: https://vcs-6.ict.nsc.ru/playback/presentation/2.3/caeaa151fe7743faa3d160ccb904deddc5b7d1cb-1741060144515