Оценка сложности текста количественными методами с учетом адаптации индексов к русскому языку
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 27 Февраль 2024
Организация: НГУ (Новосибирск)
Авторы: Обершт София Дмитриевна
Оценка сложности текста имеет прикладное значение, поскольку позволяет адаптировать его под целевую аудиторию для более успешного понимания и, соответственно, передачи знаний, что особенно актуально при составлении учебной литературы, законодательных и нормативных документов, различной технической документации и т.п. Понятие сложности текста является комплексным: в него входят такие характеристики, как трудность, сложность (в другом понимании), читабельность и понятность. При этом в научной среде до сих пор нет единого подхода к определению этих понятий, что требует внимательного отношения на этапе постановки задачи. Спектр параметров в зависимости от употребляемой характеристики может содержать как субъективные, так и объективные признаки. Последние, в свою очередь, делятся на количественные, такие как длина, частота употребления или количество языковых единиц, и качественные, связанные с анализом языковых средств категориальных уровней языка и их реализацией в конкретном тексте. Основные формулы для оценки сложности текста зависят исключительно от количественных параметров и определяют индекс, показывающий уровень сложности текста в зависимости от возраста читателя, либо от необходимого для понимания количества лет академического обучения. Большая часть из них разработана для английского языка, некоторые адаптированы под русский язык, также существуют формулы непосредственно для русского языка. Несмотря на то, что индексы считаются универсальными и потенциально применимыми к текстам любых жанров, проведенные эксперименты с использованием разработанного программного приложения показывают, что для получения объективной оценки сложности текста необходимо учитывать, для какого языка разработан или адаптирован индекс, а также тот факт, что количественных параметров может быть недостаточно для получения объективных результатов.