Технология нормализации текстов с диалектными особенностями
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 21 Ноябрь 2023
Организация: НГУ (Новосибирск)
Авторы: Мадиримов Шохрух Уктам угли
(Тема и аннотация публикуются в авторской редакции)
Поставлена задача автоматической замены диалектных слов на литературные эквиваленты в текстах на узбекском языке. Реализация программного приложения включает в себя создание алгоритма, специализирующегося на обработке диалектных вариаций узбекского языка. Приложение использует лингвистические анализаторы для автоматического выбора диалектных слов и замену их на соответствующие литературные формы.
Алгоритм включает в себя механизм стемминга, использование обширной базы аффиксов для обработки неизвестных слов. В процессе работы созданы базы данных для южнохорезмского и североогузского диалектов, включающие более 80 тысяч корневых слов, преобразованных вручную в диалектные формы в том числе с учетом различных случайных аффиксов.
Алгоритм показал эффективность в преобразовании диалектных слов в соответствующие литературные формы, демонстрируя высокую точность при предварительной обработке известных слов. Отмечено снижение точности при обработке форм слов, измененных по сравнению с встречающимися в базах данных. Однако предложенный алгоритм обладает потенциалом для последовательных преобразований словоформ, что позволит повысить его точность.