Разработка гибридного алгоритма распознавания именованных сущностей в узбекском языке

(По материалам кандидатской диссертации)

Семинар: Информационные технологии
Начало заседания: 14:35

Дата выступления: 25 Февраль 2025

Организация: Новосибирский государственный университет, Ургенчский филиал Ташкентского университета информационных технологий

Авторы: Давлатёр Бахтиярович Менглиев

Диссертационная работа посвящена разработке гибридного алгоритма распознавания именованных сущностей (РИС) в узбекском языке, который сочетает в себе правило-ориентированные методы и современные нейросетевые модели. Актуальность исследования обусловлена агглютинативной природой узбекского языка, его диалектным разнообразием и недостаточным количеством специализированных лингвистических ресурсов, что затрудняет прямое использование классических подходов к  РИС, разработанных преимущественно для английского и китайского языков.

В рамках работы был сформирован аннотированный корпус текстов на узбекском языке, включая юридические документы, научные статьи, новостные материалы и неформальные тексты из социальных сетей. Корпус размечен по схеме BIOES с учётом специфических морфологических и лексических особенностей узбекского языка. Разработанные правило-ориентированные алгоритмы (транслитерация, стандартизация диалектов, морфологический анализ) интегрированы в единую систему постобработки, которая дополняет нейросетевые модели (BERT, CNN + BiLSTM и SpaCy). Доказано, что такой гибридный подход существенно повышает метрики точности и полноты распознавания именованных сущностей в разных тематических доменах.

Теоретическое значение исследования заключается в том, что оно расширяет подходы к  РИС для низкоресурсных агглютинативных языков, предлагая методы, учитывающие морфолого-синтаксические и диалектные особенности, а также доказывает эффективность комбинации правило-ориентированных алгоритмов и нейросетей. Полученные результаты могут быть применены при создании интеллектуальных сервисов по автоматическому анализу, переводу и аннотированию узбекскоязычных документов и сообщений, что в перспективе способствует развитию компьютерной лингвистики и информационных технологий в Узбекистане. Практическая ценность исследования состоит в том, что предложенная система может служить базой для автоматической обработки узбекских текстов в задачах поиска и извлечения информации, диалектной нормализации, аннотирования больших текстовых данных и цифровизации документооборота.

 

Трансляция семинара будет осуществляться на платформе BigBlueButton по ссылке: https://vcs-6.ict.nsc.ru/rooms/nmm-jge-zjd/join.