Разработка программного инструментария для распознавания именованных сущностей в текстах на узбекском языке
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 12 Март 2024
Организация: НГУ (Новосибирск)
Авторы: Давлатёр Бахтиярович Менглиев
На сегодняшний день наблюдается активное развитие инструментов обработки текстовых данных для решения задач морфологического и синтаксического анализа текстов, распознавания именованных сущностей и т.п.. Однако для малоресурсных языков, например, таких, как узбекский, существует дефицит инструментов обработки слабоструктурированных данных.
В рамках проведённого исследования разработан и реализован алгоритм распознавания именованных сущностей в текстах на узбекском языке с применением технологий машинного обучения. Для обучения модели использован размеченный корпус, состоящий из более чем 2000 предложений, источником этих данных являлись официальные документы, имеющие юридическую силу (законы, постановления, приказы) и обладающие чёткой формальной структурой предложений. Результаты эксперимента показывают высокую эффективность алгоритма: точность распознавания составляет 94 %. Предлагаемое решение для узбекского языка на сегодняшний день не имеет аналогов.
---
Онлайн-подключение на семинар будет осуществляться по ссылке:
https://vcs-6.ict.nsc.ru/rooms/be6-uui-gvg-ced/join