Выделение словосочетаний из текста на естественном языке
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 20 Март 2019
Организация: ИВТ СО РАН
Авторы: Содбоев Матвей Константинович
В работе представлены технологии автоматического извлечения словосочетаний и предложных групп из текстов. Проведен сравнительный анализ данных систем, среди которых выделен наиболее перспективный — “Tomita Parser”. Данные для тестирования подготавливались вручную.
В дальнейшем “Tomita Parser” будет интегрироваться с системой комплексного анализа русских поэтических текстов. Процесс анализа состоит из трех основных модулей: структурный, семантический и прагматический. Извлечение словосочетаний относится к семантическому анализу.
Предлагаемый метод использует контекстно-свободные грамматики для описания правил, на основе которых извлекаются словосочетания. Сами правила составляются на формальном языке.