Разработка и реализация веб-приложения для пакетной выгрузки данных и метаданных корпусов поэтических текстов
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 18 Март 2020
Организация: НГУ
Авторы: Шашок Наталья Александровна
В процессе использования поэтических текстов, взятых из внешнего источника — электронных научных изданий фундаментальной электронной библиотеки (feb-web.ru) — возникает проблема отсутствия программного интерфейса для пакетной выгрузки материалов с ресурса (данных и метаданных), готовых для обработки системой комплексного анализа поэтических текстов. В докладе обсуждаются алгоритмы построения карты данного электронного ресурса, извлечения поэтических текстов и их метаданных, их очистки от «шума», такого как сноски, примечания и теги, а также выбор наиболее важных метаданных для дальнейшего использования и внесения в базу данных системы.