Автоматическая разметка документов для научно-просветительского ресурса «Пушкин Цифровой»
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 14 Ноябрь 2023
Организация: СПб ФИЦ РАН (Санкт-Петербург)
Авторы: Тесля Николай Николаевич
Создание научно-просветительских ресурсов для популяризации и широкого распространения авторского наследия требует автоматизации процессов, связанных с наполнением ресурса материалами и метаданными по материалам. Одним из таких процессов является разметка текста для загруженных документов. В процессе разметки осуществляется поиск значимых сущностей в тексте, с помощью которых осуществляется классификация, расширяется количество возможных связей документов и упрощается поиск документов в научно-просветительском ресурсе. Заполнение метаданных возможно на основе автоматического поиска их по базе знаний с использованием названия и типа документа. Для решения представленных задач предлагается метод на основе использования мультиязычной модели BERT, дополнительно обученной на корпусе размеченных текстов из Пушкинской энциклопедии, а также использование семантических запросов к порталу Викиданные.