Инд. авторы: | Жижимов О.Л., Леонова Ю.В. |
Заглавие: | Подход к географической привязке контента текстовых документов |
Библ. ссылка: | Жижимов О.Л., Леонова Ю.В. Подход к географической привязке контента текстовых документов // Международная научно-практическая конференция «Наука, технологии и информация в библиотеках», Libway-2019 (Иркутск, 17.09-19.09.2019): Сборник тезисов докладов / Под общей редакцией Е.Б.Артемьевой. - 2019. - Новосибирск: ГПНТБ СО РАН. - С.89-90. - ISBN: 978-5-94560-314-1. |
Внешние системы: | РИНЦ: 40600225; |
Реферат: | rus: Извлечение географических названий из произвольных текстовых документов имеет важное значение в задачах обработки больших массивов документов и привязки их контента к определенному географическому региону. В самом простом виде модель извлечения географических названий из текста выглядит как последовательность действий с текстом, при этом на каждом этапе решается своя задача. Среди этих задач, несомненно, присутствуют: парсинг текста, анализатор элементов текста, обработка синонимов и сокращений, приведение элементов текста к нормальной форме с возможных словоформ и правил грамматики, сравнение элементов текста с элементами словарей географических названий, добавление в текст специальных меток для однозначной идентификации географических названий. В предлагаемой работе описана технология, реализующая перечисленные выше задачи на базе свободно распространяемой СУБД PostgreSQL. При этом используется стандартная конфигурация, все настройки серверной части выполнены в рамках штатных документированных процедур. В качестве авторитетной базы данных географических названий применены база данных GeoNames Gazetteer, базы данных Open Street Map (OSM), классификаторы ОКАТО и КЛАДР. |
Издано: | 2019 |
Физ. характеристика: | с.89-90 |
Конференция: | Название: Международная научно-практическая конференция «Наука, технологии и информация в библиотеках» Аббревиатура: LIBWAY-2019 Город: Иркутск Страна: Россия Даты проведения: 2019-09-17 - 2019-09-19 Ссылка: https://www.libway.ru/ |