Модели и методы кластеризации текстовых документов произвольной тематики (по материалам кандидатской диссертации)

Семинар: Информационные технологии
Начало заседания: 14:35

Дата выступления: 27 Сентябрь 2011

Организация: ИВТ СО РАН

Авторы: Ткачев Дмитрий Александрович

Предметом доклада являются методы и алгоритмы, применимые для кластеризации электронных документов, а также параметры, оказывающие влияние на качество и скорость выполнения процесса кластеризации. Будут рассматриваться следующие вопросы: метод анализа документов произвольной тематики с целью выявления ключевых слов и словосочетаний, максимально отражающих содержание анализируемого текста; вариант параллельной реализации процесса обработки и кластеризации документов на различных этапах, а именно анализ текстов для определения списка ключевых слов и словосочетаний, так и непосредственно на этапе кластеризации; информационная система, позволяющая управлять массивами данных, производить их анализ, выполнять кластеризацию, а также включающая различные методы поиска и доступа к информации.