Дударь З. В., Церковный А. К

Вид материалаДокументы
Подобный материал:
Методы кластеризации информационных ресурсов

Дударь З.В., Церковный А.К.


Современные поисковые системы зачастую выдают бесчисленное множество совершенно не относящихся к запросу документов, обрекая пользователя на длительный ручной отбор материала. Предназначенное, в конечном счете, для практического использования содержание Web-ресурсов вышло за рамки обозримости и операбельности, а задача исследования и обработки массивов, рассредоточенных по Интернету данных, стала превращаться из естественной составляющей нормального информационного процесса в сверхсложную, а то и вовсе неразрешимую проблему. Особенно остро эта проблема стоит при автоматизированном формировании электронных библиотек (ЭБ). Кластеризация и классификация текстовых документов для электронных библиотек рассматривается как один из возможных вариантов решения данной проблемы.

Кластеризация текстовых коллекций – это вычислительное определение наличия и состава тематически (содержательно) однородных групп в текстовой коллекции в случае, когда априорное описание групп отсутствует. В результате кластеризации для каждой из найденных тематических групп определяются состав группы (список входящих в группу документов), ключевые слова и аннотация группы, дающие пользователю агрегированную информацию о тематике документов группы. Основные тематические группы могут быть по запросу пользователя дополнительно объединены в более крупные группы, а внутри каждой из групп могут быть выделены более мелкие тематические подгруппы (проведена вторичная кластеризация).

Рассматриваемые в докладе методы ориентированы на использование в рамках специализированных электронных библиотек с сервисами высокоточного семантического поиска и анализа текстовой информации. Также показаны возможности использования результатов кластеризации текстовых коллекций (состава тематически однородных групп, их ключевых слов и аннотаций) в организации эффективных диалоговых процедур формирования и уточнения запросов, адекватных информационной потребности пользователя.

Вычислительное распределение соответствующих запросу пользователя документов по тематическим группам, выявленным в результате кластеризации всех документов текстовой коллекции, дает достоверную оценку тематических и семантических контекстов, на основании которых формируются группы документов, релевантных запросу пользователя и обладающих высокими показателями качества данных.