Дударь З. В., Церковный А. К
Вид материала | Документы |
- Традиции лютеранской Церкви, 48.59kb.
- Собор Иоанна Крестителя, известный своим богатейшим интерьером. Воратории этого собора, 462.4kb.
- Дударь А. П. Коммерческая логистика торговой фирмы: теория и практика, 341.63kb.
- Дударь А. П. Ценовая стратегия фирмы в условиях рыночной экономики, 176.59kb.
- Алия считается, что на Первом вселенском соборе в Никее (Никея город в Вифинии, в Малой, 410.1kb.
- Дударь А. П, 266.1kb.
- Церковный раскол в общественном мнении россии (конец 1850-х 1860-е гг.), 412.6kb.
- А. Л. Ордин-Нащокин > С. Т. Разин, 17.4kb.
- Очерк по истории единоверчества раскол, 132.95kb.
- Церковный Вэстникъ, 507.96kb.
Методы кластеризации информационных ресурсов
Дударь З.В., Церковный А.К.
Современные поисковые системы зачастую выдают бесчисленное множество совершенно не относящихся к запросу документов, обрекая пользователя на длительный ручной отбор материала. Предназначенное, в конечном счете, для практического использования содержание Web-ресурсов вышло за рамки обозримости и операбельности, а задача исследования и обработки массивов, рассредоточенных по Интернету данных, стала превращаться из естественной составляющей нормального информационного процесса в сверхсложную, а то и вовсе неразрешимую проблему. Особенно остро эта проблема стоит при автоматизированном формировании электронных библиотек (ЭБ). Кластеризация и классификация текстовых документов для электронных библиотек рассматривается как один из возможных вариантов решения данной проблемы.
Кластеризация текстовых коллекций – это вычислительное определение наличия и состава тематически (содержательно) однородных групп в текстовой коллекции в случае, когда априорное описание групп отсутствует. В результате кластеризации для каждой из найденных тематических групп определяются состав группы (список входящих в группу документов), ключевые слова и аннотация группы, дающие пользователю агрегированную информацию о тематике документов группы. Основные тематические группы могут быть по запросу пользователя дополнительно объединены в более крупные группы, а внутри каждой из групп могут быть выделены более мелкие тематические подгруппы (проведена вторичная кластеризация).
Рассматриваемые в докладе методы ориентированы на использование в рамках специализированных электронных библиотек с сервисами высокоточного семантического поиска и анализа текстовой информации. Также показаны возможности использования результатов кластеризации текстовых коллекций (состава тематически однородных групп, их ключевых слов и аннотаций) в организации эффективных диалоговых процедур формирования и уточнения запросов, адекватных информационной потребности пользователя.
Вычислительное распределение соответствующих запросу пользователя документов по тематическим группам, выявленным в результате кластеризации всех документов текстовой коллекции, дает достоверную оценку тематических и семантических контекстов, на основании которых формируются группы документов, релевантных запросу пользователя и обладающих высокими показателями качества данных.