Методы автоматического порождения поисковых эвристик
Курсовой проект - Компьютеры, программирование
Другие курсовые по предмету Компьютеры, программирование
пертинентность.
В настоящий момент большинство поисковых систем хоть и в состоянии обеспечить актуальность и полноту выдаваемой информации, но что касается пертинентности, то поисковые системы нацелены лишь на повышение одной из ее составляющих - релевантности результатов поиска. Вследствие чего теряется главный смысл создания инструментов поиска в Интернете - удовлетворение информационных нужд пользователей.
Рассмотрим существующие поисковые системы с точки зрения введенных критериев оценки поисковых систем.
1.2Поисковая система с большим количеством проиндексированных документов
Такие поисковые системы на сегодняшний момент являются одним из самых распространенных и популярных инструментов поиска в Интернете. Самыми известными поисковыми системами являются Google, Yandex, Rambler. Они обладают огромным количеством проиндексированных документов (документов в которых осуществляется поиск), причем их база информационных ресурсов постоянно обновляется и расширяется [7]. Вышеперечисленные качества являются несомненными достоинствами поисковой системы, поскольку в ее обширной информационной базе с очень большой вероятностью может быть найден какой-нибудь подходящий ответ практически на большинство запросов пользователей даже без привлечения для этих целей серьезного методического аппарата. Более того такие поисковые системы обеспечивают высокую релевантность результатов поиска за счет различных алгоритмов поиска и ранжирования документов.
Таким образом, используя такие системы в качестве инструментов поиска, человек получит очень качественный набор документов, формально соответствующий запросу. Система выдаст пользователю информацию, которая будет релевантной поисковому запросу, но далеко не пертинентной. Подобные поисковые системы вообще не обладают механизмами повышения пертинентности запроса. Поэтому задача формирования запроса и выбора подходящих сведений среди отобранной информации полностью возлагается на пользователя.
Таким образом, информационно-поисковые системы этого типа удовлетворяют лишь нескольким критериям качества работы поисковых систем: актуальность, полнота и релевантность результатов поиска, совершенно забывая об информационных нуждах пользователей, то есть о пертинентности.
1.3Поисковый каталог
Поисковый каталог - сайт, представляющий собой систематизированную модераторами по тематическому принципу коллекцию ссылок на другие сайты. Поисковые каталоги, получившие наибольшую популярность это Yahoo, Open Directory, Яндекс-каталог, Апорт и другие.
Поисковые каталоги в какой-то слабой мере могут обеспечить пертинентность ответа в сравнении с поисковой системой для определенного узкого круга лиц, за счет предварительной обработки документов редакторами в ручном режиме. Однако информационная полезность таких каталогов, как правило, ограничена небольшим количеством проиндексированных документов, большими затратами средств на поддержание актуальности базы проиндексированных документов и, следовательно, низкой оперативностью ее обновления. Соответственно абсолютно не гарантируют своим пользователем актуальность и полноту выдаваемой информации.
1.4Преимущества и недостатки существующих подходов
Подводя итоги, выделим основные преимущества информационно-поисковой системы и поискового каталога:
Информационно-поисковая система:
Огромное количество проиндексированных документов
Поддержка актуальности информации
Высокая релевантность результатов поиска
Поисковый каталог
Пертинентность информации в пределах представленных ресурсов
Удобная структура для организации данных
На основе информационно-поисковой системы и Интернет-каталога, а также их преимуществ был разработан новый подход в поиске информации - Виртуальный каталог.
2.Виртуальный каталог
Виртуальный каталог - это мета-поисковая система, которая объединяет в себе основные достоинства поисковой системы и поискового каталога, а также исключает их недостатки [4,6].
Интерфейс виртуального каталога снаружи похож на обычный Интернет-каталог. Однако поиск информации в виртуальном каталоге происходит абсолютно по иным механизмам, основанным на использовании онтологии предметной области [8] и Интернета, а также поисковой системы с большим количеством проиндексированных документов.
2.1Принцип работы виртуального каталога
Принцип работы виртуального каталога основан на трех его составляющих:
.Онтология предметной области
Онтология предметной области состоит из рубрик [9,10,11,12]. Рубрика - представляет собой определенный раздел знаний предметной области. Рубрики связаны между собой связью целое-часть. При этом полученный из онтологии рубрикатор является не деревом, а графом. То есть подрубрика может принадлежать не строго одной рубрике, а нескольким рубрикам.
.Онтология Интернета
Онтология Интернета в виртуальном каталоге представлена классификацией видов Интернет-ресурсов [6]. Видами Интернет-ресурсов являются: статьи, форумы, блоги, конференции, тематические сайты и т.д. В настоящий момент разработан только первый уровень рубрикатора видов ресурсов. В дальнейшем онтология видов ресурсов будет развиваться.
.Эвристики
Главным связующим звеном и ядром виртуального каталога являются эвристики. Эвристика - это ключевой термин, сужающий об