Основные понятия информационного поиска информационные процессы и системы

Вид материалаДокументы
Northern Light.
3.7.3. Структурные элементы языков запросов
Таблица 3.6 Главные поисковые системы вербального типа: основные характеристики
Логические операторы по умолчанию (на месте пробела)
NEAR: AltaVista, Рамблер (по умолчанию и в расширенной форме) Расстояние в словах
Автоматическая нормализация множественного числа: Northern Light
Чувствительность к регистру
По отрасли
Индексирование с использованием стоп-слов
Применяется с сохранением возможности поиска по стоп-словам
3.8. Метапоисковые системы
Подобный материал:
1   2   3   4   5   6   7   8
Fast (AlltheWeb and Lycos). Одна из самых больших поисковых баз данных. Хорошие поисковые возможности (но не поддерживает логические операторы). Находит документы, которые не находят другие ИПС.

Northern Light. Большая поисковая база данных. Специальные базы данных (телеконференции, геоинформация, статьи из более чем 7100 электронных изданий). Мощный язык запросов. Интересный способ представления результатов поиска (тематические папки).

AltaVista. Одна из самых больших поисковых баз данных. Мощный язык запросов с уникальными поисковыми возможностями. Режим перевода найденных документов.

3.7.2. ИПС под углом зрения языков запросов

Охарактеризуем основные системы с точки зрения их языков запросов и способов ранжирования результатов (см. табл. 3.6).

Обратим внимание, что для российских систем (в разной степени) характерна вариативность задания поисковых операторов (несколько значков для одного и того же оператора); здесь приводится только смысловой булев эквивалент.

3.7.3. Структурные элементы языков запросов

Перечислим характерные элементы языков запросов разных систем, естественно, далеко не все, и их распределение по системам. При изучении данного раздела полезно вспомнить обобщенную структурную модель языков запросов (гл. 2, разд. 2АЛ).


Таблица 3.6

Главные поисковые системы вербального типа: основные характеристики



ипс

Логические операторы

Контекстные операторы

Морфолог, нормализация

Поиск по полям

Области ограничения

Ранжирование

Google

-,OR

"Phrase"

Нет

link, related, allintitle

Язык,

домен

По релевантности, по индексу цитирования

Fast Search (AlltheWeb, Lycos)

+,-

"Phrase"

Нет

title, URL, link, anchor

Язык,

домен

По релевантности

Northern Light

and, or, not, ( ),

+,-

"Phrase"

Усечение

(* %), автоматическая нормализация

Title, URL

Тип док-та, дата и др.

Тематические папки

AltaVista

and, or, and not, (),+,-

"Phrase", Near

Усечение (*)

title, url, link, more

Язык, дата и др.

По релевантности

Excite

AND, OR, NOT, (),+,-

"Phrase"

Нет

Her

Нет

По релевантности, по сайту

HotBot

and, or, not, ( ), +,-

"Phrase"

Усечение (*)

linkdomain,, title, more

Дата и др.

По релевантности, по сайту

Яндекс

and, or, not, ( )

"Phrase", операторы расстояния

Автоматическая нормализация

title, url, link, more

Домен

По релевантности, по дате

Апорт

and, or, not, ( )

"Phrase", операторы расстояния

Автоматическая нормализация, усечение (*)

title, url, link, more

Домен

По релевантности

Рамблер

and, or, not, ( )

"Phrase", ограничение расстояния

Автоматическая нормализация, усечение (*)

title, url, link, more

Язык, домен

По релевантности (внутри по сайтам), по дате


Логические операторы по умолчанию (на месте пробела):

AND: Northern Light, AHTheWeb, HotBot, Google, MSN Search, Lycos, WiseNut, Teoma, Рамблер, Апорт, Яндекс

OR: AltaVista, Excite

Логические операторы и выражения в запросе:

and, or, скобочные выражения: Northern Light, AltaVista Advanced, HotBot, Excite, MSN Search, Рамблер (также &), Апорт (также +, &, И, и), Яндекс (в специфической форме: & (and) и | (or))

not: Northern Light, HotBot, Excite, MSN Search, Google (знак «-»), Рамблер (также !), Апорт (также НЕ), Яндекс (в специфической форме: ~)

and not: AltaVista Advanced, Excite

AND, OR (только прописными): AltaVista Simple, Excite

Только OR: Google

OR в виде скобочной записи (термин! термин2): AHTheWeb

Контекстные операторы (близость, расстояние)

Phrase: Northern Light, AltaVista, Google, HotBot, Excite, MSN Search, Lycos, AllTheWeb, WiseNut, Teoma, Рамблер, Апорт, Яндекс

NEAR: AltaVista, Рамблер (по умолчанию и в расширенной форме)

Расстояние в словах: Апорт, Яндекс

Расстояние в предложениях: Яндекс

Морфологическая нормализация:

Автоматическая нормализация: Апорт, Яндекс, Рамблер

Автоматическая нормализация множественного числа: Northern Light

Усечение: AltaVista, Northern Light, HotBot, MSN Search, NBCi, iWon, Апорт, Рамблер

Автоматическое усечение: Yahoo!

Автоматическое усечение до основы слова: HotBot, MSN Search

Чувствительность к регистру:

Всегда: AltaVista (если термины в кавычках)

Частично (с точностью до прописных): HotBot, MSN Search

Сортировка с учетом регистра: Northern Light

Нет: Google, AllTheWeb, Excite, Lycos, WiseNut, Teoma и др.

Поиск по полям36:

title: AltaVista, Northern Light, AllTheWeb, HotBot, Lycos, MSN Search, Апорт, Яндекс, Рамблер

intitle: Google

allintitle: Google

url: AltaVista, Northern Light, Fast Advanced Search, Lycos Advanced, Апорт, Яндекс, Рамблер

inurl: Google

allinurl: Google

link: AltaVista, Google, Fast Advanced Search, Lycos Advanced, MSN Search, Апорт, Яндекс

host: AltaVista

domain: HotBot, MSN Search

site: Google

anchor: AltaVista, Fast Advanced Search, Апорт, Яндекс

image: AltaVista

related: Google

другие: AltaVista, Northern Light, HotBot, MSN Search

Ограничение области поиска:

По дате: AltaVista Advanced, Northern Light* HotBot, MSN Search, Апорт, Яндекс, Рамблер

По языку: AltaVista, Northern Light, AllTheWeb, Excite, Google, HotBot, MSN Search, Lycos, WiseNut, Яндекс, Рамблер

По теме: Northern Light

По типу документов: Northern Light

По отрасли: Northern Light

По домену: Northern Light, AllTheWeb Advanced Search, HotBot, Excite, MSN Search, Lycos

По типу данных внутри документа: HotBot, MSN Search

По глубине внутри сайта: HotBot

Индексирование с использованием стоп-слов:

Применяется: AltaVista Simple, HotBot, Excite, MSN Search, Lycos, Апорт.

He применяется (в инвертированный файл включаются все слова): Northern Light, AltaVista Advanced, AllTheWeb, Lycos.

Применяется с сохранением возможности поиска по стоп-словам: Google, Teoma, WiseNut

Ранжирование результатов поиска:

По релевантности: Все

По дате: Northern Light, Яндекс, Рамблер

По сайту: Excite, Google, Рамблер

Здесь приведен обзор лишь основных элементов языков запросов современных вербальных ИПС. Дополнительно во многих системах существуют различные другие возможности, например, режим установки

так называемого семейного фильтра, при котором из результатов поиска исключаются документы неприличного содержания, и многое другое.

3.8. Метапоисковые системы

Каждая поисковая система имеет только свое собственное, ограниченное ее ресурсами, множество документов, которые доступны для поиска. Ни одна из подобных систем не сможет охватить всех ресурсов Интернета, поэтому в любой момент может возникнуть ситуация, когда информационные потребности пользователя не смогут быть удовлетворены. Как правило, в этом случае пользователь пытается воспользоваться другой поисковой системой, третьей, четвертой и т. д.

Для решения данной проблемы и расширения возможностей поиска, были созданы системы, называемые метапоисковыми (metasearch engines)37. Они не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы других поисковых систем. За счет этого вероятность нахождения нужной информации возрастает.

При проектировании метапоисковой системы необходимо решить ряд проблем.

Во-первых, к каким ИПС будет переадресовываться запрос пользователя? Этот список может быть фиксирован жестко или же право выбора нужных систем из списка может быть предоставлено пользователю. Такой подход позволяет уменьшить используемые вычислительные ресурсы метапоискового сервера, не перегружая его слишком большим объемом ненужной информации. В любой системе метапоиска наиболее узким местом в основном является пропускная способность канала передачи данных, так как обработка страниц с результатами поиска, полученными от нескольких десятков поисковых серверов не является слишком трудоемкой операцией, потому что затраты времени на обработку информации на порядки меньше времени прихода страниц, запрошенных у разных поисковых серверов. Как примеры систем, имеющих подобную организацию, можно назвать Internet Sleuth, Profusion, Ixquick, SawySearch, MetaPing38. Также проектируются ИПС с возможностью автоматического выбора тех поисковых систем, в которых следует проводить поиск.

В некоторых метапоисковых системах существует возможность выбора категории интересующей информации с последующим выбором поисковых систем по заданной категории. Иными словами, система помогает отыскать лучшие по профилю поисковые системы. Этот режим позволяет избежать неудачных попыток обращения к тем системам, которые не располагают полезными сведениями.

Следует упомянуть, что существуют особо «дружелюбные» пользователю метапоисковые системы, которые сами предлагают поисковый HTML-код, который можно скопировать и вставить на свою веб-страницу для выполнения метапоиска прямо с нее.

Во-вторых, в каком виде будут предоставляться результаты поиска? Здесь различают два основных типа систем: с интегрированными результатами поиска и с объединенными результатами. В первом случае пользователь получает единую сводную выдачу (иногда, с возможностью сортировки по тому или иному критерию — так, система MetaCrawler упорядочивает результаты поиска или по релевантности, или по сайтам, или по системам, от которых получены результаты). Подобно MetaCrawler, Profusion, метапоисковая система Канзасского университета, позволяет вести поиск через несколько крупных поисковых систем (из которых можно выбрать только интересующие пользователя), результаты поиска также объединяются, устраняются повторы и подсчитывается коэффициент релевантности. Дополнительная возможность данного сайта - персонализованная служба поиска, в которой можно зарегистрировать свои регулярно повторяющиеся запросы с тем, чтобы Profusion периодически производила по ним поиск и сообщала, если будут получены новые результаты.

В 2001 г. обратила на себя внимание система Vivissimo, которая классифицирует документы, найденные одной из девяти поисковых систем (среди них Alta Vista, Google, Fast, Lycos, каталог Open Directory и новостные сайты Altavista News и CNN). Найденные результаты (можно задать ограничение объема выдачи в 100,200 или 300 документов) раскладываются по каталогам (папкам), которые видны на левой панели окна броузера. В правой части показываются адреса найденных документов. Раскрыв нужную папку, мы увидим новые папки или отдельные документы. Выбранный документ будет показан в правой части экрана.

Второй тип систем выдает результаты отдельно по каждой системе, с помощью которой они были получены (например, All4One, SuperSearch).

Далее, существует проблема унификации критериев вычисления релевантности. Как правило, критерии смыслового соответствия и способы вычисления релевантности отличаются в разных системах. В большинстве метапоисковых систем анализ полученных описаний документов не производится, что может поставить нерелевантные документы, идущие первыми в одной поисковой системе, выше релевантных в другой, что существенно понизит качество самого поиска.

Еще одна проблема — возможности языков запросов метапоисковых систем. Обычно они предельно упрощены. Но в этом случае возможности промежуточных систем с развитыми языками запросов будут использоваться плохо. С другой стороны, усложнение языка запросов метапоисковых систем не позволит адекватно транслировать запрос в разные системы.

При всей привлекательности пользования метапоисковыми системами следует помнить и об их недостатках. Отсутствие единого для всех поисковых систем стандарта языка запросов не позволяет несовершенным пока еще метапоисковым системам добиваться от поисковых систем, включенных в их список, такого же результата, какого может добиться опытный пользователь при работе с каждой системой по отдельности. Иными словами, пользователь, который работает, например, с ИПС Google, теоретически может получить документы из всего объема базы данных этой системы, пользователь же, который работает с метасистемой, передающей запросы в Google, не располагает всеми возможностями доступа к документам Google, и чем проще язык метасистемы, тем ниже возможности получить максимальный объем информации. «К сожалению, для предметного и тонкого поиска метасистемы пока еще плохо применимы. Проблема заключается в том, что язык запросов меташлюза располагает лишь самыми общими для большинства ИПС и поэтому крайне скромными возможностями. Появление проекта стандарта поисковых систем SESP в этом отношении откроет новые перспективы в развитии метасистем, поскольку стандартизация ИПС существенно расширит возможности шлюзования»39.

Чаще всего, работая с несколькими ИПС, метапоисковые системы оказываются неспособными правильно обработать полученные результаты. Общий или разделенный массив документов может содержать одни и те же источники, одни и те же ссылки; на первое место могут выдвинуться отнюдь не релевантные документы, нужные же вполне рискуют оказаться отодвинутыми на задний план и остаться не прочтенными пользователем. Правда, эти недостатки встречаются и у обычных вербальных ИПС.