Основные понятия информационного поиска информационные процессы и системы
Вид материала | Документы |
- Полный курс лекций по Информационным системам информационные системы, 787.33kb.
- Конспект лекций для специальности «Прикладная информатика в экономике», 1468.57kb.
- Организационные основы информационных технологий в экономике, 44.75kb.
- Информационные системы (теория к экзамену) Основные понятия информационных систем, 82.21kb.
- Курсовая работа предмет: Информационные системы Тема: Языки информационного поиска, 154.92kb.
- Информация и информационные процессы, 276.11kb.
- Справочно-информационные системы в подготовке юриста, 31.18kb.
- 1 Информация. Кодирование информации, 59.79kb.
- Инициативный проект Российского семинара по оценке методов информационного поиска (ромип), 149.92kb.
- Программа по дисциплине «прикладные протоколы интернет и www» по направлениям: «Математика., 234.28kb.
Northern Light. Большая поисковая база данных. Специальные базы данных (телеконференции, геоинформация, статьи из более чем 7100 электронных изданий). Мощный язык запросов. Интересный способ представления результатов поиска (тематические папки).
AltaVista. Одна из самых больших поисковых баз данных. Мощный язык запросов с уникальными поисковыми возможностями. Режим перевода найденных документов.
3.7.2. ИПС под углом зрения языков запросов
Охарактеризуем основные системы с точки зрения их языков запросов и способов ранжирования результатов (см. табл. 3.6).
Обратим внимание, что для российских систем (в разной степени) характерна вариативность задания поисковых операторов (несколько значков для одного и того же оператора); здесь приводится только смысловой булев эквивалент.
3.7.3. Структурные элементы языков запросов
Перечислим характерные элементы языков запросов разных систем, естественно, далеко не все, и их распределение по системам. При изучении данного раздела полезно вспомнить обобщенную структурную модель языков запросов (гл. 2, разд. 2АЛ).
Таблица 3.6
Главные поисковые системы вербального типа: основные характеристики
ипс | Логические операторы | Контекстные операторы | Морфолог, нормализация | Поиск по полям | Области ограничения | Ранжирование |
| -,OR | "Phrase" | Нет | link, related, allintitle | Язык, домен | По релевантности, по индексу цитирования |
Fast Search (AlltheWeb, Lycos) | +,- | "Phrase" | Нет | title, URL, link, anchor | Язык, домен | По релевантности |
Northern Light | and, or, not, ( ), +,- | "Phrase" | Усечение (* %), автоматическая нормализация | Title, URL | Тип док-та, дата и др. | Тематические папки |
AltaVista | and, or, and not, (),+,- | "Phrase", Near | Усечение (*) | title, url, link, more | Язык, дата и др. | По релевантности |
Excite | AND, OR, NOT, (),+,- | "Phrase" | Нет | Her | Нет | По релевантности, по сайту |
HotBot | and, or, not, ( ), +,- | "Phrase" | Усечение (*) | linkdomain,, title, more | Дата и др. | По релевантности, по сайту |
Яндекс | and, or, not, ( ) | "Phrase", операторы расстояния | Автоматическая нормализация | title, url, link, more | Домен | По релевантности, по дате |
Апорт | and, or, not, ( ) | "Phrase", операторы расстояния | Автоматическая нормализация, усечение (*) | title, url, link, more | Домен | По релевантности |
Рамблер | and, or, not, ( ) | "Phrase", ограничение расстояния | Автоматическая нормализация, усечение (*) | title, url, link, more | Язык, домен | По релевантности (внутри по сайтам), по дате |
Логические операторы по умолчанию (на месте пробела):
AND: Northern Light, AHTheWeb, HotBot, Google, MSN Search, Lycos, WiseNut, Teoma, Рамблер, Апорт, Яндекс
OR: AltaVista, Excite
Логические операторы и выражения в запросе:
and, or, скобочные выражения: Northern Light, AltaVista Advanced, HotBot, Excite, MSN Search, Рамблер (также &), Апорт (также +, &, И, и), Яндекс (в специфической форме: & (and) и | (or))
not: Northern Light, HotBot, Excite, MSN Search, Google (знак «-»), Рамблер (также !), Апорт (также НЕ), Яндекс (в специфической форме: ~)
and not: AltaVista Advanced, Excite
AND, OR (только прописными): AltaVista Simple, Excite
Только OR: Google
OR в виде скобочной записи (термин! термин2): AHTheWeb
Контекстные операторы (близость, расстояние)
Phrase: Northern Light, AltaVista, Google, HotBot, Excite, MSN Search, Lycos, AllTheWeb, WiseNut, Teoma, Рамблер, Апорт, Яндекс
NEAR: AltaVista, Рамблер (по умолчанию и в расширенной форме)
Расстояние в словах: Апорт, Яндекс
Расстояние в предложениях: Яндекс
Морфологическая нормализация:
Автоматическая нормализация: Апорт, Яндекс, Рамблер
Автоматическая нормализация множественного числа: Northern Light
Усечение: AltaVista, Northern Light, HotBot, MSN Search, NBCi, iWon, Апорт, Рамблер
Автоматическое усечение: Yahoo!
Автоматическое усечение до основы слова: HotBot, MSN Search
Чувствительность к регистру:
Всегда: AltaVista (если термины в кавычках)
Частично (с точностью до прописных): HotBot, MSN Search
Сортировка с учетом регистра: Northern Light
Нет: Google, AllTheWeb, Excite, Lycos, WiseNut, Teoma и др.
Поиск по полям36:
title: AltaVista, Northern Light, AllTheWeb, HotBot, Lycos, MSN Search, Апорт, Яндекс, Рамблер
intitle: Google
allintitle: Google
url: AltaVista, Northern Light, Fast Advanced Search, Lycos Advanced, Апорт, Яндекс, Рамблер
inurl: Google
allinurl: Google
link: AltaVista, Google, Fast Advanced Search, Lycos Advanced, MSN Search, Апорт, Яндекс
host: AltaVista
domain: HotBot, MSN Search
site: Google
anchor: AltaVista, Fast Advanced Search, Апорт, Яндекс
image: AltaVista
related: Google
другие: AltaVista, Northern Light, HotBot, MSN Search
Ограничение области поиска:
По дате: AltaVista Advanced, Northern Light* HotBot, MSN Search, Апорт, Яндекс, Рамблер
По языку: AltaVista, Northern Light, AllTheWeb, Excite, Google, HotBot, MSN Search, Lycos, WiseNut, Яндекс, Рамблер
По теме: Northern Light
По типу документов: Northern Light
По отрасли: Northern Light
По домену: Northern Light, AllTheWeb Advanced Search, HotBot, Excite, MSN Search, Lycos
По типу данных внутри документа: HotBot, MSN Search
По глубине внутри сайта: HotBot
Индексирование с использованием стоп-слов:
Применяется: AltaVista Simple, HotBot, Excite, MSN Search, Lycos, Апорт.
He применяется (в инвертированный файл включаются все слова): Northern Light, AltaVista Advanced, AllTheWeb, Lycos.
Применяется с сохранением возможности поиска по стоп-словам: Google, Teoma, WiseNut
Ранжирование результатов поиска:
По релевантности: Все
По дате: Northern Light, Яндекс, Рамблер
По сайту: Excite, Google, Рамблер
Здесь приведен обзор лишь основных элементов языков запросов современных вербальных ИПС. Дополнительно во многих системах существуют различные другие возможности, например, режим установки
так называемого семейного фильтра, при котором из результатов поиска исключаются документы неприличного содержания, и многое другое.
3.8. Метапоисковые системы
Каждая поисковая система имеет только свое собственное, ограниченное ее ресурсами, множество документов, которые доступны для поиска. Ни одна из подобных систем не сможет охватить всех ресурсов Интернета, поэтому в любой момент может возникнуть ситуация, когда информационные потребности пользователя не смогут быть удовлетворены. Как правило, в этом случае пользователь пытается воспользоваться другой поисковой системой, третьей, четвертой и т. д.
Для решения данной проблемы и расширения возможностей поиска, были созданы системы, называемые метапоисковыми (metasearch engines)37. Они не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы других поисковых систем. За счет этого вероятность нахождения нужной информации возрастает.
При проектировании метапоисковой системы необходимо решить ряд проблем.
Во-первых, к каким ИПС будет переадресовываться запрос пользователя? Этот список может быть фиксирован жестко или же право выбора нужных систем из списка может быть предоставлено пользователю. Такой подход позволяет уменьшить используемые вычислительные ресурсы метапоискового сервера, не перегружая его слишком большим объемом ненужной информации. В любой системе метапоиска наиболее узким местом в основном является пропускная способность канала передачи данных, так как обработка страниц с результатами поиска, полученными от нескольких десятков поисковых серверов не является слишком трудоемкой операцией, потому что затраты времени на обработку информации на порядки меньше времени прихода страниц, запрошенных у разных поисковых серверов. Как примеры систем, имеющих подобную организацию, можно назвать Internet Sleuth, Profusion, Ixquick, SawySearch, MetaPing38. Также проектируются ИПС с возможностью автоматического выбора тех поисковых систем, в которых следует проводить поиск.
В некоторых метапоисковых системах существует возможность выбора категории интересующей информации с последующим выбором поисковых систем по заданной категории. Иными словами, система помогает отыскать лучшие по профилю поисковые системы. Этот режим позволяет избежать неудачных попыток обращения к тем системам, которые не располагают полезными сведениями.
Следует упомянуть, что существуют особо «дружелюбные» пользователю метапоисковые системы, которые сами предлагают поисковый HTML-код, который можно скопировать и вставить на свою веб-страницу для выполнения метапоиска прямо с нее.
Во-вторых, в каком виде будут предоставляться результаты поиска? Здесь различают два основных типа систем: с интегрированными результатами поиска и с объединенными результатами. В первом случае пользователь получает единую сводную выдачу (иногда, с возможностью сортировки по тому или иному критерию — так, система MetaCrawler упорядочивает результаты поиска или по релевантности, или по сайтам, или по системам, от которых получены результаты). Подобно MetaCrawler, Profusion, метапоисковая система Канзасского университета, позволяет вести поиск через несколько крупных поисковых систем (из которых можно выбрать только интересующие пользователя), результаты поиска также объединяются, устраняются повторы и подсчитывается коэффициент релевантности. Дополнительная возможность данного сайта - персонализованная служба поиска, в которой можно зарегистрировать свои регулярно повторяющиеся запросы с тем, чтобы Profusion периодически производила по ним поиск и сообщала, если будут получены новые результаты.
В 2001 г. обратила на себя внимание система Vivissimo, которая классифицирует документы, найденные одной из девяти поисковых систем (среди них Alta Vista, Google, Fast, Lycos, каталог Open Directory и новостные сайты Altavista News и CNN). Найденные результаты (можно задать ограничение объема выдачи в 100,200 или 300 документов) раскладываются по каталогам (папкам), которые видны на левой панели окна броузера. В правой части показываются адреса найденных документов. Раскрыв нужную папку, мы увидим новые папки или отдельные документы. Выбранный документ будет показан в правой части экрана.
Второй тип систем выдает результаты отдельно по каждой системе, с помощью которой они были получены (например, All4One, SuperSearch).
Далее, существует проблема унификации критериев вычисления релевантности. Как правило, критерии смыслового соответствия и способы вычисления релевантности отличаются в разных системах. В большинстве метапоисковых систем анализ полученных описаний документов не производится, что может поставить нерелевантные документы, идущие первыми в одной поисковой системе, выше релевантных в другой, что существенно понизит качество самого поиска.
Еще одна проблема — возможности языков запросов метапоисковых систем. Обычно они предельно упрощены. Но в этом случае возможности промежуточных систем с развитыми языками запросов будут использоваться плохо. С другой стороны, усложнение языка запросов метапоисковых систем не позволит адекватно транслировать запрос в разные системы.
При всей привлекательности пользования метапоисковыми системами следует помнить и об их недостатках. Отсутствие единого для всех поисковых систем стандарта языка запросов не позволяет несовершенным пока еще метапоисковым системам добиваться от поисковых систем, включенных в их список, такого же результата, какого может добиться опытный пользователь при работе с каждой системой по отдельности. Иными словами, пользователь, который работает, например, с ИПС Google, теоретически может получить документы из всего объема базы данных этой системы, пользователь же, который работает с метасистемой, передающей запросы в Google, не располагает всеми возможностями доступа к документам Google, и чем проще язык метасистемы, тем ниже возможности получить максимальный объем информации. «К сожалению, для предметного и тонкого поиска метасистемы пока еще плохо применимы. Проблема заключается в том, что язык запросов меташлюза располагает лишь самыми общими для большинства ИПС и поэтому крайне скромными возможностями. Появление проекта стандарта поисковых систем SESP в этом отношении откроет новые перспективы в развитии метасистем, поскольку стандартизация ИПС существенно расширит возможности шлюзования»39.
Чаще всего, работая с несколькими ИПС, метапоисковые системы оказываются неспособными правильно обработать полученные результаты. Общий или разделенный массив документов может содержать одни и те же источники, одни и те же ссылки; на первое место могут выдвинуться отнюдь не релевантные документы, нужные же вполне рискуют оказаться отодвинутыми на задний план и остаться не прочтенными пользователем. Правда, эти недостатки встречаются и у обычных вербальных ИПС.