Общая характеристика работы

Вид материалаЗакон
4.2.4 Метапоисковые системы
4.2.5 Система поиска в конференциях Usenet News
4.2.6 Скрытый Веб
5.Практическая часть 5.1 Сложные запросы в Яндекс
Пушкин&& биография
Поиск текста в заголовке страниц (title
Поиск ограничивается группой страниц
Подобный материал:
1   2   3   4   5   6   7   8   9

4.2.4 Метапоисковые системы


Количество документов увеличивается быстрее, чем поисковые системы успевают их проиндексировать. Велика вероятность того, что нужный пользователю документ не попал в один поисковик, но проиндексирован другой поисковой системой. Поэтому существуют приложения, позволяющие передавать запрос пользователя сразу в несколько поисковых систем, — так называемые метапоисковые системы. Метапоисковые системы являются разновидностью поисковых инструментов, не имеющих собственных поисковых роботов и индексных файлов и основанных на рассылке и обработке запросов сразу в несколько поисковых систем и на суммировании результатов.

Метапоисковая система имеет те же преимущества перед поисковой системой, что и поиск в нескольких справочниках перед поиском в одном. Однако это не означает, что метапоиском следует пользоваться во всех случаях. Если документов по теме много, то метапоиск не нужен и, возможно, даже вреден, поскольку смешивает разные логики ранжирования. Часто метапоисковые средства не в состоянии корректно обработать запрос для различных поисковых систем и правильно совместить результаты, полученные разными системами. Но если документов по теме мало, то метапоиск может быть полезен именно благодаря тому, что объединяет большое число поисковиков.

Наиболее популярная в мире система мета-поиска Search.com.

4.2.5 Система поиска в конференциях Usenet News


USENET NEWS – это система телеконференций сообщества сетей Интернет. На Западе этот сервис принято называть новостями. Близким аналогом телеконференций являются и так называемые "эхи" в сети FIDO.

С точки зрения абонента телеконференции, USENET представляют из себя доску объявлений, в которой есть разделы, где можно найти статьи на любую тему - от политики до садоводства. Эта доска объявлений доступна через компьютер, подобно электронной почте. Не отходя от компьютера, можно читать или помещать статьи в ту или иную конференцию, найти полезный совет или вступать в дискуссии. Естественно, статьи занимают место на компьютерах, поэтому не хранятся вечно, а периодически уничтожаются, освобождая место для новых. Во всем мире лучшим сервисом для поиска информации в конференциях Usenet является сервер Google Groups (Google Inc.).

4.2.6 Скрытый Веб


В 1994 web-ресурсы, недоступные поисковым системам, получили название deep Web или «скрытый Web».Другое название этих ресурсов – invisible («невидимый») Web. Какие это web-ресурсы?
  • Динамически генерируемые страницы
  • Информация из баз данных
  • Файлы нераспознаваемых форматов
  • Системы интерактивного взаимодействия с пользователем
  • Платные сайты, защищенные паролем


Одними из самых больших известных ресурсов «скрытого» Web’a являются базы данных служб Dialog и LexisNexis. Крупнейший каталог скрытых ресурсов – www.completeplanet.com. Он содержит более 100 тыс. ссылок.Другие известные каталоги –www.bighub.com, www.invisible-web.net


5.Практическая часть

5.1 Сложные запросы в Яндекс


Для более точного и быстрого поиска нужной информации целесообразно использовать сложные запросы.

1.Итак, оператор неранжирующее «И» << очень похож на оператор определения слов в одном документе &&, с той лишь разницей, что слово, которое находится справа, влияет на возможность документов попасть в результаты поиска, но не влияет на ранжирование.

Например, запрос

Пушкин&& биография

найдет документы, где указанные слова будут расположены в пределах одного документа. При этом одно из первых мест в результатах займет, например, документ, в котором будет словосочетание «биография Пушкина». А на запрос

Пушкин<< биография

будут найдены документы, где будут присутствовать оба слова, но слово «биография» не будет влиять на ранжирование и первые места в списке результатов поиска займут документы со словом «Пушкин».

2. Поиск текста в заголовке страниц (title):$title (запрос)

На запрос

Маяковский<< $title (биография)

будут найдены документы со словом «биография» в заголовке и словом «Максвелл» в тексте.

Причем слово «Маяковский» будет определяющим.

3. Поиск ограничивается группой страниц, с заданным адресом. url=«www.url.ru/cat/*»

Пример:

«город Афины» << url=«www.photo.ru*»

Будет найдены все упоминания о городе Афины на сайте photo.ru

4.Позволяет ограничить поиск определенным типом файла: HTML, PDF, DOC, PPT, XLS, RTF, SWF. mime=«тип_файла»

На запрос:

(инструкция &&телевизор) << (mime=«pdf» |mime=«rtf»)


будет найдены документы PDF и RTF, в теле которых присутствуют слова «инструкция» и «телевизор».

5.Можно отобрать для поиска документы, написанные на определенном языке:

русском (ru),украинском (uk),белорусском (be),английском (en),французском (fr), немецком (de). lang=«язык»

Пример:

DAAD << lang=«de»

6.Поиск производится только по страницам, дата которых удовлетворяет заданному условию date=«ГГГГ{*|ММ{*|ДД}}»

Пример:

date=«200310*»

По запросу будет производиться поиск документов, датированных октябрем 2003 года.