Учебно-методическое пособие Барнаул-2004 удк печатается по решению Ученого совета Барнаульского государственного педагогического университета

Вид материалаУчебно-методическое пособие

Содержание


Информационно-поисковые системы как средства поиска в глобальной сети
Виды информационно - поисковых систем
Способ применения информационно-поисковых систем для поиска информации
Характеристика поисковых WWW-серверов
InfoSeek Ultra (eek.com)
Magellan (ley.com)
Lycos (http
Яndex (http
Rambler (er.ru)
Русская машина поиска (
Апорт (.ru)
Способы построения запросов
Поисковая система Яndex
Поисковая система Rambler
Подобный материал:
1   ...   8   9   10   11   12   13   14   15   ...   22

Информационно-поисковые системы как средства поиска в глобальной сети

Необходимость использования информационно-поисковых систем в сети Интернет


С расширением сети Интернет ориентироваться в ней становится всё труднее. В ситуации, когда чуть ли не ежедневно открываются новые сер­веры, а число их огромно, возрастает необходимость в специальных инстру­ментах, позволяющих быстро находить нужные сведения в стремительном информационном потоке. Именно такими инструментами стано­вятся информационно-поисковые системы.

Информационно-поисковые системы – это специальные Web-узлы, на которых представлены обширные коллекции гиперссылок для доступа к широкому кругу ресурсов. Они действуют на некоммерческой основе и дос­тупны всем желающим.

Таким образом, сеть Интернет растёт очень быстрыми темпами, т.е. постоянно появляются новые серверы, пропадают или изменяются адреса старых, и найти нужную информацию среди сотен миллионов Web-страниц и файлов становится всё сложнее. Однако, ситуация не безрадостна. Во-первых, серьёзные организации - компании, университеты, правительственные органы - не позволяют своим серверам бесследно «пропадать», многие из них уже долгое время «живут» с одним адресом, а при изменении по старому адресу можно найти ссылки на новый. Во-вторых, дело даже не в пропадающих известных серверах, а в поиске новой информации. Если вам нужен определённый документ, а сервер исчез возникает необходимость решить данную проблему. Надо помнить, что в Интернет редко что-либо бывает в одном экземпляре. Хуже, если не знаете, где может находиться та или иная информация, или что именно нужно искать.

В Интернет можно найти много различной информации. Надо только достаточно хорошо поискать. Для каждого сервиса Интернет существуют собственные поисковые машины. В своей работе мы хотим остановиться на поисковых серверах WWW-это сегодня самый популярный сервис Интернет, и поисковые WWW-серверы понемногу охватывают почти все остальные ресурсы. Поисковые серверы содержат более или менее полную и постоянно обновляемую информацию о Web-страницах, файлах и других документах, хранящихся на десятках миллионов серверов Интернета.

Виды информационно - поисковых систем


Поисковых серверов или информационно-поисковых систем (ИПС) в сети Интернет очень много. Их можно условно разделить на несколько групп:
  • Поисковые машины (Search Engines), самостоятельно осуществляющие поиск документов по элементам содержания;
  • Мета-поисковые машины (Meta-Search Engines), проводящие поиск на нескольких поисковых машинах сразу;
  • Каталоги объектов (Object Directories), предназначенные для поиска WWW-сайтов с заданным содержанием;
  • Справочники персоналий и групп (White Pages) и компаний, организаций и учреждений (Yellow Pages) с электронными, географическими адресами и телефонами;
  • и другие.

Способ применения информационно-поисковых систем для поиска информации


Ни одна из ИПС не может идеально подойти всем. Хотя каждая из них получает быстрые результаты, некоторые отличаются более простым интерфейсом, сильным инструментарием или полнотой базы данных. Все они имеют очень хорошие системы помощи и подсказок. Гораздо важнее то, что при одних и тех же запросах в разных системах можно получить совер­шенно разные результаты. Так что если нужно зайти в самые дальние уголки сети, то нужно использовать несколько информационно-поисковых систем по очереди.

Поисковая машина - это специализированный сервер, способный по введённому запросу найти наиболее подходящие ресурсы Интернета.

Нами был проведён анализ литературы по данной теме, среди которой были рассмотрены учебники, пособия таких авторов, как С.В. Симонович, Н.Д. Угринович, Е.В. Якушина и некоторые периодические издания: «Домашний компьютер», «Информатика и образование». В этой литературе обосновывается необходимость использования ИПС, а также принципы работы с ИПС, что способствовало выделению нами следующего подхода при рассмотрении данного вопроса.

Поисковые машины позволяют находить документы во Всемирной паутине по ключевым словам. Они, фактически, являются базами данных, содержащими информацию о ресурсах Интернета.

Заполнение баз данных осуществляется с помощью специальных программ-роботов, которые периодически «обходят» Web-серверы. Программы-роботы читают все встречающиеся документы, выделяют в них ключевые слова и заносят в базу данных URL-адреса документов.

Так как информация в Интернете постоянно меняется, поисковые роботы не всегда успевают отследить все эти изменения. Информация, хранящаяся в базе данных поисковой системы, может отличаться от реального состояния Интернета, и пользователь может иногда получить адрес уже не существующего или перемещенного документа.

Для обеспечения максимального соответствия между содержанием базы данных и реальным Интернетом большинство поисковых систем разрешают автору нового или перемещенного Web-сайта самому внести информацию в базу данных, заполнив анкету.

Поиск документа в базе данных поисковой машины осуществляется с помощью запросов в поле поиска. Простой запрос содержит одно или несколько ключевых слов, которые, по мнению пользователя, являются главными для этого документа. Можно также использовать сложные запросы, использующие логические операции, шаблоны и т.д.

Через несколько секунд после отправки запроса поисковая система вернёт список документов (с указанием их URL-адресов), в которых были найдены указанные ключевые слова.

Примером поисковой системы по русскоязычной части Интернета является сервер Rambler, а по всему Интернету – сервер Yahoo.

Что касается каталогов, то это – коллекции ссылок по различным тематикам, создаваемые людьми. Они являются аналогами тематического указателя в библиотеке и могут содержать различные разделы, например: «Компьютер», «Политика», «Искусство». Интерфейс каталогов содержит список разделов, в которых сгруппированы ссылки на URL-адреса наиболее важных документов. Каждая ссылка обычно аннотирована, т.е. содержит короткий комментарий содержания документа

Исторически первым каталогом российских ресурсов сети Интернет является сервер Russia on the Net (Россия в сети).

Поисковые системы и каталоги редко встречаются в чистом виде, обычно поисковые системы содержат в себе каталог и, наоборот, каталоги представляют пользователю возможность поиска. Интерфейс таких интегрированных поисковых серверов обычно содержит список разделов каталога и поле поиска. В поле поиска пользователь может ввести ключевые слова для поиска документа, а в каталоге выбрать определённый раздел, что сужает поле поиска и убыстряет его.

Характеристика поисковых WWW-серверов


В данном разделе мы хотим привести характеристику некоторых, наиболее популярных поисковых серверов с тем, чтобы показать их многообразие, достоинства и недостатки одних серверов перед другими, кроме того, мы хотим показать, как производится поиск с помощью этих ИПС, что ещё раз подтверждает мысль о необходимости использования нескольких ИПС для полноценного поиска.

AltaVista (ссылка скрыта) открыт для массового пользования корпорацией Digital в декабре 1995г. Считается образцовой и одной из самых мощных поисковых систем. Обладает полнотекстовой базой данных, идеальной для поиска специфических тем, и выдаёт наибольшее количество ссылок.

Интерфейс AltaVista лёгок в использовании, а раскрывающиеся меню помогают определить предмет поиска. Опция Advanced Search позволяет настраивать запросы определением логических операторов, с учётом регистров символов, использованием масок и т.д. В AltaVista возможны простой и расширенный поиск на Web- страницах и в группах новостей. Расширенный логический поиск с использованием AND, OR, NOT, поиск по шаблону плюс специальный оператор Near, который даёт истинное значение, если слова находятся в тексте один от другого не далее, чем за 10 слов.

Используются префиксы «+» и «-» для подтверждения наличия или отсутствия ключевого слова во фразе. Результаты поиска сортируются по признакам наибольшего соответствия критерию поиска, датам происхожде­ния и индексирования документов.

Каждый результат поиска выдается в виде заголовка документа и краткого описания страницы, которое берется или из поля META html-документа, или из первых строк документа. Ниже указывается URL документа, дата его создания, размер в килобайтах, язык документа. Основные проблемы с AltaVista в том, что выдаётся огромное количество документов: часто просмотр предоставляемой информации приводит к большой трате времени; и нет указателя для просматриваемых тем. Просеивая результаты, полученные AltaVista, можно потратить больше времени, чем при использовании других ИПС, но для исчерпывающих поисков AltaVista просто незаменима. Кроме того, на этом сервере можно проводить поиск на русском языке.

eXcite (ссылка скрыта) появился в сентябре 1993 г. в Стэнфордском университете в США. Это быстрый и богатый информацией поисковый сервер с обзорами узлов и путеводителями. Ориентирован на поиск информации в более ограниченном круге источников, чем AltaVista. Обладает простым и универсальным интерфейсом, позволяет эффективно проводить поиск и просматривать полученные данные, обладает стандартным набором логических операторов в режиме Advanced Search. Отличается от других систем тем, что осуществляет поиск по ключевым словам и фразам. Кроме этого, Excite поддерживает логический поиск (AND,OR,NOT) и осуществляет поиск всех слов (при использовании +) или исключает слова из поиска (при использовании -).

Возможны два режима поиска – по ключевым словам и по концепции, однако как показывают испытания, результаты поиска в двух режимах не различаются. Высока степень актуальности ссылок, особенно для популярных тем.

Кроме ведения поиска в Сети, можно просмотреть более 60 тысяч документов в NET-Directory, выбрать информацию из потока новостей, использовать Personal excite,чтобы установить привычную страницу поиска при помощи закладки, поработать с системой поиска электронных адресов.

HotBot (ссылка скрыта) запущена в мае 1996г., обладает мощным, многофункциональным интерфейсом поиска, предоставляющим большой выбор для тщательного поиска с использованием удобных меню: по всем словам, по любому из слов, по фразе, по URL-адресу и т.д.. Hotbot не располагает такими традиционными приемами поиска, как использование близких по смыслу слов или шаблонов, однако, способен на настраиваемый поиск, например, по доменам (.edu or .com), гоферам или сайтам новостей, а также поиск по ключевым словам, типам файлов (напр., JAVA файлы), поиск по географической локализации. Hotbot предлагает простой и расширенный поиск, может модифицировать первично заданную поисковую программу. Наряду с AltaVista является одним из самых скоростных поисковиков в Web.

Кнопка Expert позволяет использовать булевы операторы, искать внутри какой-нибудь области, ограничивать поиск специфическими данными и т.д.. Результаты поиска выводятся в виде заголовка документа, первых строк документа, URL-адреса.

Полученные ссылки располагаются в зависимости от уровня соответствия и с коротким текстовым резюме. По богатству возможностей и удобству для пользователей она, пожалуй, опережает другие системы.

InfoSeek Ultra (ссылка скрыта)

Система InfoSeek Guide появилась в 1994г. В ноябре 1996г. интегрирована с новой версией – InfoSeek Ultra. Тогда как другие ИПС вынуждают пользоваться непривычными логическими булевыми операторами, InfoSeek предлагает понятный дружественный интерфейс, позволяя не задумываться о правильности формулировки запроса. InfoSeek предлагает лучшие подкатегории поиска, давая возможность просматривать узел Web, адреса e-mail, каталоги компаний др. Предмет гордости InfoSeek – каталоги для прочтения и удобные «горячие» ссылки. Кроме этого система обладает весьма высокой скоростью поиска, а по его качеству она - одна из лучших. Каждый результат поиска выдается в виде заголовка документа и краткой характерисики его содержания. Кроме того указывается степень релевантности, дата создания документа, его размер в килобайтах и URL-адрес.

Magellan (ley.com) - каталог и поисковый сервер с ориентацией на семейные интересы. Существует с 1995 года.

Хотя Magellan предлагает оригинальное отредактированное содержимое и архив, открытый для поиска Web-страниц, самая важная черта- каталоги просмотренных и оцененных документов. Просмотренные ссылки классифицируются с точки зрения их распространённости, лёгкости в использовании и общей «сетевой привлекательности» и оцениваются четырёхзвёздочным рейтингом. Материалы, которые считаются «безопасными» для всех категорий пользователей, отмечаются зелёным кружком. Magellan хорош для лёгкого тематического просмотра, ровно как и для поисков во всём Internet, которые можно проводить только по проверенным узлам или по всей неклассифицированной базе данных. Поиск по ключевым словам особыми заслугами не отличается, а малая база данных означает, что поиск специфических тем даёт плохие результаты.

Имеются французская и немецкая версии.

Недостатки этого сервера – медлительность и ограниченные возможности построения расширенных запросов.

Lycos (ссылка скрыта) обладает стандартным и удобным интерфейсом с ниспадающим меню. . Предлагает логический поиск, шаблонный и поиск по близким по смыслу словам. Lycos высвечивает ключевые слова в результате поиска, что позволяет пользователю быстро анализировать содержание сайта. Инструментальные средства Lycos ограничены в возможностях, она мало пригодна для улучшения качества запросов, не предусмотрена работа с естественным языком или с комбинацией ключевых слов и фраз. Зато Lycos обладает неплохими дополнительными возможностями типа поиска персоналий и компаний или работы с автодорожными картами (только американскими). Позже там был запущен новый сервис Point (ссылка скрыта). Там нет сложных поисковых форм и запросов. В конце страницы с результатами поиска есть возможность переадресовать запрос на поисковую систему Hot Bot.

OpenText (ссылка скрыта) разработана одноимённой канадской компанией и располагается в Торонто. OpenText предлагает четыре различных типа поиска. Простой поиск - это базовый поиск по ключевым словам и фразам. Расширенный поиск осуществляется в гибком интерфейсе, допускающем логический поиск и поиск по близким по смыслу словам. Информация от Newsgroup может быть получена с помощью специального режима поиска - Newsgroup Search. Имеются системы поиска на нескольких языках - японском, испанском и португальском. В режиме Power Search OpenText может использовать до 5 ключевых слов, выбранных из сводки, названия, заголовка, URL-адреса и т.д. и соединенных различными логическими операторами, которые выбираются из ниспадающего меню, что значительно облегчает поиск. Опция Search Tips может показать на примерах, как сформулировать запрос. Система очень удобна для пользователей, но обладает не самой большой базой, охватывающей только WWW, и ограничена в построении запросов.

WebCrawler (ссылка скрыта) одна из первых универсальных поисковых машин для WWW, разработанная как курсовой проект в 1994г. в университете Сиэтла. В дальнейшем её перекупил один из крупнейших американских провайдеров – America-On-Line. Лёгкий в использовании интерфейс, удобный для перемещения ссылок в популярные узлы, способный оперировать с большинством булевых операторов и имеющий базу подсказок, чтобы показать, как они работают. Хороший каталог просматриваемых адресов. Однако поиск проводится по той части WWW, которая отслеживается в базах самой America-On-Line, да и качество поиска уступает мощнейшим системам. Подобно excite, Magellan, WebCrawler позволяет совершать путешествия к просмотренным и ранжированным документам в своём списке Select, размещённым в таких категориях, как Life&Culture, Education, Daily News.

Yahoo! (ссылка скрыта) система поддерживается одноимённой компанией, являющейся большей частью собственностью холдинга Softbank. Yahoo перешла на поисковую технологию AltaVista, и теперь обладает одной из крупнейших баз данных. Введены дополнительные информационные базы для детей и подростков, а также персонализированная поисковая система My Yahoo! База данных Yahoo! пополняется вручную отобранными ссылками на web-сайты. Каждая ссылка состоит из заголовка html-документа и краткой аннотации. Сохраняет лидерство среди других каталогов сети Интернет и по посещаемости, и по информационной насыщенности. Поиск в каталоге Yahoo! Можно осуществлять как по разделам, рубриками и подрубрикам, так и с помощью ключевых слов.

Позволяет использовать булевы операторы, но не имеет поддержки для сложных запросов. Также эта ИПС не принимает запросы на естественном языке. Позволяет искать адреса электронной почты. Когда Yahoo! Не может найти данные в своей базе данных, она уступает полнотекстовой базе AltaVista. Результаты поисков Yahoo! не ранжируются, а расписываются по названиям категорий. Это делает просмотр мгновенным, но мешает общему поиску. Тем не менее простой интерфейс и обширная индексная система Yahoo! создали ей репутацию ИПС, дающей результаты высокого качества. Кроме того, она обладает обширным тематическим каталогом и хорошо отсортированным каталогом WWW-ресурсов.

Яndex (ссылка скрыта) – это полнотекстовая ИПС с учётом морфологии русского языка. Официальное открытие поисковой системы Яndex состоялось 23 сентября 1997 года. Словарный сервер Яndex выполняет индексацию (предварительную обработку текста с составлением некоторого индекса, по которому затем проходит поиск) и поиск, причём оба процесса могут происходить одновременно. Работая, как поисковая система Web, он постоянно индексирует русскоязычные HTML-документы в кодировках Windows и KOI-8, которые распознаются автоматически. Периодически индексация прекращается, и происходит обновление поискового индекса, устаревшая информация удаляется. По запросу клиента происходит поиск документа по индексу. На странице простого поиска имеется строка для ввода ключевых слов, а также дополнительные опции, позволяющие уже на начальном этапе уточнить область поиска с помощью селекторных кнопок. Ниспадающее меню справа позволяет производить поиск как во всем российском Интернете, так и в его регионах и государствах ближнего зарубежья.

Результаты поиска представлены в виде заголовка документа, первого предложения из текста, URL-адреса документа и его размера в килобайтах. По умолчанию результаты поиска выводятся в сгруппированном по сайтам виде и в порядке убывания степени релевантности. Ссылки «по дате» и «по страницам» позволяют перегруппировать результаты поиска. Найденные документы могут иметь пометки «совпадение фразы», «строгое соответствие» или «нестрогое соответствие» (по мере убывания релевантности).

Weblist (ссылка скрыта) – очень хороший каталог русскоязычных ресурсов Интернет. В нём появляется до 20 новых ссылок в неделю, все они проверяются персоналом на корректность и работоспособность, после чего заносятся в базу. Для каждого ресурса есть краткое описание, из которого можно выяснить содержание сервера, поддерживаемые языки и кодировки. Поисковая система позволяет искать по словам, встречающимся в названиях серверов, в описаниях серверов, по городам, где они находятся и т.п., а результаты сортировать. Однако скорость доступа к этому серверу невысока.

Rambler (er.ru) была создана специально для выявления материалов на серверах в пределах бывшего СССР и начала работать с ноября 1996 года. Система Rambler, поддерживающая все кодировки кириллицы, обеспечивает полнотекстовый поиск с более чем 15000 сайтов.

Система имеет дружественный интерфейс, позволяющий легко составить поисковое предписание. Пользователям предлагается простая или углубленная форма запроса. При этом поиск осуществляется в одном и том же информационном массиве, однако при простом запросе результат ограничен максимум 30 ссылками.

Одним из главных достоинств Rambler является близкий к образцовому вывод результатов поиска, превосходящий многие зарубежные аналоги. Даже в нормальной форме (а есть ещё детальная) ссылка на найденный объект включает помимо названия, электронного адреса, кодировки, размера и времени обновления документа и ещё внушительных размеров резюме о том, в каком контексте употреблены искомые термины (они выделены жирным шрифтом). Вначале списка представлены ссылки на источники, в максимальной степени соответствующие запросу.

Эта система работает достаточно быстро и надёжно. Однако она не всегда своевременно убирает ссылки на Web-страницы, снятые с серверов по каким-либо причинам.

Кроме того, в состав Rambler входят следующие компоненты:
  • Информационный и развлекательный подпроект «Кулички на Рэмблере» – масса полезного и интересного материала. Над сайтом трудятся около 100 человек, сервер содержит более 20000 страниц.
  • Бизнес раздел: курсы валют, оперативные экономические новости, котировки акций и пр. Информация в разделе обновляется несколько раз в день.

В целом Rambler является единственной профессиональной системой и безусловным лидером среди отечественных поисковых средств, закономерно оставаясь одним из самых посещаемых узлов российского Интернета.

Русская машина поиска (ссылка скрыта) является зарубежной разработкой, ориентированной исключительно на русскоязычные ресурсы по всему Интернет. В её арсенале сведения о выборочных страницах более чем с 1500 русскоязычных узлов. Её преимуществом является широкий арсенал средств формирования запроса, среди которых основные булевы операторы AND и OR, поиск по отдельной фразе и ограничение поиска определёнными элементами Web-страниц – название, ключевые слова, автор и т.п. Помимо этого, меню запроса «Машины» предлагает пользователю самому устанавливать или отменять чувствительность к написанию заглавных и строчных букв, а также указывать количество возможных ошибок в искомом слове, если нет уверенности в его написании. Последнее качество весьма полезно при многовариантности запроса типа «компьютер, или компьютеры, или компьютера» поскольку усекать термины «Машина» принципиально не позволяет.

«Русская машина поиска» обладает довольно непривычной формой выдачи результатов. Перед пользователем предстают нагромождения из английских и русских слов и символов. На самом деле один длинный URL разбит на несколько составных частей, «title» назван «Description», а каждое вхождение искомого термина обозначено отдельной строкой. Единственная положительная сторона такой детализации – можно сразу увидеть , в какой части Web-страницы содержится искомый термин, а иногда даже, и в каком контексте употреблён. Впрочем, такой вывод результатов может быть отменён через меню, в этом случае информация сократится до электронного адреса найденного объекта. Недостатком данной системы является то, что она не ранжирует результаты поиска.

Апорт (ссылка скрыта)

Главная отличительная черта этой системы – забота об удобстве потребителя. Ей обследуется небольшое количество российских серверов, однако уровень предлагаемого сервиса заставляет отнести это поисковое средство к числу чрезвычайно перспективных.

«Апорт» понимает все кириллические кодировки и предоставляет самые широкие возможности составления запроса. Помимо традиционных операторов «И» и «ИЛИ», усечения окончаний и поиска по целой фразе, система обладает способностью вычленять сочетания терминов только в том случае, если они расположены в тексте рядом друг с другом. Это расположение определяется пользователем. Одним из существенных преимуществ Апорта является англо-русский и русско-английский on-line перевод запросов и поисков результата, автоматическая проверка орфогра­фических ошибок запроса, более информативный вывод результатов поиска для найденных сайтов (не только первое предложение!), возможность поиска в любой грамматической форме (что особенно важно для русского языка), поддержка пяти основных кодовых страниц (разных операционных систем) для русского языка.

Результаты поиска ранжированы в зависимости от частоты употребления на странице искомых терминов (документы с наибольшей частототой – впереди). При этом ключевое слово выводится в окружающем контексте, что позволяет сразу определить, насколько найденная ссылка соответствует запросу. Кроме этого, представлены сведения о времени обновления, раз­мере и оригинальной кодировке файла, а также электронный адрес.

К сожалению, при выводе результатов «Апорт» выдаёт ссылки на один и тот же документ во всех имеющихся кодировках, считая их разными, и исходя из этого, подсчитывает результат поиска. Это серьёзный недостаток, поскольку пользователи получают искажённые сведения. К тому же «Апорт» работает не всегда стабильно. Временами система становится просто недоступной. Возможно, это объясняется ограниченным числом одновременно обрабатываемых запросов. К дополнительным возможностям поиска относятся ссылки «Поискать в», которые переадресовывают запрос к наиболее известным зарубежным поисковым системам.

Tela-поиск отражает более 100 тысяч страниц в полнотекстовом режиме с более, чем 400 серверов России и ближнего зарубежья.

Меню системы предлагает поиск с использованием условия «все слова» или «любое слово». По первому варианту выдаются ссылки на документы, обязательно содержащие все введённые термины, А во втором – документы, содержащие любое из искомых понятий. Термины можно усекать. Помимо этого, Tela, хорошо знакомая с морфологией русского языка, допускает поиск различных словоформ, в том числе и неправильных. Результаты выводятся в зависимости от степени соответствия запросу, впереди ссылки на самые информативные источники. Сами ссылки включают, помимо традиционного названия страницы, её адреса и резюме, данные о степени соответствия запросу, размере документа и дате его создания или последнего обновления.

Russia on the Net (ссылка скрыта) появился одним из первых в России (был создан в сентябре 1995г.). Имеет простой и запоминающийся адрес. Очень часто на него попадают иностранцы в поисках любой информации о России. По некоторым данным входит в десятку мировых каталогов, наиболее популярных среди россиян, и в пятёрку российских.

@RUS основана в 1996г. Есть поддержка английского языка. Основным элементом @Rus является каталог - всеобъемлющая база данных, содержащая аннотации с гиперссылками. Каталог состоит из более 30000 сайтов, которые разделены в 4 лиги:
  • Элитная лига - наиболее популярные и известные сайты крупных корпораций и правительственных организаций.
  • Высшая лига - наиболее информативные и полезные сайты.
  • Профессиональная лига - корпоративные и профессиональные сайты.
  • Любительская лига - частные и непрофессионально выполненные сайты.

Google (ссылка скрыта)

Google автоматически вставляет между ключевыми словами оператор «AND», поэтому в списке найденных документов присутствуют только те, которые содержат все заданные слова. В начале списка находятся документы, в которых ключевые слова расположены рядом.

Поддерживается поиск по фразе (фраза заключается в кавычки). Google ищет документы с точными соответствиями заданных слов, не поддерживает поиск по части ключевого слова.

Google не делает различия между строчными и прописными буквами.

Чтобы исключить документы, содержащие какое-то слово, нужно в запросе поставить перед этим словом знак «-» (без пробела). Возможна постановка знака также и перед фразой.

Google не поддерживает логический оператор «OR». Нельзя задать поиск документов, в которых содержалось бы или первое, или второе слово. Вместо этого предлагается сделать несколько запросов, варьируя ключевые слова.

Помимо кавычек Google учитывает следующие знаки препинания, служащие для связи слов: дефисы (mother-in-law), косые черты, знаки равенства, апострофы (Bill's birthday). При поиске слова, связанные этими знаками, воспринимаются как фраза.

SawySearch (ссылка скрыта) является метапоисковой машиной. Необходимо ввести запрос и настроить поиск, например, сколько найденных страниц должен выдавать каждый из серверов и в каком виде представлять результаты. Также можно выбрать нужный язык.

Получив запрос, Sawysearch отправляет его на 3 сервера, имеющих информацию того типа, который был задан программе, а потом собирает все результаты на одной странице.

Внизу страницы находится панель инструментов, позволяющая быстро и удобно отправлять тот же запрос разным наборам поисковых серверов.

Недостатком является то, что работа SawySearch часто замедляется из-за загруженности сети. Другой недостаток – число ссылок от каждого сервера ограничено (не более 50).

All-in-One (ссылка скрыта) - обширное собрание поисковых и справочных инструментов. Хорошее средство поиска. Недостатки: большая длина страницы, затрудняющая работу с ней; невозможность обрабатывать несколько запросов одновременно.

Eye on the Web (ссылка скрыта) - каталог Web. Его достоинствами являются возможность настройки на пользователя, привлекательная графика, недостатками – плохое отражение небольших узлов.

MetaCrawler (ссылка скрыта) посылает запрос одновременно на 9 поисковых машин: на Open Text, Lycos, WebCrawler, InfoSeek, Excite, Inktomi, Alta Vista, Yahoo, and Galaxy. Обычно поиск в MetaCrawler по одному или нескольким ключевым словам. Очень быстрый ответ на запрос можно получить в режиме скоростного поиска. Детальный поиск займет больше времени, а также даст большее количество результатов. В режиме расширенного поиска можно использовать слова AND и NOT.

Способы построения запросов


Запросы бывают простыми и сложными. Простой запрос представляет собой одно или два слова, которые, по мнению отправителя, являются главными для искомого документа. При необходимости найти фразу, её нужно заключить в кавычки.

Составление сложного запроса предусматривает использование логических операций, шаблонов и т.д.

Рассмотрим способы построения сложных запросов для поисковых систем Яndex и Rambler, т.к. они являются самыми популярными среди российских поисковых систем.

Поисковая система Яndex

Поиск происходит с учетом морфологии русского языка, например: «идет»= идет, идут, идти, шел, шла и т.д. Если необходимо осуществить поиск по точной словоформе, то перед ним ставится знак «!» (без пробела). Различаются слова, набранные строчными и прописными буквами. По умолчанию ищутся документы, содержащие хотя бы одно слово запроса. «+» делает наличие ключевого слова в документе обязательным. «-» перед словом исключает документы, которые его содержат. Поддерживается поиск по фразе. Фраза заключается в кавычки. Яндекс поддерживает собственную систему обозначений булевых операторов:

Синтаксис

Что означает оператор

Пример запроса

Пробел или &

логическое И (в пределах предложения)

лечебная физкультура

&&

логическое И
(в пределах документа)

рецепты && (плавленый сыр)

|

логическое ИЛИ

фото | фотография | снимок | фотоизображение

( )

группирование слов

(технология | изготовление) (сыра | творога)

~

бинарный оператор И НЕ (в пределах предложения)

банки ~ закон

~~

бинарный оператор И НЕ (в пределах документа)

путеводитель по Парижу ~~ (агентство | тур)

/(n m)

расстояние в словах
(-назад +вперед)

поставщики /2 кофе; музыкаль­ное /(-2 4) образование;
вакансии ~ /+1 студентов

&&/(n m)

расстояние в предложениях
(-назад +вперед)

банк && /1 налоги

На странице простого поиска имеется строка для ввода ключевых слов, а также дополнительные опции, позволяющие уже на начальном этапе уточнить область поиска с помощью селекторных кнопок. Ниспадающее меню справа позволяет производить поиск как во всем российском Интернете, так и в его регионах и государствах ближнего зарубежья.

Поисковая система Rambler

Поддерживается поиск с использованием булевых операторов And («и»), Or («или»). Вместо них (или в сочетании с ними) могут использоваться также символы '&', '|'.

Части запроса могут быть сгруппированы с помощью круглых скобок ( ). Например: (философия and культурология) or семиотика.

Рамблер умеет искать слова во всех формах (например, аминокислота, аминокислоты, аминокислотой и т. д.). Чтобы слово находилось во всех формах, перед ним надо поставить служебный символ '#'.

По умолчанию Рамблер ищет слова запроса так, как они введены, чтобы уменьшить «шум» в найденных документах. '@' перед словом позволяет находить не только само это слово, но и однокоренные слова. Пример: #аминокислота and @цинк.

Поддерживаются символы « (для обозначения произвольной части слова) и « (для обозначения любого символа слова). Например: к?мпания= кампания или компания.

Очень часто в результате поиска может быть выдано большое количество документов, которое достаточно сложно просмотреть, или наоборот, может быть не найдено ни одного документа. В этих случаях запрос следует уточнить. При большом количестве документов можно использовать логические операции, которые могут уменьшить их количество.

Если документы не были найдены, то возможно, в написании слов были допущены ошибки, неверно составлена фраза (в этом случае нужно убрать кавычки и повторить поиск) и т.п. В любом случае запрос следует переформулировать и повторить поиск. Это и называется уточнением запроса.

Чаще всего с первого раза трудно найти нужные документы, поэтому уточнение запросов применяется довольно часто и является обычным делом для поиска информации.