Алексеева Ирина Валентиновна Беляева Ирина Петровна Полупанова Валерия Александровна Основы библиотечно-информационного дела учебно-практическое пособие

Вид материала

Содержание

VI. Информационные ресурсы сети Интернет. Поисковые системы: глобальные и российские.
1. Классификационные поисковые системы.
Yahoo! (.com), LookSmart
2. Словарные (автоматические) поисковые системы.
Глобальные поисковые системы.
Alta Vista
Alta Vista
Аltа Vista
Аltа Vista
Аlta Vista
Аlta Vista
Northern Light
Northern Light
Northern Light
Northern Light
HotBot относится к числу самых лучших. Ссылка на документ содержит указание процента соответствия страницы запросу. HotBot
Advanced Search
Yandex, Апорт
Апорт (.ru
Расширенного поиска
...
Полное содержание

Подобный материал:

1 ... 4 5 6 7 8 9 10 11 12

VI. Информационные ресурсы сети Интернет. Поисковые системы: глобальные и российские.

Интернет (Internet) – это глобальная компьютерная сеть, а точнее – объединение различных сетей, взаимосвязанных по специальным правилам обмена электронной информацией или протоколам TSP/IP (Transmission Control Protocol / Internet Protocol). Обмен осуществляется по схеме «клиент-сервер». На компьютере пользователя работает программа–клиент, которая обращается за услугой к обслуживающему его компьютеру–серверу, используя собственный язык – протокол. Пользователь же общается с клиентом на обычном, человеческом языке (английском, русском и т.д.).

Прообраз сети Интернет был создан в конце 1960-х гг. по заказу Министерства обороны США. В то время существовало не очень много мощных компьютеров, и для проведения научных исследований возникла потребность обеспечить доступ многочисленных ученых к этим компьютерам. Днем рождения Интернета можно назвать 2 января 1969 г. В этот день Управление перспективными исследованиями, являющееся одним из подразделений Министерства обороны США, начало работу над проектом связи компьютеров оборонных организаций. В результате исследований была создана сети ARPANET, в основе функционирования которой лежали принципы, на которых позже был построен Интернет.

В России бурный рост числа пользователей Интернета начался примерно в 1996 г. Сегодня это наш повседневный инструмент. Сеть непрерывно развивается, к ней подключается большее количество пользователей, появляются новые серверы, а прежние на глазах становятся «толще», провайдеры бесплатно предлагают мегабайты дискового пространство для персональных страниц своих клиентов. Причем такой рост характеризуется положительной обратной связью – с увеличением интересных и полезных ресурсов Сети становится целесообразнее к ней подключаться. И чем шире становится аудитория Интернет, тем больше пользователей и компаний хотят там работать. Стало понятно, что своевременное получение информации способно приносить авторитет, деньги и стабильное положение ее потребителям. Поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска.

Про Интернет наиболее широко известны два утверждения: первое – что там есть «почти все», второе – что что-либо конкретное из этого всего найти «почти невозможно». Проблема эта непроста, поскольку ни один из существующих способов поиска информации не исчерпывает ее полностью. Недаром специалисты сравнивают эту Сеть с библиотекой без картотеки. Правда, существует немало различных поисковых средств и систем, которые, в принципе, позволяют найти какую-то часть необходимого материала, не обладая особыми навыками работы. Один из возможных вариантов – это поиск по известному адресу. Так бывает, когда вы знаете, что на таком-то сервере находится такая-то информация. Однако это довольно редкий случай. Гораздо чаще приходится просто наудачу проходить от адреса к адресу, от сервера к серверу. Это отнимает много времени.

Интернет в гипертекстовом варианте представляет собой гигантскую систему перекрестных ссылок. Это приводит к некоторым довольно интересным последствиям, которые подстерегают в особенности малоопытных путешественников по сети. Стартуя и имея перед собой какую-то более или менее конкретную цель, «порхая» по Wold Wide Web – серверам, об этой цели можно забыть через несколько минут, а иногда не вспомнить даже по окончании работы.

Большинство пользователей, пришедших в Интернет за последние годы, отождествляют его со Всемирной Паутиной WWW. Однако, сегодня информация в Интернете оказывается доступной из источников разного типа.

Вот только краткий перечень информационных ресурсов Сети:

1. Электронная почта и почтовые роботы.

2. Глобальная система телеконференций Usenet, региональные и специализированные телеконференции.

3. Списки рассылки.

4. Он-лайновые средства коммуникации пользователей (chat, ICQ, форумы и другие).

5. Системы поиска людей и организаций.

6. Базы данных Hytelnet.

7. Система файловых архивов FTP, системы поиска в FTP-архивах глобального и регионального охвата.

8. Базы данных Gopher.

9. Гипертекстовая информационная система World Wide Web (WWW).

10. Баннерные системы (в среде WWW).

11. Активные информационные каналы (в среде WWW).

12. Каталоги ресурсов – глобальные, локальные, специализированные (в среде WWW).

13. Поисковые машины, или автоматические индексы - глобальные, локальные, специализированные (в среде WWW).

На правильно сформулированный запрос в Интернете практически всегда можно получить ответ. Однако при этом нельзя забывать, что вы задаете вопрос не человеку, а машине, которая анализирует информацию в зависимости от заложенных в нее алгоритмов.

Программы, обрабатывающие запросы, - это информационно-поисковые системы (ИПС). Существует 2 типа ИПС: словарные и классификационные.

1. Классификационные поисковые системы.

Это, по сути, электронные аналоги библиотечных каталогов. Обычно они представляют собой иерархические гипертекстовые меню с пунктами и подпунктами, определяющими тематику сайтов, адреса которых содержатся в данном каталоге, с постепенным, от уровня к уровню, уточнением темы.

Главное отличие классификационных ИПС в том, что представленные в них данные формируются (комплектуются и рассортировываются) людьми, осуществляющими поддержку данного поискового сервера. Как правило, каталоги ресурсов составляются на основе экспертных оценок. В ряде случаев владельцам web-страниц представляется возможность зарегистрировать свой адрес на поисковом сайте, т.е. сообщить о себе операторам поддержки каталога. В дальнейшем эта информация анализируется.

Основным преимуществом такого средства навигации является четкое соответствие содержимого сайтов объявленной для того или иного раздела тематики (в отдельных случаях – с дополнительной сортировкой адресов в пределах рубрики по результатам экспертной оценки или по рейтингам посещаемости).

Недостатком же классификационных ИПС является сравнительно небольшой охват существующих ресурсов сети, поскольку отследить весь объем имеющейся в Интернете информации практически нереально даже для значительного коллектива персонала поддержки сервера. Поэтому я могу порекомендовать вам обращаться к каталогам ресурсов в случаях, когда необходимо быстро отыскать «типичную» информацию по требуемой теме (без необходимости отслеживать какие-либо ее нюансы).

Примеры классификационных ИПС в Интернете: Yahoo! (ссылка скрыта), LookSmart (ссылка скрыта), Galaxy (ссылка скрыта) (рис. 16); среди российских разработок в этой области внимания заслуживают, Иван Сусанин (ссылка скрыта) (рис. 17), Weblist (ссылка скрыта) (рис. 18), Улитка (ссылка скрыта), Russia on the Net (ссылка скрыта) (рис. 19), Желтые страницы Internet (ссылка скрыта), Ау! (ссылка скрыта), List.Ru (ссылка скрыта) (рис. 20), Весь русский Internet (ссылка скрыта) (рис. 21) и др.

На классификационных ИПС кроме названия рубрик обычно имеется строка ПОИСК, позволяющая ввести ключевое слово. Тогда машина, обработав все иерархическое дерево, выдаст в ответ ссылки на соответствующие этому ключевому слову web-страницы.

Рис. 16

Рис. 17

Рис. 18

Рис. 19

Рис. 20

Рис. 21

2. Словарные (автоматические) поисковые системы.

В отличие от рассматриваемых выше, основой словарной (автоматической) ИПС является размещенная на поисковом сервере БД, содержащая в себе адреса сайтов, перечень соответствующих размещенным на них web-страницам ключевых слов, копий HTML-текстов этих страниц (в ряде ИПС), а также систему управления БД, действующую по технологии «клиент-сервер».

Посетителю такого поискового сервера предоставляется форма для ввода ключевого слова (слов) или фразы. После щелчка мышью на расположенной рядом с полем кнопке ПОИСК введенная пользователем ключевая фраза пересылается на сервер, обрабатывается, из имеющейся БД извлекаются адреса, соответствующие запросу, и список этих адресов (сгенерированный в виде HTML-документа, строки которого являются гипертекстовыми ссылками на сайты) пересылаются пользователю в качестве результата поиска.

Из всех типов ресурсов Сети подробно рассмотрим глобальные и российские словарные поисковые системы, правила составления запросов.

Всего известно более 200 поисковых серверов. Они различаются по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), языку, по объему индексной базы, скорости обновления информации, способности искать «нестандартную» информацию, дружественности интерфейса, методам сортировки найденных документов (ранжирование, чаще по релевантности и частоте обновления), точности поиска, лингвистике (слова синонимы).

Глобальные поисковые системы.

Поисковые системы глобального масштаба распространены в большем количестве, нежели электронные справочники и число их, составляющее ныне несколько десятков, продолжает неуклонно увеличиваться. Работа с ними требует некоторых, порой весьма серьезных, предварительных навыков. Простой ввод искомого термина в строку запроса может привести к получению списка из сотен тысяч документов, что практически равносильно нулевому результату.

Все глобальные поисковые машины осуществляют поиск материалов на русском языке, но не поддерживают русскую морфологию. Этот факт необходимо учитывать при поиске информации.

Google (ссылка скрыта) (рис. 22)

Самая популярная среди пользователей и имеющая одну из самых больших баз проиндексированных документов поисковая система. Была разработана в 1998 выпускниками Стэндфордского университета Сергеем Брином (Sergey Brin) и Ларри Пейджем (Larry Page), которые применили для ранжирования документов технологию PageRank, где одним из ключевых моментов является определение "авторитетности" конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ и чем они авторитетнее, тем более авторитетным данный документ становится. Количественное значение авторитетности документа (другими словами, взвешенное количество ссылок или PageRank) относится к так называемым статическим факторам (т.е. независящим от конкретного запроса) и учитывается при определении релевантности документа конкретному запросу как весовой коэффициент. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Google стал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска. Кроме поиска по HTML документам Google в настоящее время осуществляет поиск еще по 12 типам документов:

Adobe Portable Document Format (pdf)
Adobe PostScript (ps)
Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku)
Lotus WordPro (lwp)
MacWrite (mw)
Microsoft Excel (xls)
Microsoft PowerPoint (ppt)
Microsoft Word (doc)
Microsoft Works (wks, wps, wdb)
Microsoft Write (wri)
Rich Text Format (rtf)
Text (ans, txt)

Рис. 22

Google позволяет пользователям просматривать сохраненные копии документов, содержащихся в его поисковой базе.

Наряду с поиском по документам Google имеет сервисы поиска по изображениям (ссылка скрыта), группам UseNet (ссылка скрыта), новостям (ссылка скрыта - бета-версия), а также каталог сайтов (ссылка скрыта) на основе каталога Open Directory Project (ссылка скрыта). Google осуществляет поиск по документам на более чем 35 языках, в том числе русском (русская локализация поисковика находится по адресу ссылка скрыта). В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google, что делает задачу успешного позиционирования сайтов в Google еще более важной. Крупнейшие из них - каталог Yahoo (ссылка скрыта) и портал AOL (ссылка скрыта).

Google проводит переиндексацию своей поисковой базы примерно раз в четыре недели. Во время этого апдейта, неофициально называемого Google dance, происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего апдейта, и перерасчет значений PageRank документов. Также существует определенное количество документов с достаточно большим значением PageRank, информация о которых в поисковой базе обновляется ежедневно, однако значение PageRank пересчитывается только во время Google dance. Нормированное значение PageRank для конкретного документа, загруженного в броузер, можно узнать, скачав и установив Google ToolBar - специальную панель инструментов для работы с этим поисковиком. Несмотря на то, что в поисковике имеется форма для бесплатного добавления страницы в базу, Google предпочитает сам находить новые документы по ссылкам с уже известных и не будет индексировать добавленную через форму страницу, если в его базе не найдется ни одной страницы, ссылающейся на нее.

Alta Vista (ссылка скрыта) (рис. 23)

Принадлежит к числу популярнейших поисковых средств Интернет. Ее мощнейший аппаратный потенциал позволяет проводить поиск по любому слову из текста Web- страницы или статьи в телеконференции.

Используемый в Alta Vista механизм составления запросов относится к самым обширным и мощным. Он позволяет составить поисковое предписание практически любой степени сложности. Как и многие другие машины, Alta Vista обладает двумя поисковыми интерфейсами: простого -Simple, Search Assistant, и углубленного - Advanced поиска. Язык простого запроса включает несколько основных элементов. Знак "+" ставится перед термином, который обязательно должен быть в документе; знак "-" - перед термином, который ни в коем случае не должен быть в документе; знак "*", позволяет усекать термин справа, что очень важно для поиска слов в разных падежах, склонениях и числах. Крайне полезны кавычки, в которые можно брать устойчивое словосочетание. Следует иметь в виду, что знаки выставляются непосредственно перед искомым термином или словосочетанием без пробела.

Рис. 23

Помимо этого поисковый механизм чувствителен к употреблению заглавных и строчных букв. При использовании заглавных букв будут искаться только термины, начинающиеся или состоящие из заглавных букв, при вводе строчных символов, система выявит все существующие слова. Имеется также возможность ограничивать поиск отдельными фрагментами Web-страницы: заглавием (title), электронным адресом (url), доменом (domain). Так, запрос [title:виртуальн*] выявит Web-страницы, в заглавии которых присутствует слово с указанным корнем, независимо от грамматических форм.

Составление запроса при углубленном поиске принципиально отличается от "простого" и выполняется с использованием булевых операторов: AND (И), OR (ИЛИ), NОТ (НЕ), NЕАР (ВБЛИЗИ) и скобок. Эта форма запроса также позволяет ограничить поиск по дате последнего обновления документов. В данном случае запрос по теме "собрания СD-RОМ в массовых библиотеках" предполагает следующий вариант поискового предписания: [(public near librar*) and (СD-RОМ near collection*)].

Помимо текста в Аltа Vista также реализована функция поиска иллюстративных материалов, видео- и аудиофайлов (фотографий, графических и живописных работ, музыкальных записей и видеоклипов). Для этого необходимо перейти в режим поиска мультимедийных источников, щелкнув мышью по опции Images, Audio & Video. В поисковой строке вводятся ключевые слова, а в нижнем меню "фишкой" отмечается желаемый тип источника. Так, например, для поиска иллюстрации Московского Кремля в поисковую строку достаточно ввести слово Kremlin.

Система ранжирования результатов поиска Аltа Vista является одной из самых лучших. В "простом" поиске эта функция выполняется автоматически, в "углубленном" пользователь в первую строку формы запроса должен ввести термины, которым придается наибольший вес.

Аlta Vista предоставляет пользователям большую степень комфорта. Допускается ввод поискового предписания в виде обычной английской фразы (например "What is the weather in Moscow?"). При выводе результатов предлагается воспользоваться системой компьютерного перевода полученного документа с основных европейских языков (к сожалению, русский пока не в их числе). При переводе содержания страницы сохраняется ее оригинальное форматирование.

Аlta Vista имеет несколько зеркальных сайтов в разных концах света. Одним из достоинств "зеркал", является возможность выбора основного интерфейса на родном языке региона. В том числе можно выбрать и русскоязычный интерфейс на североевропейском "зеркале" (ista.telia.com). Там же, при желании, можно вести поиск материалов только на определенном языке, выбрав его из специального меню.

Northern Light

(ссылка скрыта или ссылка скрыта) (рис. 24)

Появившись в числе лидеров сетевого поиска лишь в 1998 году, она быстро набрала популярность прежде всего за счет большого объема своей базы данных.

Рис. 24

Northern Light имеет интерфейсы для "простого" и углубленного (Рower) поиска, а также Business Search, Investext Search, Search News. Язык составления запросов практически полностью соответствует языку Аlta Vista. Разница лишь в возможности применять булевые операторы (в данном случае только AND, ОR и NОТ) наряду со знаками "+", "-" и кавычками в любой форме запроса. Форма углубленного поиска отличается тем, что позволяет легко ограничивать разыскание документа отдельными элементами Web-страницы (название или адрес), датами ее создания или последнего обновления, видом информации (например, журналы или персональные страницы), организационной или географической принадлежностью сервера (коммерческие, образовательные, правительственные и т. д.), языком публикации, а также определенной отраслью знания. Все это легко делается с помощью системы меню, в которой можно отметить желаемые ограничения.

Отличительной чертой Northern Light является его коллекция публикаций, включающая полные тексты статей из многочисленных электронных периодических изданий. В ней система осуществляет поиск по умолчанию, выдавая ссылки в общем перечне результатов (справа от ссылки в этом случае указывается не "www", а "special collection"). Однако для обращения к полным текстам статей необходимо предварительно оформить подписку на эту услугу.

Northern Light работает очень быстро, имеет эффективную подсистему ранжирования результатов. Каждая добытая ссылка содержит указание на процентное соответствие данного документа запросу. Система также автоматически формирует специальные папки, которые выводятся на первой странице списка результатов в правой части экрана. В папках найденные документы рассортированы в зависимости от типа материалов, организационной и географической принадлежности серверов и т. д.

HotBot (ссылка скрыта) (рис. 25)

К ряду самых мощных поисковых средств в Wold Wide Web относится HotBot. Он имеет принципиально иную идеологию составления поискового предписания, освобождающую пользователя от знания специальных правил составления запроса.

Углубленный поиск – Аdvanced Search, вызываемый нажатием одноименной клавиши на главной панели системы, дает поразительно широкие возможности для детализации поискового предписания. Это достигается за счет многоступенчатых меню, предлагающих пользователю последовательно уточнить свой запрос. Так, введя в главную поисковую строку термины, нужно выбрать команду, которая укажет системе искать ли документы, содержащие любое из введенных слов, обязательно все слова, точную фразу, персону, название страницы, ссылку на URL или же поисковое предписание, выполненное с использованием булевых операторов. Для большей детализации запроса возможно применение условий: SHOULD CONTAIN - "может содержать", MUST CONTAIN - "должен обязательно содержать", MUST NOT CONTAIN - "не должен содержать" по отношению к каким-либо дополнительным понятиям. Можно также ограничить и язык разыскиваемых документов. Их перечень пока включает девять наиболее распространенных европейских языков.

Рис. 25

Далее HotBot предоставляет возможность ограничить поиск по дате создания или последнего обновления документа, а также по географическому местоположению сервера. Примечательной возможностью является и поиск документов, содержащих в своей структуре определенные типы файлов, например иллюстрации, анимацию, аудио или видео. Для этого надо лишь сделать отметку в специальном пункте меню запроса.

Интеллектуальная система ранжирования результатов HotBot относится к числу самых лучших. Ссылка на документ содержит указание процента соответствия страницы запросу. HotBot умеет "сливать" в одну ссылку один и тот же документ, расположенный на различных зеркальных серверах. Функция "this site only" выделяет документы с одного сервера, что позволяет сразу выявить серверы более других насыщенные информацией на определенную тему.

Одним из недостатков HotBot является невозможность усечения окончаний ключевых терминов, однако недавно добавилась возможность расширять поиск за счет производных слов, в том числе и неправильных английских глаголов (например, на слово "think" будет найдено "thought" и т.д.).

Fast Search (ссылка скрыта) (рис. 26)

Данная поисковая система относится к числу открытий 1999 года. К настоящему времени ее индекс уже превышает 250 миллионов документов и рост числа проиндексированных страниц продолжается в столь же высоком темпе. Таким образом, Fast Search в настоящее время является безусловным лидером по числу проиндексированных документов Сети. Система принадлежит норвежской компании. Этим определяется та особенность, что в перечне полученных результатов американские сайты не занимают ярко выраженного доминирующего положения. Поскольку поисковый робот изначально "стартовал" с европейских сайтов, приоритет имеют именно документы с серверов Старого Света.

Рис. 26

Поисковый механизм предельно упрощен. Через Advanced Search можно ограничить поиск: ALL OF THE WORDS (ВСЕ СЛОВА), ANY OF THE WORDS (ЛЮБОЕ И3 СЛОВ), ТНЕ ЕХАСТ РНRАSЕ (ТОЧНАЯ ФРАЗА). Выбор любого пункта указывает системе критерий поиска. В первом случае будут найдены документы, в которых содержатся все введенные слова, во втором - любой из искомых терминов, в третьем - введенная фраза. Поисковый механизм не допускает усечения терминов.

Использование в качестве аппаратного обеспечения последних разработок корпорации Dе11: Dе11 РоwеrЕdge 4300 и Dе11 РоwеrVаult обеспечивает очень высокую скорость работы системы - запрос в большинстве случаев выполняется за доли секунд. Индексный файл Fast Search пока в наименьшей степени засорен сведениями об устаревших документах.

Глобальные поисковые системы старшего поколения постепенно уступают лидирующие позиции более "молодым" конкурентам, использующим принципиально иные технологии. Так, известные несколько лет назад InfoSeek, Ехсite и Lycos уже давно не предлагали своим клиентам ничего принципиально нового. Их нынешний объем составляет соответственно 75, 55 и 50 миллионов документов, что заставляет все больше рассматривать их в качестве факультативного инструмента поиска.

Отличия в стратегии и широте охвата материала различных систем часто приводят к тому, что разные поисковые средства дают разноречивые ответы на один и тот же запрос. Этим не замедлили воспользоваться разработчики поисковых орудий особого рода, основанных исключительно на использовании потенциала других поисковых систем. К таковым, в частности, относятся Суbеr 411 (ссылка скрыта), МеtаСrаwler (ссылка скрыта), и некоторые другие.

Их главное достоинство заключается в умении рассылать вводимые в них запросы по другим системам, а затем суммировать результаты. Таким образом, пользователь, вводя поисковое предписание, например в Суbеr 411, фактически одновременно обращается к десятку поисковых систем. Этим гарантируется "объективность" полученных результатов. Однако, учитывая уже упоминавшиеся различия в подходах к обработке терминов разными системами, результат может оказаться не всегда релевантным запросу.

Российские поисковые системы.

Как уже говорилось, поисковые системы глобального масштаба свое основное внимание концентрируют, прежде всего, на североамериканских ресурсах. Задачу выявления информации на серверах в пределах отдельных стран выполняют локальные машины, специально адаптированные к особенностям конкретных языков. Подобные поисковые средства существуют и в России.

Все отечественные разработки объединяет несколько общих черт, ставящих их вне конкуренции при работе с русскоязычными источниками. Прежде всего, все они способны корректно обрабатывать материалы во всех кириллических кодировках. Исторически сложилось, что на русскоязычных серверах все источники представлены (продублированы) по крайней мере, в трех различных кодировках: Windows (СР1251), Кoi-8r (UNIX) и DOS.

Помимо корректной обработки кодировок, все российские машины сегодня уже способны выделять один и тот же документ в различных кодировках или на различных серверах и выдавать ссылку на него лишь один раз, перечисляя конкретные адреса в списке URL. Это имеет первостепенное значение, поскольку пользователь сразу же получает представление о реальном числе документов, а не об их "зеркальных" вариантах, количество которых в два-три раза выше.

Все российские системы обладают мощным встроенным морфологическим аппаратом, дающим возможность значительно расширять поиск за счет многообразных, в том числе и неправильных, словоформ русского языка ("окно" - "окон" и т. п.).

К лидирующей группе российских поисковых средств в настоящее время относятся Yandex, Апорт, Rambler, на серверах этих поисковых машин можно проводить поиск и по каталогам.

Yandex (ссылка скрыта) (рис. 27)

Поисковая машина последнего поколения, являющаяся к настоящему времени самой объемной: количество обследованных серверов превышает 300.000 серверов, а число учтенных оригинальных документов свыше 40 миллионов. Помимо серверов доменов "ru" и "su", Yandex индексирует содержание зарубежных русскоязычных Web-узлов, а также серверов СНГ.

Yandex, безусловно, располагает самой мощной и сложной системой составления запросов: пользователю предлагается несколько вариантов поиска, в которых легко запутаться. Более чем какие-либо другие системы, Yandex приспособлен для задания запросов на естественном русском языке. В этом случае запрос формируется путем простого ввода терминов или целой фразы в поисковую строку. Поисковый механизм сам производит расширения (падежи, числа, склонения), исключает "стоп-слова", анализирует расстояние терминов друг от друга и пр. В списке результатов ссылки снабжаются сведениями о том, есть ли в документе совпадение фразы или же все введенные термины.

Рис. 27

Желающие составить поисковое предписание максимально точно могут прибегнуть к языку запросов (в этом случае, у отметки "строгий поиск" ставится "галочка"). Этот вариант дает возможность в самой полной мере реализовать могучий лингвистический потенциал, являющийся отличительной чертой Yandex. Мощная лингвистика позволяет учесть практически все возможные оттенки употребления ключевых слов и составить запрос максимально точно. Допустимо, к примеру, задать употребление термина только в определенном падеже, указать, на каком расстоянии от другого слова или словосочетания он должен находиться в тексте и какие термины этот текст содержать не должен. Это, однако, требует освоения весьма сложного синтаксиса формирования "специальных" поисковых предписаний, которые включают чуть ли не все специальные символы компьютерной клавиатуры. Среди используемых знаков: ~,&, !, /, :, <>, (), |, $.

Yandex обладает также "Расширенным поиском" (ссылка над строкой запроса), представляющим собой детальную систему меню, с помощью которой можно составить сложный запрос без знания специального синтаксиса. Возможно, в частности, обеспечить сочетание нескольких фраз, исключить документы, содержащие указанные слова, конкретизировать местоположение термина в документе (заголовок, аннотация, ссылка...), применить ограничение по дате публикации, нахождению его на конкретном сайте, языку публикации. Также обеспечивается выявление иллюстраций указанной тематики, специальных объектов (скриптов и апплетов) и страниц, содержащих ссылки на определенный сервер.

Безусловным достоинством Yandex является оригинально сконструированный механизм выдачи результатов. Щелчок мышью по названию выявленной страницы приводит к ее загрузке в "фирменном исполнении" Yandex. В этом случае оригинальный вид документа дооснащается специальными стрелками, которые выделяют искомые термины и позволяют быстро двигаться от одного их вхождения к другому, что очень экономит время при определении степени соответствия смысла документа запросу. При обращении же к адресу, система отправляет пользователя непосредственно к оригиналу страницы. Среди сервисных функций Yandex есть также возможность искать страницы, схожие содержанием с конкретным документом.

Апорт (ссылка скрыта) (рис. 28)

В настоящее время эта поисковая система переживает период серьезного обновления. Одно из достоинств Апорт состоит в широких возможностях составления запроса. Помимо традиционных операторов "И" и "ИЛИ", поиска по целой фразе (двойные кавычки), система обладает способностью вычленять сочетания терминов только в случае, если они расположены в тексте рядом друг с другом. Насколько "рядом" каждый раз определяется пользователем. Так запрос "{3, налоговые льготы}" выявит все документы, в которых указанные слова (и их производные) встречаются в пределах трех соседствующих предложений, а запрос "[4, цветной металл]" отыщет только те страницы, где между искомыми словами стоит не больше двух других слов. За счет этого пользователь застрахован от большой доли информационного шума, возникающего при случайном сочетании ключевых слов.

Рис. 28

В форме Расширенного поиска, которая вызывается щелканьем мышью по аналогичной надписи над поисковой строкой, Апорт предлагает также возможность автоматического перевода запроса с русского на английский язык и наоборот. В поисковую строку можно ввести термины на любом из двух языков и выбрать из меню условие: искать только на английском, на английском и русском, только на русском. В этом же случае также появляется возможность ограничения поиска элементами страниц, а также временем создания/обновления документов.

Наибольшей оригинальностью отличается форма выдачи результатов, Список найденных документов открывается сведениями о том, сколько документов и на каком количестве серверов выявлено. Перечень результатов сформирован таким образом, что в начале каждой ссылки идут сведения о сервере, на котором содержится источник. Приводится не только его название и адрес, но и аннотация из справочника @RUS или собственной регистрационной базы Апорт. Далее приводится число страниц на сервере, содержащих искомые термины, а также следуют соответствующие ссылки.

В списке результатов каждая ссылка включает название файла, дату и время его последнего обновления, адрес/адреса источника с указанием оригинальной кодировки и степень соответствия запросу. Положительным моментом, отличающим Апорт от других систем, является то, что найденные ключевые слова выводятся в окружающем контексте из любой части документа, а не только из его начала, что позволяет точнее определять соответствие страницы запросу уже на этапе просмотра ссылок. Функция "реконструкция текста" позволяет получить весь исходный документ, причем с сохранением оригинального форматирования. Это бывает полезно в случае, когда оригинал источника по каким-то причинам в данное время недоступен.

Rambler (ссылка скрыта) (рис. 29)

Первая профессиональная отечественная поисковая система. Созданная в 1996 году специально для выявления материалов на серверах в пределах бывшего СССР, она обеспечивает полнотекстовый поиск на Web-узлах России и стран ближнего зарубежья.

Система имеет дружественный интерфейс, предлагающий воспользоваться простой или детальной формами запроса (клавиша - Детальный запрос). Лучше сразу обратиться к последней, так как при использовании основного интерфейса возможности детализации запроса невелики, а лексика составления качественных поисковых предписаний требует предварительного подробного изучения.

Механизм составления детального запроса реализован через меню. Пользователю предлагается ввести один или несколько терминов и определить параметры для разыскания. К основным параметрам относятся:

· область поиска: Российский WWW или отдельные элементы страниц;

· условия поиска: выдавать ссылки на документ, в котором обязательно встречаются все термины или же любой из них;

· число выдаваемых результатов, помещаемых на одной странице;

· форма выдачи результатов: краткая, стандартная или детальная;

· употребление словоформ: искать ли все производные корня данного слова, ограничиться точно введенной формулировкой или усекать все встречающиеся окончания.

Рис. 29

Очень полезными и, кстати, практически дублирующими друг друга параметрами являются требование минимального расстояния между искомыми словами и поиск на полное соответствие запросу. Обе эти характеристики применяются при поиске по точной фразе. Помимо этого можно также уточнить поисковое предписание по языку документа, дате его последнего обновления и указать термины, появление которых в источнике должно быть исключено.

Rambler обладает хорошим механизмом вывода результатов. Даже в "нормальной" форме ссылка на найденный объект включает помимо названия, электронного адреса, кодировки, размера и времени обновления документа еще и внушительных размеров резюме, из которого можно получить представление о том, в каком контексте употреблены искомые термины (они выделены жирным шрифтом). Щелчок мышью по стрелке перед названием выявленного документа запустит поиск страниц, схожих содержанием сданной.

Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Никакие средства навигации - справочники или поисковые машины не охватывают всего текущего информационного массива Интернет. По некоторым оценкам даже такие признанные лидеры сетевого поиска как Alta Vista, Northern Light или Fast Search отражают не более 10 - 15% содержания Сети и цифра эта продолжает снижаться. Причина - колоссальный прирост объемов информации в Интернет, который, несмотря на все усилия навигационных служб, все более и более превращается в кибернетические джунгли.

Помимо быстрого роста и изменения местоположения документов, практически все поисковые системы имеют внутренние ограничения на отражение материалов одного сайта. Так, Alta Vista даже в идеале берет не более 60% информации с отдельного сервера. Роботы других поисковых механизмов не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов.

В то же время некоторые серверы имеют собственную систему поиска, которая покрывает весь их информационный массив. Выявив такие сервера с помощью справочников или поисковых систем, можно провести более детальное их обследование, использовав локальный поисковый механизм. Например, при поиске сведений о конкретном виде креветки, искусственно разводимой человеком, весьма рациональным будет найти и просмотреть сервера, посвященные в целом аквакультуре, отрасли, занимающейся выращиванием морепродуктов в искусственных теплых водоемах, а при выявлении данных о конкретном заболевании - сервера учреждений, ведущих исследования в данной области,

Таким образом, для достижения наиболее полных результатов следует применять справочники и поисковые системы в сочетании друг с другом.

Итак, при поиске в Интернете важны 2 составляющие: полнота (т.е. стремление не упустить какую-либо информацию) и точность (т.е. отсутствие в результатах поиска лишней информации).

Обычно обе эти составляющие называют общим словом релевантность, подразумевая под ним максимальное смысловое соответствие результатов поиска указанному запросу. Релевантность также можно рассматривать и как способ сортировки найденных по запросу документов: чем больше документ соответствует запросу, чем ближе к началу списка должен находиться его адрес.

Для достижения этого результата ИПС должна учитывать такие параметры, как количество найденных в тексте документа ключевых слов, «контрастность» слова (его относительную частоту встречаемости для данного документа), расстояние между словами, положение слова в документе и его подразделах и т.д.

Однако не следует забывать, что релевантность – качественная мера. Соответствие ответа ИПС интересам пользователя зависит не только от свойств данной ИПС, но и от того, насколько правильно сформулирован запрос. Современные ИПС учитывают морфологию русского языка. Они способны работать с естественно-языковыми запросами.

Также, существует ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на разыскание данных.

1. Для поиска материалов по узкой специфической тематике стоит начинать с мета-машин, дабы сразу получить представление о том, насколько богато данная проблематика представлена в Интернет.

2. Для получения более полных результатов по сложному запросу (например, там, где есть ограничения не только по содержанию документа, но и по дате обновления или местоположению документов) поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов и их последовательное использование в значительной степени расширяет охват материала.

3. При разыскании документов об отдельной стране или на конкретном языке следует отдать предпочтение национальным/региональным поисковым средствам.

4. Формировать запрос надо максимально точно, используя все возможности механизма его составления. Затраты времени на детальное составление поискового предписания окупаются при анализе результатов поиска, поскольку процент информационного шума будет намного ниже.

5. При составлении запроса на текстовый материал всегда стоит мысленно представить, каким может быть предполагаемое содержание документа. При поиске источников об А.С.Пушкине недостаточно просто ввести его фамилию. Список результатов в этом случае будет изобиловать адресами всевозможных учреждений, расположенных на улицах Пушкина в разных городах. Гораздо больший эффект принесет поиск по названиям произведений поэта. Для разысканий же конкретных текстов произведений стоит ввести строки из произведений (например, для поиска поэмы "Евгений Онегин" - "Мой дядя самых честных правил" - как фраза).