Пропедевтический курс для интернет-консультантов Под редакцией А. В. Мартынихина

Вид материалаДокументы
Поисковые машины словарного типа
Словарная информационно-поисковая система AltaVista www.altavista.com
Простой поиск
Закладках (Bookmarks)
Language Settings
Multi-Lingual Search
Сложный поиск
Таблица 1. Логические операторы режима сложного поиска системы AltaVista
Классификационный поиск
Подобный материал:
1   2   3   4   5   6   7   8

Поисковые машины словарного типа


Поисковые машины словарного, или индексного, типа (indexing engines) обеспечивают доступ к миллионам документов в Сети. Они автоматически «прочесывают» WWW-серверы, собирая все возможные источники. Их основное достоинство – широта и всесторонность, а основной недостаток заключается в том, что они никак не организовывают найденные документы («больше не всегда значит лучше»).

Наиболее известной ИПС словарного типа является AltaVista.

Словарная информационно-поисковая система AltaVista

www.altavista.com


Система открыта в декабре 1995 г. Первоначально она задумывалась как демонстрация мощи 64-разрядного сервера Alpha APX корпорации Digital Equipment, однако быстро приобрела самостоятельное значение как эффективное и мощное средство поиска. По последним данным, на сегодняшний день в индексе Altavista зарегистрировано более 110 миллионов URL. Система поражает своим быстродействием - в сутки она обслуживает более 20 миллионов запросов, при этом она отвечает на запросы незамедлительно, без всякого "притормаживания". Благодаря таким характеристикам система используется не только конечными пользователями, но и другими службами поиска, в частности, каталогом Yahoo. Система обновления индекса - краулер - посещает WWW сервера во всем мире, не испытывая проблем с языковым многообразием, поскольку Altavista поддерживает поиск на 25 языках. Странички, обновляемые редко, посещаются краулером реже чем популярные и часто обновляющиеся страницы. К сожалению, автоматически из индекса никогда не удаляются "мертвые" ссылки, поэтому по некоторым запросам количество недействующих ссылок может быть довольно велико (до 12 %). На год издания настоящего пособия поисковая система принадлежит фирме CMGI.

Информационно-поисковая система AltaVista предназначена главным образом для поиска по ключевым словам или фразам. Точнее, все слова, содержащиеся в документах сети Интернет, являются для нее ключевыми. AltaVista как бы составляет словарь из всех слов, содержащихся во всех доступных ей документах сети Интернет; этот словарь она использует при поступлении запроса.

Характерной особенностью AltaVista является наличие двух разных режимов поиска: простого (Simple search) и сложного (Advanced search). Внешний вид полей поиска в разных режимах различен; для каждого из режимов предусмотрен свой язык составления запросов и различные обозначения логических операторов.

Простой поиск


Простой поиск осуществляется путем задания в поисковом окошке ключевых слов или фраз, сформулированных на естественном (любом) языке. Можно ввести и вопрос, но он должен быть сформулирован только по-английски. Пример вопроса приведен на базовой странице AltaVista: “Where can I find job listings for Florida?”.

Одним из существенных для российского пользователя факторов оценки поисковых систем является поддержка ими русских ресурсов. В этом смысле Altavista является лидером среди всех зарубежных систем - уже давно происходит активное индексирование документов на русском языке. Кроме того, относительно недавно стал доступен поиск в Altavista с учетом русской морфологии через интерфейс на сервере www.comptek.ru/alta.phpl, действующий на основе поискового механизма Яndex.

Для поиска информации на языке, отличном от английского, необходимо явным образом указать кодовую таблицу, в которой будет осуществляться поиск. Это делается через раздел Language Settings, вход в который расположен справа от строки для ввода контекста для поиска. При поиске на русском языке пользователь должен, зайдя в раздел Language Settings, зафиксировать кодовую таблицу: Windows-1251, KOI8-R или ISO-8859-5, выставив зависимый переключатель (радио-кнопку) напротив ее названия, и затем - в нижней части страницы – передать свой выбор поисковой системе, нажав на кнопку Set Settings. В результате в адресную строку броузера будет вписана информация о кодовой таблице для передачи поисковой машине.

Для удобства полезно страницу поисковой машины Altavista с выбранной кодовой таблицей запомнить в Закладках (Bookmarks) вашего броузера с тем, чтобы в дальнейшем сократить время на подготовительные операции для работы с системой при поиске на русском языке.

К важной подготовительной операции относится также согласование кодовой таблицы, указанной в разделе Language Settings, и таблицы, в которой броузер показывает получаемые страницы (Меню Вид/Кодировка). Несогласованность этих параметров приводит к ошибочным результатам! Точнее сказать, автомат Altavista в точности в соответствии в Вашим указанием при настройке на одну кодовую таблицу выполнит поиск по контексту, заданному с использованием другой таблицы, и результаты такого поиска, скорее всего окажутся для Вас неинтересными.

Существует также возможность уточнения поиска по языку – фильтр Multi-Lingual Search. Для этого в поле Search the WEB for documents in… в строке поиска следует выбрать нужный язык. То же, но с возможностью указания фильтра по нескольким языкам доступно через страницу Language Settings – можно независимыми переключателями (галочки в квадратных окошках) зафиксировать свой выбор – НЕ ПУТАТЬ с выбором кодовой таблицы, устанавливаемом на этой же странице. В ответ на запрос с установленным фильтром по языкам Вы получите перечень документов только на избранных языках. Но следует учесть, что многие авторы документов Сети вообще не помечают язык документа и AltaVista вынуждена сама распознавать язык документа. Это приводит к потерям информации: так, если запросить у AltaVista только документы на русском языке, около 70% таких документов могут оказаться не найденными. Поэтому возможностью фильтрации находимых документов по языку следует пользоваться осторожно.

Ключевые слова при вводе разделяются пробелом. В системе AltaVista пробелы между словами интерпретируются как логические операторы "И" (AND). При вводе фразы, которая не должна быть разделена на составные части, ee заключают в кавычки. Устойчивые словосочетания (типа Myocardial infarction или Rheumatoid arthritis) в кавычки можно не заключать.

Если слова запроса вводятся маленькими (строчными) буквами, то будут найдены документы, содержащие как исходное написание, так и слова с прописной буквы. Если слова вводятся прописными буквами, то результаты поиска будут содержать только документы, где есть прописные. То есть, если Вы напишете paris, то в результаты поиска будут включены слова Paris, paris, PARIS, но написав Paris, в результатах поиска Вы получите только одно написание - Paris.

В простом поиске используются дополнительные операторы:

    (+) – то же, что AND (в результат будут обязательно включены документы, содержащие данный термин). Внимание! Знак + (плюс) нужно ставить перед ключевым словом всегда, если Вы хотите, чтобы это слово присутствовало в каждом документе, предложенном системой в ответ на ваш запрос.
  • (-) – то же, что NOT. В результат не будут включены документы, содержащие данный термин. Знак – (минус) нужно ставить перед ключевым словом, если Вы хотите, чтобы все документы, содержащие это слово, были исключены из ответа на ваш запрос.

Знаки “плюс” и “минус” вплотную (без пробела) примыкают к следующим за ними терминам и отделяются пробелом от терминов, им предшествующих.

(*) заменяет любые символы в конце слова. Нет необходимости использовать все грамматические формы ключевого слова, например, все падежные окончания единственного или множественного числа существительного. Достаточно указать, например, термин +гастрит* – и поисковая система обнаружит все документы, содержащие это слово в любой грамматической форме. При этом следует помнить три вещи. Во-первых, звездочка заменяет не более 5 символов. Во-вторых, начальная часть слова, предшествующая звездочке, должна содержать не менее 3 символов. В-третьих, звездочка должна вплотную (без пробела) примыкать к слову: написание + гастрит * - неправильно.

П р и м е р. ЗАПРОС: Пороки сердца (не врожденные).

ПОИСКОВЫЕ ПРЕДПИСАНИЯ ДЛЯ AltaVista :

+‘heart defect*’ –congenital (+‘порок* сердца’ –врожденн*)

Сложный поиск


Сильные стороны поисковой системы Altavista проявляются, когда пользователю необходимо осуществить сложный поиск с указанием многих критериев отбора или поиск редких терминов, например, если Вы ищете документы, принадлежащие к определенному временному интервалу, или если ключевые слова связаны сложными логическими отношениями, которые невозможно выразить на языке запроса простого поиска. Для таких случаев Altavista предоставляет наиболее мощные и изощренные средства поиска среди всех рассматриваемых систем, среди которых такие уникальные средства как поиск документов на конкретном языке, поиск по названию страницы, поиск среди гиперссылок (можно узнать, например, есть ли в WWW ссылки на вашу страницу и если есть, то где), поиск объектов Java/ActiveX, поиск в "якорях" и т.д. Кроме того, Altavista обеспечивает набор более стандартных, но очень ценных критериев отбора, таких как логические операции над ключевыми словами, поиск с учетом вариантов написания слов, поиск целых фраз, поиск документов только на определенных серверах (или доменах), ограничения по дате создания документа, и т.д. Многие из этих возможностей доступны, как отмечено выше, с основной страницы Altavista, но для задания большой группы условий нужно перейти на страницу расширенного поиска, где пользователю предоставляется большое поле для ввода условий.

Чтобы составить запрос для осуществления сложного поиска, необходимо выполнить следующие действия:
  • Ввести ключевые слова, связанные логическими операторами, в окно Boolean query (о логических операторах сложного поиска см. таблицу 1).
  • Ввести ключевые слова, связанные логическими операторами, в строку сортировки Sort By.
  • В полях From – To указать хронологические рамки поиска.

Таблица 1. Логические операторы режима сложного поиска системы AltaVista

Оператор

Синонимы

Действие

AND

&

Поиск документов, содержащих ВСЕ ключевые слова.

П р и м е р: aspirin AND pneumonia. Будут найдены документы, содержащие оба ключевых слова.

OR

символ "пробела"

Поиск документов, содержащих ЛЮБОЕ ИЗ ключевых слов. П р и м е р: гастрит OR дуоденит. Будут найдены документы, содержащие либо слово «гастрит», либо слово «дуоденит», либо оба этих слова вместе.

NEAR

~

Поиск документов, в которых ключевые слова расположены не далее чем в 10 словах друг от друга.

AND NOT

!

Поиск документов, НЕ содержащих КАКОГО-ЛИБО из указанных в запросе слов. П р и м е р: neoplasm AND NOT cancer. Будут найдены документы, содержащие слово neoplasm, но не содержащие слова cancer.

AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при расширенном поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, аплет т.е. объект Java/ActiveX, название образа, заголовок и ряд других полей.

Классификационный поиск


Если Вы работаете в системе AltaVista для поиска документов, относящихся к какой-либо области знаний, можно воспользоваться тематическим рубрикатором, расположенным в центре стартовой страницы под заголовком AltaVista Directory: The Web's Largest. Появление рубрикатора в словарной поисковой системе да еще с таким претензиозным названием является отражением осознания разработчиками необходимости предоставить пользователям возможность использовать преимущества словарных и классификационных поисковых систем в процессе поиска информации в Сети. Работа с рубрикатором в Altavista по большому счету не отличается от поиска информации в Yahoo: нужно перемещаться от категории к категории, постепенно сужая запрос. Чисто внешним отличием является отсутствие указания на количество ссылок в категориях. Принципиальным отличием является иной, чем в Yahoo, подход к формированию системы категорий и их наполнению: система категорий является расширяемой, а к подготовке материалов для наполнения привлекаются более 20000 добровольцев и профессионалов.

Дополнительно к результатам словарного поиска Altavista всегда предлагает результаты поиска, упорядоченные по своему рубрикатору (в нижней части окна результатов) под заголовком Search the largest Directory on the Web for…

Какой бы способ работы с системой Вы ни избрали, следует самым внимательным образом изучать текущую страницу, чтобы получить максимум информации, избежать недоразумений, сократить время, затрачиваемое на поиск информации, и самое главное – получить как можно более полный и точный ответ на свой запрос.