Поиск информации в сети Internet
Вид материала | Документы |
- План. Введение. Защита информации в глобальной сети. Проблема защиты информации, 759.07kb.
- Мифы и реальности Internet известные и скрытые возможности сети Что такое Internet, 306.75kb.
- 4 Интернет. Основные термины и понятия. Знакомство с программой Internet Explorer., 71.65kb.
- Что такое Internet? Ресурсы Internet*, 347.7kb.
- Перечень учебных курсов с краткими аннотациями, 170.84kb.
- Литература. 15, 298.73kb.
- Прикладные программы. 9 Доменная система имён. 9 Структура доменной системы. 9 Поиск, 559.29kb.
- Прикладные программы. 9 Доменная система имён. 9 Структура доменной системы. 9 Поиск, 556.38kb.
- «Эффективность использования электронных библиотек и поиск информации в сети Интернет, 206.96kb.
- «Всё об internet», 705.11kb.
7. Отечественные поисковые службы
Российский сектор Internet в настоящее время бурно развивается, и хотя отечественные поисковые системы еще отстают от соответствующих зарубежных систем по объему своих каталогов и индексов, по некоторым показателям (прежде всего, по применению новых технологий при обработке результатов поиска) они не уступают своим заграничным аналогам, а в ряде случаев и превосходят их.
Автоматический индекс Aport (ссылка скрыта) использует эффективную систему рейтингования по количеству ссылок, ведущих к данному ресурсу (по индексу цитирования), а также предоставляет клиенту удобный каталог-портал, из которого пользователь может получить наиболее нужную ему информацию.
Начальной страницей Каталога является заглавная страница поисковой системы Апорт. На ней размещены ссылки на разделы Каталога с гиперссылками на популярные рубрики и алфавитный указатель рубрик. Начальная страница ориентирует пользователя в темах Каталога и предоставляет ему возможность выбора направления поиска.
7.1. Rambler (ссылка скрыта)
Поисковая система Rambler обладает одним из крупнейших индексов в России, но основную популярность она приобрела в первую очередь как рейтинговая система. Она позволяет быстро выявить круг Web-узлов, поставляющих информацию на заданную тему, и оценить их популярность по количеству посещений разными клиентами Internet за последние сутки. Хотя число посещений данного Web-узла далеко не всегда свидетельствует об истинной ценности имеющейся на нем информации, в случае тем, представляющих общественный интерес, такому рейтингу популярности можно доверять.
По умолчанию в Rambler находятся только те документы, в которых встретились все заданные ключевые слова, то есть пробел между словами воспринимается как логическая операция AND. Однако это значение пробела можно переопределить таким образом, чтобы он соответствовал логической операции OR (как это имеет место по умолчанию в Yahoo или Alta Vista). Для этого в бланке расширенного поиска нужно выбрать опцию «Искать слова запроса: хотя бы одно ("или")».
Чтобы исключить документы, содержащие те или иные слова, последние нужно указать на соответствующем поле бланка расширенного поиска.
Поиск по ключевым словам с помощью поисковой системы Rambler (ссылка скрыта)
Найдите страницы Internet, которые содержат словосочетание «химическая технология».
- Загрузите начальную страницу сервера Rambler (ссылка скрыта).
- Сформулируйте и введите в строку поиска запрос к поисковой системе Rambler, учитывая следующее замечание.
Если запрос состоит из нескольких слов, то в Rambler предусмотрены следующие соглашения:
- Несколько слов, набранных через пробел, обозначают запрос, соответствующий логической операции OR (ИЛИ). По запросу
химическая технология
будут отобраны страницы, на которых имеется или “химическая”, или “технология ” (или сразу оба слова). Число таких документов очень велико: в них могут попасть страницы, не имеющие никакого отношения к химической технологии;
- Несколько слов, заключенных в кавычки, воспринимаются системой как единое целое. Например, по запросу
“химическая технология»
будут отобраны документы, в которых имеется эта символьная строка химическая технология;
- Слова, соединенные знаком “+” (плюс), соответствуют логической операции AND (И). По запросу
химическая+технология
будут отобраны документы, содержащие оба этих слова (возможно, вразброс). Число таких документов будет не меньше числа документов, отобранных по второму запросу.
- Опробуйте все три формы запроса и выясните, какая из них наиболее эффективна.
7.2. Яndex (ссылка скрыта)
Поисковая система Яndex выделяется своими мощными средствами расширенного поиска, а также целым рядом технологических достижений, например, наличием интеллектуального механизма морфологического разбора слов, что особенно важно для русского языка. Независимо от того, в какой форме был написано ключевое слово в запросе, Яndex будет учитывать все его формы. Например, если ключевым является слово идти, находятся ссылки на Web-документы, содержащие слова идти, идет, и даже шёл. Однако существует возможность поиска и по точной словоформе, для чего перед этой словоформой надо поставить восклицательный знак “!”.
Несколько набранных в запросе слов, разделенных пробелами, означает, что все они должны входить в одно предложение искомого документа (то есть пробел работает как знак логической операции AND).
Следует иметь ввиду, что в ПС Яndex операцию AND можно указать и в явной форме с помощью символа “&” (но не с помощью слова AND !). Удвоение того знака, т.е. использование символа “&&”, приводит к распространению действия операции AND на весь документ (т.е. связанные с помощью && слова должны обязательно присутствовать в пределах всего документа). Символом операции OR в рассматриваемой поисковой системе служит знак “|” (но не само слово OR).
В ПС Яndex можно регулировать расстояние, на котором находятся друг от друга заданные ключевые слова в Web-документе. Например, запрос
химическое/(-2 4) образование
означает, что слово химическое может находиться как слева от слова образование (на расстоянии максимум двух слов от него), так и справа (на расстоянии максимум четырех слов от него).
Поисковая система Яndex имеет очень хорошее описание в разделе “Помощь”, который настоятельно рекомендуется посмотреть перед использованием этой системы.
7.2.1. Поиск по ключевым словам в системе Яndex
Введите ключевые слова в поле запроса: расписание поездов и нажмите кнопку Найти.
После нажатия кнопки Найти, Яндекс выведет список ссылок на документы, наиболее точно соответствующие запросу. Но результат поиска по фразе «расписание поездов» очень обширен, для облегчения нахождения нужной информации его следует уточнить. Для этого в поисковой форме Яндекс предусмотрены:
- флажок «в найденном» который позволяет искать в результатах предыдущего запроса.
- флажок «в регионе: Москва», ограничивающий запрос по териториальным характеристикам.
Ограничить область поиска можно, щелкнув по ссылкам Новости, Маркет, Картинки и т.д. Щелчок по нужной ссылке заменяет нажатие кнопки Найти. Для поиска картинки можно также указать желаемый размер картинки от значения «Мелочь» до «Огромные».
Расширенный поиск в Яндекс включается щелчком по ссылке «расширенный поиск», либо по значку «+».
Эта страница позволяет более тонко указать условия поиска. Найденные в результате документы будут соответствовать сразу всем условиям, поставленным в расширенном поиске.
- Поле запроса – введите слова, которые обязательно должны быть в найденных документах, перед словами, которых не должно быть в документах поставьте знак минус (пробел ставьте до знака, но не после), например, -электричка.
- Расположение слов относительно друг друга – подряд, в одном предложении, не очень далеко (в пределах нескольких строк), на одной странице.
- Расположение слов на странице – где угодно (в любом месте страницы), в заголовке (заголовок страницы отображается в заголовке окна программы Internet Explorer, то есть в синей полосе), в тексте ссылки (слово является гиперссылкой), также можно указать адрес, куда ведет данная ссылка – таким образом, удобно искать те страницы, которые ссылаются на данную (адрес которой Вы указали).
- Форма употребления слов. Система Яндекс умеет склонять (спрягать) введенное слово и по умолчанию находит документы, в которых встречаются все формы слова. Если Вы выберите «точно так, как в запросе», то Яндекс будет искать только введенную Вами форму слова. Это удобно при поиске цитат.
- Язык страницы – укажите язык, на котором должна быть выполнена страница. Язык содержится в невидимом пользователю заголовке страницы. В базу Яндекса вносятся документы русскоязычного Интернета, находящиеся в доменах su, ru, am, az, by, ge, kg, kz, md, tj, ua, uz, а также зарубежные сайты, представляющие интерес для русскоязычного поиска.
- Дата страницы – укажите любой из предложенных вариантов, либо введите период (даты начала и конца), в пределах которого должна находиться дата документа. Поскольку осуществляется поиск действующего расписания движения поездов, то можно воспользоваться условием Дата страницы.
- Формат документа. Все Web-страницы имеют формат HTML, то есть выполнены с использованием языка разметки гипертекста, однако, в сети Internet присутствуют документы и другого формата, которые также можно просматривать с помощью программы Internet Explorer: PDF – файл публикации, DOC – документ, созданный в программе Microsoft Word, RTF – форматированный текст (универсальный формат).
- Страницы содержат ссылку – укажите URL этой ссылки.
- Страницы находятся на сайте – укажите доменное имя сайта.
- Страницы похожи на страницу – укажите URL страницы-образца.
В нижней желтой панели «Итого:» будет полностью сформулирован Ваш запрос. Нажмите кнопку «Найти» и получите результаты.
7.2.2 Советы при поиске в системе Яндекс
- Проверяйте орфографию
Если поиск не нашел ни одного документа, то Вы, возможно, допустили орфографическую ошибку в написании слова. Проверьте правильность написания. Если вы использовали при поиске несколько слов, то посмотрите на количество каждого из слов в найденных документах (перед их списком после фразы «Результат поиска»). Какое-то из слов не встречается ни разу? Скорее всего, его вы и написали неверно.
- Используйте синонимы
Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово. Например, вместо «рефераты» возможно больше подойдет «курсовые работы» или «сочинения». Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|). Тогда будут найдены страницы, где встречается хотя бы одно из них. Например, вместо «фотографии» попробуйте «фотографии | фото | фотоснимки».
- Ищите больше, чем по одному слову
Слово «психология» или «продукты» дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. Например, «психология Юнга» или «продажа и покупка продовольствия». Рекомендуется также сужать область вашего вопроса. Если вы интересуетесь автомобилями ГАЗа, то запросы «автомобиль Волга» или «автомобиль ГАЗ» выдадут более подходящие документы, чем «легковые автомобили».
- Не пишите большими буквами
Начиная слово с большой буквы, вы не найдете слов, написанных с маленькой буквы, если это слово не первое в предложении. Поэтому не набирайте обычные слова с Большой Буквы, даже если с них начинается ваш вопрос Яндексу. Заглавные буквы в запросе рекомендуется использовать только в именах собственных. Например, «группа Черный кофе», «телепередача Здоровье».
- Используйте знаки "+" и "-"
Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минуса. И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Обратите внимание, что между словом и знаком плюс-минус не должно быть пробела. Например, если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос «путеводитель по парижу -агентство -тур». Плюс стоит использовать в том случае, когда нужно найти так называемые стоп-слова (в основном это местоимения, предлоги, частицы). Чтобы найти цитату из Гамлета, надо задать запрос «+быть или +не быть».
- Попробуйте использовать язык запросов
С помощью специальных знаков вы сможете сделать запрос более точным. Например, укажите, каких слов не должно быть в документе, или что два слова должны идти подряд, а не просто оба встречаться в документе.
- Искать без морфологии
Вы можете заставить Яндекс не учитывать формы слов из запроса при поиске. Например, запрос !иванов найдет только страницы с упоминанием этой фамилии, а не города "Иваново".
- Поиск картинок и фотографий
Яндекс умеет искать не только в тексте документа, но и отыскивать картинки по названию файла или подписи, названию ссылки на картинку. Для поиска введите поисковое выражение, укажите желаемый размер картинки и щелкните по ссылке Картинки. При поиске по возможности исключаются рекламные баннеры и копии картинок (одинаковые изображения). В результатах поиска выдается не более одной картинки от одного сайта, остальные доступны по ссылке «еще с сайта». Доступна расширенная информация о картинке. Размер полученной картинке можно выбрать следующий:
- «Мелочь» до 1000 квадратных пикселей
- «Маленькие» от 1000 до 10 000 квадратных пикселей
- «Средние» от 10 000 до 100 000 квадратных пикселей
- «Большие» от 100 000 до 1000 000 квадратных пикселей
- «Огромные» свыше 1000 000 квадратных пикселей
7.2.3 Синтаксис языка запросов
В системе Яндекс существует специальный язык запросов, использовать который более сложно, чем форму расширенного поиска но при его использовании можно получить наилучший результат.
Поисковый запрос вводится в поисковое поле, он может содержать ключевые слова и специальные символы, позволяющие установить взаимосвязи между этими словами и ввести дополнительные параметры. Большинство этих символов представлено в таблице.
Синтаксис языка запросов системы Яндекс.
Синтаксис | Назначение | Пример |
" " | поиск фразы | "красная шапочка" (эквивалентно красная /+1 шапочка) |
+ | обязательное наличие слова в найденном документе | +быть или +не быть |
~~ или - | не должно быть слова в пределах документа (И НЕ) | путеводитель по парижу ~~ (агентство | тур) |
~ | не должно быть слова в пределах предложения (И НЕ) | банки ~ закон |
! | искать только указанную форму слова | !Пушкин |
пробел или & | логическое И (в пределах предложения) | фабрика звезд |
&& | логическое И (в пределах документа) | музыка && (фабрика звезд) |
| | логическое ИЛИ | рисунок | картинка | фото | коллаж |
/(n m) | расстояние между словами (-назад +вперед) | поставщики /2 кофе музыкальное /(-2 4) образование вакансии ~ /+1 студентов |
&&/(n m) | расстояние в предложениях (-назад +вперед) | банк && /1 налоги |
( ) | группировка слов | (технология | изготовление) (сыра | творога) |
Основные положения языка запросов:
- Если ключевые слова являются устойчивым словосочетанием или единой фразой, то заключите их в кавычки.
- Если слова не объединены кавычками, то каждое слово будет само по себе и перед каждым их них можно поставить знак плюс «+», если слово обязательно должно быть в найденных документах, минус «-», если слово не должно быть в найденных документах (пробел ставится перед знаком, но не после). Если перед словом поставить знак ~ (тильда), то этого слова не должно быть в пределах предложения в совокупности с рядом стоящим в запросе словом. По умолчанию будут найдены и те документы, которые удовлетворяют хотя бы одному из ключевых слов. Такие ссылки будут иметь низкую ревалентность и будут находиться в конце результатов запроса.
- Независимо от того, в какой форме вы употребили слово в запросе, Яндекс учитывает все формы этого слова по правилам русского языка. Чтобы этого не происходило, поставьте знак восклицания перед неизменяемым словом.
- Все слова, написанные через пробел или знак & (логическое И) должны одновременно находиться в найденных документах в пределах предложения. Все слова, написанные через && должны одновременно находиться в найденных документах, но расстояние между ними не оговаривается.
- Слова, написанные через символ | (логическое ИЛИ) являются заменяющими друг друга (синонимами), и будут найдены документы, удовлетворяющие хотя бы одному из этих слов.
- Можно указать расстояние между словами. Если пронумеровать слова в предложении, то расстояние между словами – это разность номеров слов. Например, если между двумя словами может находиться только одно слово, то расстояние между ними равно 2 (3 минус 1). Число указывается после знака /, например региональный /2 центр. В этом случае будут найдены документы, в которых эти слова находятся либо вместе, либо между ними есть еще одно слово. Запись /2 эквивалентна записи /(-2 +2), в такой форме можно указать максимальное и минимальное количество слов, например, от 3 до 5 записывается /(3 5). Минус и плюс указывают на порядок слов: минус – обратный порядок. Если перед символом / указать &&, то расстояние будет вычисляться в предложениях.
- Для группировки отдельных частей запроса используйте круглые скобки.
Поиск в зонах и элементах web-страницы
Web-страница состоит из определенных зон и элементов. Соответственно можно осуществлять поиск в зонах и в элементах. Например, для поиска в заголовке страницы (заголовок отображается в заголовке окна обозревателя) указывают: $title (выражение), поиск в тексте ссылок аналогичен, а общий синтаксис таков:
$имя_зоны (выражение)
Выражение может быть представлено как одним ключевым словом, так и несколькими словами, объединенными знаками логических операций.
Для поиска в элементах используется синтаксис:
#имя_элемента=(выражение)
Элементы отличаются от зон тем, что в большинстве своем не видны пользователю, просматривающему страницу. Так, например, ключевые слова указываются в невидимом заголовке Web-страницы и не выводятся в обозревателе. Их можно увидеть только выполнив команду меню Вид В виде HTML. Большинство документов имеют описание (abstract), которое также не выводится на страницу. Подписи рисунков видны только в том случае, если загрузка рисунков отключена, либо если навести мышь на рисунок, то подпись появится в виде подсказки.
Синтаксис поиска в элементах и зонах
Синтаксис | Назначение | Пример |
$title (выражение) | поиск в заголовке | $title (Яндекс) |
$anchor (выражение) | поиск в тексте ссылок | $anchor (Яндекс | Апорт) |
#keywords=(выражение) | поиск в ключевых словах | #keywords=(поисковая система) |
#abstract=(выражение) | поиск в описании | #abstract=(искалка | поиск) |
#image="значение" | поиск файла изображения | #image="tort*" |
#hint=(выражение) | поиск в подписях к изображениям | #hint=(lenin | ленин) |
#url="значение" | поиск на заданном сайте (странице) | #url="www.comptek.ru*" |
#link="значение" | поиск ссылок на заданный URL | #link="www.yandex.ru*" |
#mime="значение" | поиск в документах (pdf или rtf) типа | #mime="pdf" |
Сортировка результатов запроса
После того, как поисковая система выберет страницы, удовлетворяющие запросу, она сортирует ссылки на эти страницы в порядке убывания их ревалентности.
Ревалентность – это степень соответствия содержания документа поисковому запросу. Релевантность документа зависит от ряда факторов, в том числе от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т.д.
Пользователь может повлиять на порядок сортировки, используя операторы веса и уточнения запроса.
Вес указывается для того, чтобы увеличить ревалентность документов, содержащих слово или выражение, вес которого указан.
Синтаксис: слово:число или (поисковое_выражение):число
Чем больший вес указан у слова (или выражения), тем выше ревалентность документов его содержащих.
Например, по запросу родина Пушкина:5 в результатах поиска наверху списка окажутся документы, где чаще встречается именно слово Пушкин.
Уточняющее слово или выражение применяется для того, чтобы увеличить релеватность документов, их cодержащих.
7.2.4 Поиск по каталогам
Когда сетевой робот поисковой системы сканирует Internet и автоматически вносит описания и адреса страниц в свой поисковый индекс, то вместе с полезными и адекватными ссылками в базе данных оказывается много поискового мусора или поискового спама, так как некоторые недобросовестные владельцы сайтов, пытаясь увеличить посещаемость своих ресурсов, добавляют в свои страницы наиболее популярные поисковые слова, совершенно не относящиеся к теме страницы. Это и некоторые другие обстоятельства вынуждают создателей поисковых систем кроме автоматического индекса вести также каталоги ресурсов, составленные вручную. Такой каталог есть и в поисковой системе Яндекс.
Каталог позволяет классифицировать ресурсы и сгруппировать их по тематике. Тематическое дерево каталога Яндекса сделано максимально простым.
Если щелкнуть по названию темы, то откроются подтемы (рубрики). При дальнейшем движении вглубь будут открываться следующие уровни (подрубрики), и в итоге откроется список ресурсов (сайтов) выбранной тематики.
Ресурсы в системе четко структурированы по тематике, но помимо темы, в каталоге имеется ряд дополнительных признаков (фасет), позволяющих уточнить характер ресурсов, которые пользователь хочет увидеть в тематических категориях. Эти нетематические признаки характеризуют ресурсы по региону, сектору экономики, степени достоверности (источнику) информации, ее потенциальной аудитории (адресату информации), жанру (художественная литература, научно-техническая литература, и т.д.), цели (предложение товаров и услуг, интернет-представительство) и т.д.
Сайты в рубриках расположены по убыванию их тематического индекса цитирования (тИЦ). Тематический индекс цитирования – это показатель, который показывает количество ссылок на данный ресурс с других ресурсов. При расчете этого индекса ссылкам придается разный «вес» (значимость) в зависимости от авторитетности ссылающегося сайта. Таким образом, в первых позициях каталога будут именно признанные ресурсы, ресурсы – источники информации, ресурсы, которые цитируют, на которые ссылаются.
В каталоге можно также осуществлять поиск по ключевым словам, как и во всем поисковом индексе. Поиск в каталоге ведется по текстам заголовков и описаний, составленных редакторами поисковой системы Яндекс. Поскольку заголовки отражают основной профиль сайта, сайты, найденные по заголовку, стоят в результатах поиска выше, чем сайты, найденные по описанию.
Если поиск в системе Яндекс как во всей базе, так и в каталоге не дал необходимых результатов, то существует возможность поиска тех же ключевых слов в других поисковых системах. Для этого на странице результатов поиска Яндекс есть соответствующие ссылки на поисковые системы.