Поисковые системы

Вид материала

Подобный материал:

Введение

Основные протоколы, используемые в Интернет (в дальнейшем также Сеть), не обеспечены достаточными встроенными функциями поиска, не говоря уже о миллионах серверах, находящихся в ней. Протокол HTTP, используемый в Интернет, хорош лишь в отношении навигации, которая рассматривается только как средство просмотра страниц, но не их поиска. То же самое относится и к протоколу FTP, который даже более примитивен, чем HTTP. Из-за быстрого роста информации, доступной в Сети, навигационные методы просмотра быстро достигают предела их функциональных возможностей, не говоря уже о пределе их эффективности. Не указывая конкретных цифр, можно сказать, что нужную информацию уже не представляется возможным получить сразу, так как в Сети сейчас находятся миллиарды документов и все они в распоряжении пользователей Интернет, к тому же сегодня их количество возрастает согласно экспоненциальной зависимости. Количество изменений, которым эта информация подвергнута, огромно и, самое главное, они произошли за очень короткий период времени. Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения подобного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не было. Для того, чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы.

Поисковые системы

Поисковые cистемы обычно состоят из трех компонент:

агент (паук или кроулер), который перемещается по Сети и собирает информацию;
база данных, которая содержит всю информацию, собираемую пауками;
поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Как работают механизмы поиска

Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Cредства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктирова-ны, что нужно просматривать прежде всего наиболее популярные страницы.

Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.
Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.
Кроулеры просматривают заголовки и возращают только первую ссылку.
Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).
Тэги, в которых эти слова располагаются.
Местоположение искомых слов в документе.
Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

Сравнительный обзор поисковых систем

Поисковая система Рамблер

Поисковая система содержит информацию о более чем 12 миллионах документов, расположенных на серверах России и стран СНГ. Рамблер обрабатывает ежесуточно не менее 500 тысяч поисковых запросов (в среднем - 5 запросов в секунду), сканируя 48 тысяч web-серверов и используя несколько одновременно работающих программ-роботов.

Поисковые слова

Запрос может состоять из одного или нескольких слов, разделенных пробелами. Могут быть использованы как русские, так и английские слова и словосочетания. По умолчанию находятся только те документы, в которых встретились все введенные Вами слова. Чтобы найти документы, содержащие хотя бы одно слово из запроса, используйте логическую связку Or (см. ниже) или выберите на странице детального запроса: "Слова запроса: любое". Чтобы исключить документы, содержащие те или иные слова, укажите на странице детального запроса: "Исключить документы, содержащие следующие слова ...".

Регистр

Все равно, с какой буквы написаны слова запроса: с большой или с маленькой. И при построении индекса, и при поиске по запросу все заглавные (большие) буквы "понижаются".

Логические связки

Слова запроса могут быть соединены логическими связками And ("и"), Or ("или"). Вместо связок (или в сочетании с ними) могут использоваться также символы '&', '|'.

Логические группы

Части запроса могут быть сгруппированы с помощью круглых скобок ( ). Возможна многократная вложенность скобок в сочетании с логическими операторами.

Словоформы

Рамблер умеет искать слова во всех формах (например, аминокислота, аминокислоты, аминокислотой и т. д.). Чтобы слово находилось во всех формах, перед ним надо поставить служебный символ '#'. В меню детального запроса такой режим может быть включен для всех слов: "Расширение запроса: все формы слов". Служебный символ '@' перед словом позволяет находить не только само это слово, но и однокоренные слова. В меню детального запроса символу '@' соответствует режим "Расширение запроса: все однокоренные".

Усечение слов

По умолчанию наша система ищет слова запроса так, как Вы их ввели, чтобы уменьшить "шум" в найденных документах. Если Вы не помните, как пишется слово, или хотите расширить запрос, можно использовать метасимволы '*' и '?' для обозначения произвольной части слова и произвольного символа.

Поиск в части документа

Ограничить поиск частями документов, такими как название документа, его заголовок, URL и т.п., можно через меню детального запроса "Искать в...".

Язык документов

Можно ограничить поиск документами только на русском или только на английском языке. Для этого надо выбрать соответствующий режим в меню детального запроса "Язык документа...". По умолчанию поиск выполняется по документам на всех языках.

Сортировка результатов

По умолчанию найденные документы сортируются по релевантности (соответствию запросу). Однако Вы можете потребовать, чтобы вместо этого в начало списка были помещены самые свежие (или, наоборот, самые старые документы). Для этого надо выбрать соответствующую установку в меню "Сортировать по..." на странице детального запроса.

Вы можете также ограничить поиск документами, созданными в определенный период времени: для этого необходимо на странице детального запроса указать "От даты ... до даты ...".

Расстояние между словами

Можно потребовать, чтобы Рамблер возвращал только те документы, где слова из запроса находятся на минимальном расстоянии друг от друга. Режим "Ограничить расстояние между словами" может быть включен в детальном запросе. Все перечисленные выше правила могут быть использованы совместно друг с другом в необходимой Вам последовательности.

Выдача результатов

По умолчанию результаты поиска выдаются порциями по 15 документов. Меню "Выдавать по..." на странице детального запроса позволяет увеличить это число до 30 или 50. Меню "Форма вывода..." позволяет получать описания документов с увеличенной или уменьшенной подробностью.

Поисковая система Яндекс

Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет.

Яндекс не требует от вас знания специальных команд для поиска. Достаточно набрать вопрос ("где найти дешевые компьютеры" или "нужны телефоны москвы и московской области"), и вы получите результат - список страниц, где встречаются эти слова.

Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос 'идти', то в результате поиска будут найдены ссылки на документы, содержащие слова 'идти', 'идет', 'шел', 'шла' и т.д. На запрос 'окно' будет выдана информация, содержащая и слово 'окон', а на запрос 'отзывали' - документы, содержащие слово 'отозвали'.

При этом поиск не ограничен лишь словами или фразами. Яндекс отыщет по названию web-страницу компании или файл с нужной картинкой.

ссылка скрыта

Миссия Google состоит в том, чтобы организовать мировую информацию и сделать ее всесторонне доступной и полезной.

Выполняя первый шаг к поставленной цели, основатели Google, Лэрри Пэйдж и Сергей Брин, разработали новый подход к поиску в Интернете, который родился в общежитии Стэндфордского университета и быстро распространился среди тех, кто ищет информацию по всему миру. Теперь Google широко известен как крупнейший в мире поисковый сервер, который прост в использовании и за долю секунды бесплатно выдает обычно релевантные результаты поиска.

Когда Вы посещаете ссылка скрытаили один из десятков других доменов Google, Вы можете найти информацию на разных языках, проверить котировки акций, найти карты, текущие новости, информацию в телефонном справочнике по каждому городу США, вести поиск cреди 1 миллиарда картинок , а также воспользоваться крупнейшим архивом сообщений в мире Usenet - более миллиарда сообщений, отправленных с 1981 года.

Мы также предоставляем пути доступа ко всей этой информации без необходимости заходить на главную страницу Google. Панель инструментов Google позволяет вести поиск в Google из любого места в Интернете, а Google Deskbar (бета) помещает окно поиска Google на панель задач Windows, так что Вы можете вести поиск из любого используемого приложения, не открывая браузер. Даже когда Вы не работаете за компьютером, Google можно использовать с разных мобильных платформ, включая телефоны, работающие в режимах WAP и i-mode.

Удобство и простота Google сделали его одним из самых известных брэндов в мире, информация о котором распространялась в основном от одного довольного пользователя к другому. Будучи коммерческим предприятием, Google получает доход от предоставления рекламодателям возможности распространять эффективную и рентабельную рекламу в Интернете, которая релевантна информации, отображаемой на данной странице. Таким образом, реклама становится полезной не только для разместивших ее, но и для Вас. Мы считаем, что Вы должны знать, что кто-то заплатил, чтобы Вы могли увидеть это сообщение, поэтому мы отделяем объявления от результатов поиска или другого содержания страницы. Мы не продаем места в результатах поиска как таковые и не позволяем людям платить за получение более высокой позиции.

Тысячи рекламодателей используют нашу программу Google AdWords для продвижения своих товаров и услуг в Интернете с помощью целенаправленных объявлений, и мы считаем, что AdWords – это крупнейшая программа такого рода. Кроме того, тысячи менеджеров веб-сайтов используют нашу программу Google AdSense , чтобы показывать объявления, релевантные для содержания своих сайтов, что позволяет им получить прибыль и расширить возможности своих пользователей.

Чтобы узнать больше о Google, нажмите на ссылку слева для посещения интересующего Вас раздела. Или введите в окно поиска то, о чем Вы хотели бы узнать, и нажмите Enter. Сделав это, Вы поймете, почему другие говорят: " ссылка скрыта".

Что такое Google?

"Googol (гугол)" – это математический термин, обозначающий единицу со 100 нулями. Этот термин был придуман Милтоном Сироттой, племянником американского математика Эдварда Каснера, и впервые описан в книге Каснера и Джеймса Ньюмена "Математика и воображение" (Mathematics and the Imagination). Использование этого термина компанией Google отражает нашу задачу организовать огромные объемы информации в Интернете.

Поисковая система Апорт

Примеры простых запросов

Обычно запрос представляет из себя просто одно или несколько слов, например:

микропроцессоры компании Intel

По такому запросу находятся документы, в которых встречаются все слова запроса. Есть, правда, ограниченное число слов (союзы, предлоги и т.п.), которые в запросе игнорируются, так как не несут сами по себе смысловой нагрузки. Например, по запросу:

яблоки на снегу

будут найдены все документы, в которых встречаются одновременно два слова: "яблоко" и "снег". Где в пределах документа расположены слова, в какой грамматической форме они находятся — не важно

Стоит еще раз подчеркнуть важное и очень полезное свойство Апорта: независимо от того, в какой грамматической форме вы пишите в запросе слово, оно находится в документах во всех своих формах. Например, по запросу:

человек шел

будут найдены среди прочих и документы, содержащие текст "люди идут". Распознавание всех форм работает для обычных слов русского языка. Для экзотических слов, неологизмов и т.п. оно не проходит. В этом случае может пригодиться оператор "*" (звездочка). Например, вы хотите найти все, касающееся деятельности президента России, в том числе и документы, содержащие слово "ельцинизм". Воспользуйтесь запросом:

ельцин*

Он позволит вам найти то, что вы хотите (а также документы со словами Ельцинище, ельцинцы, ельциненок и т.п), поскольку звездочка заменяет собой любое число любых букв

Поиск по адресам (по URL)

Вы можете искать документы не только по всему русскоязычному Интернету, но и по его части. Самый простой случай — поиск по определенному серверу. Например

url=www.intel.ru собака

По данному запросу будут найдены все документы на сервере www.intel.ru, содержащие слово "собака". Возможно, вам интересно, а что будет, если написать просто:

url=www.intel.ru

В этом случае вы получите список всех документов, расположенных на указанном вами сервере

Вы можете ограничивать поиск и сильнее — одним из каталогов сервера. Например:

url=www.intel.ru/sobaki/ сенбернар

По данному запросу документы, содержащие слово "сенбернар", будут искаться только в каталоге /sobaki (и его подкаталогах) московского сервера корпорации Intel.

List.ru

На главной странице в верхней ее части расположены ссылки на наиболее популярные проекты. Ниже, под логотипом каталога, поисковая форма. В правой колонке и нижней части страницы - блоки самых актуальных новостей. Список ссылок на основные категории каталога занимает центральную часть. Цифры рядом с названием категории показывают количество сайтов, содержащихся в ней. Записанные мелким шрифтом заголовки отсылают при нажатиии на подкатегории раздела. Щелкнув по любому из названий, Вы попадете в соответствующую рубрику и под логотипом List.ru увидите полный путь до нее, начиная с главной страницы. Каждый промежуточный уровень структуры доступен по отдельной ссылке.Поиск в каталоге реализован таким образом, что в результате запроса могут быть найдены как отдельные сайты, так и рубрики. Поиск будет успешным URL, название, описание, ключевые слова. Допускается использованием языка запросов Яндекс. Расположенная рядом с поисковой формой ссылка "Структура каталога" открывает в отдельном окне полный рубрикатор каталога. Реализована возможность перехода из рубрикатора в любую выбранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок. Помеченные символом @ приведут в подкатегории, структурно входящие в другие разделы, но содержащие близкую по содержанию информацию. Если Вы хорошо представляете, в какой рубрике содержатся нужные ресурсы, лучше перейти в нужную подкатегорию, воспользовавшись любым из предоставляемых средств навигации по каталогу. В противном случае можно искать их в полном списке. Каталог организован таким образом, что все сайты, содержащиеся на нижних уровнях структуры, представлены и в рубриках.Показываемый ниже список ресурсов упорядочен в алфавитном порядке, но, выбрав соответствующую сортировку ("По времени добавления" или "По переходам"), можно просмотреть их по порядку добавления в каталог (начиная с самых "свежих") или в зависимости от популярности среди посетителей каталога. Ссылка с названия сайта открывает в отдельном окне его зарегистрированную в данной рубрике страницу. Пометки RUS и ENG означают наличие на сайте страниц, соответственно на русском и английском языках. В красных скобках (Заходов: ххх.хх) показано среднесуточное количество переходов на ресурс со страниц List.ru.

Поисковая система AltaVista

Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:

слова содержащиеся в теге имеют высший приоритет; ключевые фразы в <Meta> тэгах; <li> ключевые фразы, находящиеся в начале странички; <li> ключевые фразы в ALT - ссылках <li> ключевые фразы по количеству вхождений\присутствия слов\фраз; </ul> Если тэгов на странице нет, использует первые 30 слов, которые индексирует и показывает вместо описания (tag description) Наиболее интересная возможность AltaVista - это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском. <a rel="nofollow" href=" " onclick="return false">ссылка скрыта</a> <img src="images/19739-nomer-7d8ea876-1.png"> Для любого пользователя поисковая система состоит из двух компонентов: поисковой странички и странички с результатами поиска. Последнее важнее, поскольку именно страничка с результатами демонстрирует состоятельность системы. сайты Многие поисковые системы сегодня, так или иначе, оперируют понятием сайта, но подразумевают под этим просто адрес сервера типа www.server.com. В этом случае адрес сайта определяется из адреса страницы простым отрезанием хвоста: из r.com/users/~vasya получается сайт www.server.com. Для больших серверов, где размещены сайты множества фирм или людей, это неудачное решение. Апорт берет в качестве сайта сервер только в самом крайнем случае. Как правило, для определения того, какая группа страниц является логическим целым (сайтом), Апорт использует информацию из базы данных своего каталога, информация о сайтах в котором вводится человеком, а потому гораздо точнее, чем то, что дает любой автоматический алгоритм (специальные алгоритмы тоже используются, но только, если сайт не зарегистрирован в каталоге). документы Апорт дает весьма информативное представление найденных при поиске страниц. В блоке каждого сайта Апорт приводит информацию об одной из наиболее релевантных найденных на сайте страниц (7): адрес, заголовок, дата и цитата из документа (8). Важно, что цитаты выбираются из полного текста документа и содержат слова запроса. Также имеется ссылка на реконструкцию полного текста документа (9). Она нужна, если документ недоступен на самом сайте (упал сервер, документ уже удалили и т.п.) Если нужно получить информацию о всех остальных страницах, которые Апорт нашел на сайте, то можно воспользоваться ссылкой (12), которая замыкает блок результатов. По этой ссылке выдается дополнительное окно, в котором отображаются результаты поиска только по данному сайту. Они состоят из блоков данных по отдельным страницам. сортировка <img src="images/19739-nomer-0.gif"> Общие принципы <img src="images/19739-nomer-0.gif"> Задача ранжирования результатов поиска является определяющей с точки зрения качества работы поисковой системы. Разработка хорошей функции ранжирования весьма непростая задача, в частности, из-за большой неоднородности ранжируемых документов и из-за попыток сознательного искажения результатов поиска с помощью поискового спама. Мощным средством повышения качества ранжирования является учет гипертекстовой структуры Интернета: ссылочное ранжирование и индекс цитируемости позволяют (хотя и не всегда) отличить качественный контент от сходного по содержанию “мусора”, а также (что особенно важно для владельцев сайтов) оригинальные материалы от их копий. Однако и здесь приходится иметь дело с теми же проблемами: неоднородностью ссылочной структуры и ее сознательным искажением спамерами. Ещё одним важным средством повышения релевантности является использование информации из каталога Апорта, которая обладает высокой степенью достоверности, так как составлена или проверена профессионально подготовленными редакторами. Принципиальным моментом в ранжировании результатов поиска в Апорте является стремление к учёту максимального количества критериев ранжирования в их взаимосвязи. В частности, заметное преимущество получают документы, имеющие высокий вес сразу по нескольким независимым критериям (например, по частотности слов запроса в тексте и ссылочному ранжированию). Ранжирование производится исключительно автоматическими методами, мы не осуществляем специальной корректировки результатов поиска для каких-либо запросов или сайтов. <img src="images/19739-nomer-0.gif">Критерии ранжирования <img src="images/19739-nomer-0.gif"> Апорт применяет следующие критерии при ранжировании документов: <ul> <li> частота и взаимное расположение слов запроса в тексте документа; <li> размер документа; <li> присутствие и взаимное расположение слов запроса в выделенном (размером шрифта или html-тегами , , <h2>...<h6>) тексте; <li> присутствие и расположение слов запроса в заголовке документа; <li> присутствие и расположение слов запроса в мета-тегах "keywords" и "description"; <li> присутствие и расположение слов запроса в ссылках на ранжируемый документ и авторитетность этих ссылок; <li> присутствие и взаимное расположение слов запроса в названии и описании сайта в каталоге Апорта (учитывается при вычислении веса главной страницы сайта); <li> взвешенный индекс цитирования документа; <li> количество страниц сайта, имеющих высокую релевантность запросу. </ul> Результирующий вес документа рассчитывается по специальному алгоритму, различным образом учитывающему сочетания разных критериев. <img src="images/19739-nomer-0.gif"> Частотные характеристики <img src="images/19739-nomer-0.gif"> Учитывается как абсолютная, так и относительная частота слова в тексте документа. И для той и для другой величины существуют пороговые значения, после достижения которых дальнейшее увеличение частоты не влияет на вес документа. Для небольших документов, размер которых (в словах) меньше заданной константы, относительная частота рассчитывается не от их фактического размера, а от этой константы. В заголовке, мета-тегах, а также в названии и описании сайта из каталога частота слов не учитывается. <img src="images/19739-nomer-0.gif"> Ссылочное ранжирование <img src="images/19739-nomer-0.gif"> Алгоритмы ссылочного ранжирования в Апорте учитывают не более одной ссылки с каждого домена второго уровня для отдельного запроса (то есть, для разных запросов могут учитываться разные ссылки). Вес каждой ссылки зависит (помимо ее текста) от взвешенного индекса цитирования ссылающейся страницы. <img src="images/19739-nomer-0.gif"> Взвешенный индекс цитирования <img src="images/19739-nomer-0.gif"> Алгоритм вычисления взвешенного индекса цитируемости является модификацией классического алгоритма PageRank. В качестве одной из наиболее существенных особенностей следует отметить, что учитывается не более одной ссылки на документ с каждого домена второго уровня. Индексом цитирования сайта считается взвешенный индекс цитирования страницы, самый высокий среди всех страниц сайта (в большинстве случаев это бывает взвешенный индекс цитирования главной страницы сайта). <img src="images/19739-nomer-0.gif"> Мета-теги "keywords" и description" <img src="images/19739-nomer-0.gif"> Ключевые слова (meta keywords) учитываются Апортом даже в случае их отсутствия в тексте документа. Индексируется не более 16 ключевых слов для каждого документа. Мета-тег description также учитывается при ранжировании, однако, в большинстве случаев, имеет очень небольшой вес. Поиск в компьютерных сетях становится искусством и требует вполне определённых знаний, которыми современному человеку необходимо овладеть. Причины, по которым документ не может быть обнаружен Прежде всего, требуемое не будет обнаружено поисковой машиной, если на ней данные ресурсы не прописаны. Запомните! Не достаточно разместить, что-либо в Интернете. Необходимо прописать это на соответствующих поисковых машинах. Можно расположить материал в Интернете, знать его адрес. Однако, пока он не «прописан» на одной из поисковых машин, найти его стороннему человеку будет очень сложно, конечно если ему не дан адрес или DNS. Через некоторое время и этот сайт будет обнаружен так называемыми «поисковыми роботами» или «пауками-поисковиками» и, только тогда, возможно, он начнёт посещаться. Впрочем, есть возможность программно запретить регистрацию всего сайта, или отдельных элементов его, как всеми, так и определёнными поисковыми системами. Для подобных целей служат так называемые мета-теги или мета-определители. Однако это отдельный разговор, кем и с какой целью подобное запрещение делается. Следующее - это специализация поисковых машин. Так top100 относится к поисковым машинам специализированного типа и больше предназначена для поиска технических элементов компьютеров и справок по ним. Поисковые машины yandex.ru, rambler.ru, относятся к группе общего назначения. Именно с них следует начинать поиск в Интернете. Причем, поисковая система «Кирилл и Мефодий» на km.ru все же чаще используется для розыска материалов в разного рода энциклопедиях и учебных пособиях, словарях, которые вышли после 1990 г. На AlfaVista – пожалуй наиболее полно представлены материалы, связанные с коммерческой деятельностью, Google – более специализируется на оперативных новостях. На машинах Fast, Инфоарт, ИППИ РАН, Русский интернет и Aпорт! часто можно бывает найти информацию, связанную с куплей-продажей. Следует учитывать, что полностью адрес поисковых машин обычно включает префикс и выглядит примерно так: <a rel="nofollow" href=" " onclick="return false">ссылка скрыта</a>. Некоторые поисковые системы используют чужие поисковые системы. Так система поиска mail.ru на сегодняшний день использует поисковую машину rambler.ru, но выводит информацию в собственном интерфейсе. Язык поисковых запросов Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать различные знаки препинания. Составлять самые простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова, да ещё и если они находятся на строго ограниченном расстоянии друг от друга. Такой поиск с довольно большой вероятностью закончится отрицательным результатом. И здесь о понятии успешности не может быть и речи. Знание и правильное применение языка запросов поисковой машины поможет сделать Ваш поиск быстрым и эффективным. Регистр В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть слова "дом", "Дом", дОМ, "доМ" и "ДОМ" - все будут восприниматься одинаково. Это полностью касается и латиницы. Так, "Not" и "nOt", и даже "noT", "not" и "NOT" все они для поиска однообразны. И лишь иногда, в целях повышения качества поиска, регистр поискового запроса принимается во внимание. Так, если запрос состоит из двух, трех или четырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному, и автоматически производится изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n - количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного "лишнего" слова или знака препинания, например: "М. Лермонтов", "Баден-Баден", "Шарль де Костер", "Федор Михайлович Достоевский" и т.п. Операторы Современные поисковые машины используют операторы для поиска в компьютерных сетях. Под оператором здесь понимается инструкция поиска. По этой причине запрос, включающий несколько слов, может содержать операторы. Поиск указанных операторов в документе не производится. Они служат лишь инструкцией поисковой машине. По этой причине они имеют свою орфографию и синтаксис. Все операторы поисковой машины бинарные связки, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (например группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки. Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу 'самолеты AND авиация' найдутся только те документы, которые содержат и слово 'самолеты', и слово 'авиация' одновременно. Если эти слова встретятся в текстах отдельно, поисковая машина Вам эти тексты не покажет или покажет в конце списка найденных материалов, как только частично отвечающие запросу. Контрольная проверка сформулированного запроса может быть осуществлена по логике фразы: "И ТО И ДРУГОЕ". Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) соответствуют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу 'самолёты OR авиация' будут найдены документы, в которых присутствует хотя бы одно из этих двух слов, либо оба эти слова вместе. Логическая контрольная проверка может быть осуществлена по фразе: "ИЛИ ТО ИЛИ ДРУГОЕ, ИЛИ ОБА ВМЕСТЕ". Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу 'самолёты NOT авиация' будут показаны все документы, в которых есть слово 'самолёты' и при этом в данном документе на установленном расстоянии отсутствует слово авиация. Контрольная логическая проверка может быть осуществлена по фразе: "ПЕРВОЕ, НО ТОЛЬКО БЕЗ ВТОРОГО". Обратите внимание! Если оператор в явном виде не указан, используется оператор по умолчанию AND. Как результат: будут выведены документы, содержащие все слова запроса. Так, запрос информация школа успеваемость будет истолкован как информация AND школа AND успеваемость . На странице Расширенного поиска оператор по умолчанию можно заменить на OR (Искать слова запроса, и выводить даже если встречается хотя бы одно из них). Каждый из операторов имеет своё сокращенное обозначение, соответствие их приведено в таблице. Таблица 1 Операторы и их сокращенное обозначение <CENTER> <table width=463 cellpadding=0 cellspacing=0> <col width=109> <col width=153> <col width=198> <tr> <td width=109> Оператор </td> <td width=153 valign=top> Приоритет </td> <td width=198> Сокращенное обозначение </td> </tr> <tr> <td width=109> AND </td> <td width=153 valign=top> высший </td> <td width=198> & </td> </tr> <tr> <td width=109> NOT </td> <td width=153 valign=top> нижний </td> <td width=198> ! </td> </tr> <tr> <td width=109> OR </td> <td width=153 valign=top> высший </td> <td width=198 valign=top> | </td> </tr> </table> </CENTER> ; Приоритеты логических операторов Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет (см.таблицу 1). В этой связи запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. (Вспомните, для примера, приоритеты арифметических действий. Так знаки "*" и "/" имеют равный приоритет, но больший чем знаки действий "+" и "-"). Изменить порядок группировки можно, как и в математике, используя скобки. Скобки При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Как правило, в большинстве поисковых машин используют только скобки вида ( ). Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются все правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию. Если запрос был задан без скобок, например: 'машина самолет | аэродром', он эквивалентен запросу 'машина AND самолет OR аэродром' . В соответствии с приоритетами операторов, означает "найти документы, содержащие либо слова 'машина' и 'самолет' в одном документе, либо найти в нём слово 'аэродром'. В то время как запрос со скобками 'машина (самолет | аэродром)' равносилен запросу 'машина AND (самолет OR аэродром)', что означает "найти документы, содержащие слово машина и одно из слов самолет или аэродром". Кавычки Для поиска цитат можно использовать типовые (двойные) кавычки, вида « или “. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том виде и в том порядке, как они были заданы Вами в запросе. Это весьма эффективный способ поиска. Его применение обеспечивает успешность более 60%. Здесь важно учитывать только два момента: первое – цитирование должно быть точным; поскольку уже сама форма запроса требует искать «как есть», т.е. без изменения по падежам, числам и лицам; второе – материал, который Вы ищите, как минимум должен быть в Интернете. Запомните, если при такой форме поиска будет допущена грамматическая ошибка, поиск даст отрицательный результат. Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу: теплоход "причалил" посадка удовлетворяет документ, содержащий текст '... теплоход причалил для осуществления посадки пассажиров ...', и не удовлетворяют документы: с'.. теплоход подошел к причалу для посадки пассажиров ...', или '… теплоход был причален и на него была проведена посадка пассажиров…' и т.п. Метасимволы или маски Далеко не всякая поисковая машина может поддерживать поиск строк с использованием метасимволов ('*', '?'), которые обычно используются в значении "любая подстрока" и "произвольный (любой) одиночный символ" соответственно. Тем не менее, эти операторы нередко бывают зарезервированы для подобного использования в будущем. Реализация подобного есть например на <a rel="nofollow" href=" " onclick="return false">ссылка скрыта</a>. Применение языка запросов Каждый запрос, адресованный поисковой машине, обрабатывается в соответствии с правилами языка запросов. Некоторые слова и символы трактуются как операторы языка запросов и обрабатываются специальным образом. Фактически, языком запросов описывается некая формула, которая используется при поиске - каждый из документов "сопоставляется" с ней, и результатом поиска являются только те документы, которые ей удовлетворяют. Например, запросу самолет удовлетворяют все документы, в которых хотя бы раз встретилось слово 'самолет' в любом падеже, включая как единственное, так и множественное число: самолёт, самолеты, самолету, самолетом, самолете, самолетах, самолётам и т.п. Запросу, состоящему из нескольких слов, удовлетворяют документы, содержащие каждое из этих слов в любой форме (при некоторых условиях). Вопрос соответствия документа более сложному запросу определяется логикой операторов и конструкций запроса. При этом, в поисковую строку Вами вводятся, как считают ключевые слова. Строго говоря - это не совсем так. Следует отличать поиск действительно по ключевым словам, указанным как таковые на данном документе в Интернете (вариант используется в расширенном поиске). Это делается в помощью специальных мета-определителей в головной части описания гипертекстового документа. Согласитесь, то что Вы считаете ключевым словом совсем не обязательно должно быть описано автором работы как таковое. В этой связи, правильнее будет назвать подобное - словами, которые по Вашему мнению, обязательно должны быть в требуемых материалах. Морфология языка запросов По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Поисковая машина «понимает» и «различает» слова русского и английского языков - по умолчанию. Поиск ведется, с учетом изменения по склонению, спряжению, числу и лицу, т.е. по всем формам слова; включая даже совпадающие по смысловому значению. Например, при поиске по слову человек будут также найдены документы, содержащие слова 'о человеке', 'человеку', 'человеком', 'человека' и т.п., но и, что особенно важно, даже слова 'люди', 'людям', 'людей' окажутся соответствующими запросу. Чтобы провести поиск только по одной строго определенной форме слова, нужно взять его в двойные кавычки или воспользоваться поиском точной фразы в расширенном поиске. Стоп - слова Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые стоп - слова - самые частотные слова русского и английского языков, например, предлоги, частицы и артикли. Очень часто опускаются апострофы и тире. Большинство поисковых машин их знают и сами освобождают от них сформулированный Вами запрос. Это связано с тем, что факт присутствия этих слов может заметно замедлить поиск и отрицательно повлиять на его результат и полноту, а, в конечном итоге, и успешность. В тоже время есть возможность обозначить необходимость этих слов в запросе. Для этого, как мы уже знаем, следует взять запрос в двойные кавычки или воспользовавшись поиском точной фразы в расширенном поиске. Ограничение расстояния Если запрос составлен из нескольких слов без применения операторов и конструкций языка запросов, то машина будет пытаться найти документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда вводится так называемое ограничение контекста - положительное число. По умолчанию принимается расстояние равное 40 словам. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние между словами запроса будет меньше этого числа. Например, по запросу российская армия будут найдены те документы, в которых слова российская и армия хотя бы один раз встретятся на расстоянии менее чем в 40 слов друг от друга. Причем, чем ближе они друг к другу окажутся – тем выше будет и уровень их соответствия запросу. Значение ограничения контекста можно изменять конструкцией '(число, запрос)', где число - любое положительное число, запрос - любой корректный с точки зрения поисковой машины, запрос, состоящий более чем из одного слова (очевидно, ограничение расстояния между словами в случае однословного запроса не имеет смысла). Таким образом, по запросу (2, армии НАТО) проводится поиск только тех документов, в которых между словами НАТО и армии хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше 2, т.е. равна 1). Ненайденные слова Если запрос состоит из нескольких слов, и при этом подобный набор слов вообще не удалось найти в Интернете, будут выданы результаты поиска по частичному соответствию данному запросу, из которого отсутствующие в Интернете слова исключены. (Подробнее будет описано далее). При этом на странице результатов поиска будет выведена соответствующая диагностика. В большинстве случаев она выдается в процентах соответствия (ролевантности), которые рассчитываются по специальной формуле с учетом полноты соответствия каждого из слов, расстояния между словами запроса, соответствие лица и числа, окончания и т.п. Базовый алгоритм поиска 1. Прежде всего, определите, к какому разделу относится искомая информация. 2. Определитесь какую именно поисковую машину Вам лучше использовать. Учитывайте её специфику. 3. Выявите основные слова (или словосочетания), которые характерны для той информации, которую Вы ищите. Попробуйте выявить ключевые слова. 4. Задавая отдельные слова и фразы, учитывайте язык запросов, операторы поиска, логические связки искомых слов и т.п. элементы, которые делают поиск значительно более эффективным. 5. Если Вам известна точная фраза из искомых материалов, используйте её как цитату. 6. После проведения предварительного поиска (или первой ступени поиска), если выдано довольно большое количество документов, Вы можете воспользоваться элементом уточнения: "Искать в избранном". При этом задание поиска следует обязательно уточнить, введя хотя бы одно новое слово или ограничение, которое по Вашему мнению поможет провести правильный отбор требуемого материала. 7. Грамотно располагайте материал и проводите его сортировку по удобным для Вас признакам. Это заметно ускорит последующую обработку материала. 8. Фиксируйте все интересные для Вас найденные адреса документов в Интернете (например, с помощью программы Блокнот). Затем выбирите среди них нужные для выполнения конкретной работы <h4> Список использованной литературы</h4> Павел Храмцов "Поиск и навигация в Internet". <a rel="nofollow" href=" " onclick="return false">ссылка скрыта</a> Обучение Интернет-профессиям. Search engine Expert. <a rel="nofollow" href=" " onclick="return false">ссылка скрыта</a> Андрей Аликберов "Несколько слов о том, как работают роботы поисковых машин". <a rel="nofollow" href=" " onclick="return false">ссылка скрыта</a> nom.ru </h6></h2></meta>

Поисковые системы

Содержание

Введение

Поисковые системы