Тема. Интернет. Протоколы, службы Интернет, поиск в Интернет
Вид материала | Документы |
- Урок по теме: "Поиск информации во Всемирной паутине", 96.8kb.
- Лекция – Семинар 2 Информационный поиск и информационные ресурсы Интернет, 161.64kb.
- Какую роль играют протоколы в сети Интернет, 135.8kb.
- Ов, по, 3-мерной мультипликации и информационных систем, помогающих компаниям интегрироваться, 66.51kb.
- Интернет и бизнес». 17 февраля 2012 года в Ульяновске состоится семинар «Интернет, 43.24kb.
- Исследовательная работа по дисциплине «технология научных исследований» на тему «общение, 243.98kb.
- Что такое Интернет, 44.71kb.
- Методика: анкета, направленная на исследование вовлеченности в интернет; семантический, 14.95kb.
- А. Б., Юматов К. В. Обзор интернет-ресурсов по культуре Кемеровской области, 162.78kb.
- А. Теленкова интернет-relations исследование моделей Интернет-присутствия, 191.68kb.
Модели поиска информации
Модель поиска информации характеризуется четырьмя параметрами:
- Представление документов и запросов;
- Методами сопоставления, применяемыми для оценки релевантности документа запросу пользователя;
- Методами ранжирования результатов запроса;
- Механизмами обратной связи, обеспечивающими оценку релевантности пользователем.
Подобные модели принадлежать к одному из четырех типов: теоретико-множественные, алгебраические, вероятностные и гибридные. Подробное описание можно найти в статье (см. выше).
Особенности поисковых систем
Каждая поисковая система обладает рядом особенностей. Эти особенности следует учитывать при изготовлении своих страниц. Ниже приведена сравнительная таблица основных поисковых систем.
Тип поисковой систем
"Полнотекстовые" поисковые системы индексируют каждое слово на web-странице, исключая лишь некоторые стоп-слова. "Абстрактные" поисковые системы создают некий экстракт каждой страницы. Однако может случиться, что для абстрактных поисковых систем страницы проиндексированы лучше, чем для полнотекстовых. Это может исходить от алгоритма экстрагирования, например, по частоте употребления в странице одних и тех же слов.
Размер
Размер поисковой системы определяется количеством проиндексированных страниц. Например, в поисковой системе с большим размером могут быть проиндексированы почти все ваши страницы, при среднем объеме ваш сервер может быть частично проиндексирован, а при малом объеме ваши страницы могут вообще не попасть в каталоги поисковой системы.
Период обновления
Поскольку Web изменяется непрерывно, поисковые системы индексируют все без учета даты. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы пользователей, могут быть однодневной давности, а могут быть и месячной давности, а то и больше. Вот некоторые причины, по которым это происходит:
- некоторые поисковые системы сразу индексируют страницу по запросу пользователя, а затем продолжают индексировать еще не проиндексированные страницы
- другие чаще могут "ползать" по наиболее популярным страницам сети, чем по другим.
Дата индексирования документа
Некоторые поисковые системы показывают дату, когда был проиндексирован тот или иной документ. Это помогает пользователю понять, какой "свежести" ссылку выдает поисковая система. Другие оставляют пользователям только догадываться об этом.
Указанные (submitted) страницы
В идеале поисковые системы должны найти любые страницы любого сервера в результате прохода по ссылкам. Реальная картина выглядит по-другому. Станицы серверов гораздо раньше появляются в индексах поисковых систем, если их прямо указать (Add URL).
Не указанные (non-submitted) страницы
Если хотя бы одна страница сервера указана, то поисковые системы обязательно найдут следующие страницы по ссылкам из указанной. Однако на это требуется больше времени. Некоторые системы сразу индексируют весь сервер, но большинство все-таки, записав указанную страницу в индекс, оставляют индексирование сервера на будущее.
Частота появления ссылок
Основные поисковые системы могут определить популярность документа по тому, как часто на него ссылаются из других мест Интернет. Некоторые системы на основании таких данных "делают вывод" стоит или не стоит тратить время на индексирование такого документа.
"Способность к обучению"
Если сервер обновляется часто, то поисковая система чаще будет его реиндексировать, если редко - реже.
Стоп-слова
Некоторые поисковые системы не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или просто очень часто использующиеся слова. А не включают их ради экономии места на носителях. Например, Altavista игнорирует слово web и для запросов типа web developer будут выданы ссылки только по второму слову. Существуют способы избежать подобного.
Title
Этот параметр показывает, как поисковые системы генерируют заголовки ссылок для пользователя в ответ на его запрос.
Description
Этот параметр показывает, как поисковые системы генерируют описания ссылок для пользователя в ответ на его запрос.
Таблица 1. Список поисковых инструментов.
Alta Vista | .digital.com |
Excite | e.com |
GNN Subscriber Info | om |
HotBot | t.com/ |
InfoSeek | eek.com/ |
Lycos | .com/ |
Netscape Search | cape.com/home/internet-serach.phpl |
Open Text Web Index | ext.com:8080/ |
Starting Point | om/ |
Yahoo Search Server | .com/ |
Web Crawler | awler.com |
Virtual Legal Search Engines | scape.com/frankvad/search.legal.php |
Sherlock – The Internet Consulting Detective | mediacy.com/sherlock/ |
Search Engine Watch | henginewatch.com |
EuroSeek | eek.net |
Russian Express | h.ru |
Rambler | er.ru |
TELA Поиск | u/ |
Русская машина поиска | terrussia.com |
Апорт | ama.com/aport/ |
Янdex | x.ru:8081 |
Comptek Altavista: поиск по-русски | ek.ru/alta.phpl |
OpenWeb | eb.ru/ |
Поиск по архивам российской периодики | anstory.com |
Метапоисковая система «Следопыт» | nfoart.ru |
Украинские ресурсы Интернет | net |
Поисковый сервер Filez (поиск ftp-ресурсов) | .com |
SoftSeek Internet | eek.com/internet |
WINDex – The Windows index – поиск ПО для Win’95, NT | ci.net |