Основные понятия информационного поиска информационные процессы и системы
Вид материала | Документы |
- Полный курс лекций по Информационным системам информационные системы, 787.33kb.
- Конспект лекций для специальности «Прикладная информатика в экономике», 1468.57kb.
- Организационные основы информационных технологий в экономике, 44.75kb.
- Информационные системы (теория к экзамену) Основные понятия информационных систем, 82.21kb.
- Курсовая работа предмет: Информационные системы Тема: Языки информационного поиска, 154.92kb.
- Информация и информационные процессы, 276.11kb.
- Справочно-информационные системы в подготовке юриста, 31.18kb.
- 1 Информация. Кодирование информации, 59.79kb.
- Инициативный проект Российского семинара по оценке методов информационного поиска (ромип), 149.92kb.
- Программа по дисциплине «прикладные протоколы интернет и www» по направлениям: «Математика., 234.28kb.
<МЕТА name="robots" content="index, follow">
<МЕТА name="description" content="Созвездие -детский ансамбль бального танца">
<МЕТА name="author" content="A. Podkorytova">
В данном примере роботам предписывается индексировать данную веб-страницу и все страницы, к которым на данной имеются гиперссылки.
3.5.4. Поисковая база данных и поисковая система
После того как ресурсы выявлены, начинается построение поисковой базы данных — индекса. Индексный файл (или просто индекс) представляет собой набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зависят от многих факторов: алгоритм работы робота, размер массива поисковых образов, информационно-поисковый язык, критерий смыслового соответствия, размещение различных компонентов системы и т. п. В основе индекса всегда лежит инвертированный файл. Инвертированный файл ставит в соответствие каждому ключевому слову документа список, содержащий идентификатор веб-страницы, содержащей это слово, позицию слова в документе в тех или иных терминах (например, идентификатор поля, номер предложения, номер слова). Указание положения слова в тексте с точностью до номера предложения и номера этого слова в предложении позволяет построить гибкий язык запросов, позволяющий задавать расстояние между словами и предложениями в документе. Позиционные характеристики также используются при вычислении коэффициента релевантности и ранжировании документов в выдаче.
Третьим основным компонентом вербальной ИПС является поисковая система, которая при получении запроса пользователя просматривает индекс с учетом формулы запроса и других параметров, оценивает релевантность документов и возвращает пользователю ранжированный список документов.
Важным фактором и характеристикой вербальных ИПС являются так называемые интерфейсные веб-страницы, т. е. экранные формы, через которые пользователь задает запрос (поисковое предписание) и через которые он получает результаты. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска. Примеры их приведены на рис. 3.2 и 3.3.
Поиск в индексе—это операции над списками идентификаторов страниц в соответствии с моделью поиска и критерием соответствия. Например, при булевой модели это объединение (для операции дизъюнкции), пересечение (для конъюнкции) или дополнение (для отрицания). В ИПС в сети Интернет нередко используются гибридные модели, чаще всего являющиеся комбинацией логической и векторной моделей поиска29.
Результирующий список релевантных документов (в современной терминологии «отклик»), который преобразуется в ранжированный список заголовков (кратких описаний документов), снабженных гипертекстовыми ссылками и другими характеристиками (данные о дате создания документа, его объеме, кодировке, сведения о сайте и пр.), возвращается пользователю в его клиентскую программу-броузер. Щелчок по ссылке к одному из документов запрашивает этот документ либо непосредственно с того сервера, на котором он находится, либо через базу данных поисковой системы.
Не ставя целью подробный разбор интерфейсов, обратим лишь внимание на дополнительные возможности поиска в системе Google (рис, 3.3): у каждого описания документа дается ссылка «(Искать) Похожие страницы», а в самом конце выходной интерфейсной страницы Google задан режим «сужающего» поиска: «Поиск среди результатов». У документов на иностранных языках (не английский) можно увидеть ссылку «Перевести этот документ».
Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса и моделью поиска.
3.5.5. Методы ранжирования результатов поиска
Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:
количество слов из запроса в текстовом содержимом документа; элементы (теги), в которых эти слова располагаются (повышенный вес имеют теги заголовков, поля МЕТА, гиперссылок и т. п.);
• местоположение искомых слов в документе (чем ближе к началу, тем выше значимость термина);
удельный вес слов (относительная частота), относительно которых определяется релевантность, в общем количестве слов документа. Эти принципы применяются практически всеми поисковыми системами. Кроме того, учитывается:
- • «время жизни» - как долго веб-страница находится в базе поискового сервера30;
- индекс цитируемости - как много ссылок на данный документ ведет с других веб-страниц, зарегистрированных в базе ИПС;
- индекс популярности - как часто пользователи обращались к данному документу.
3.6. Языки запросов вербальных ИПС
Структура языков запросов была дана в гл. 2, п. 2.4.1. В разных системах, в разных поисковых ситуациях эта модель реализуется по-разному.
Различают два способа задания поискового предписания: либо заполнение формы типа «анкета», либо ввод всего поискового предписания в специальном окне на интерфейсной странице. Анкетно-запросную форму системы Рамблерсм. выше на рис. 3.2. Этот вариант позволяет ввести список терминов и выбрать тип логической связи между ними. Все дополнительные условия и ограничения поиска, как правило, выбираются в соответствующих разделах формы. Во втором случае большинство режимов (условий поиска) предполагается по умолчанию, а в окне запроса пишется простая или сложная формула поискового предписания в виде скобочной записи. В этом случае можно составить запрос в виде сложного логического выражения, но от пользователя требуется знание всех тонкостей языка запросов.
3.6.1. Выражение информационной потребности
Основу ПП составляют поисковые термины (ключевые слова), выражающие тематическую (предметную) информационную потребность.
При формулировке поискового предписания следует выделить основную тему запроса и ее подтемы, которые мы называем аспектами («что», «кто», «где», «когда», «как», «при каких условиях и обстоятельствах»). Такую схему, похожую на синтаксическую модель предложения, можно рассматривать как семантический конструкт запроса3*. Исследования и практика показывают, что, как правило, таких подтем (аспектов) в хорошо сформулированном запросе — три-четыре32.
В Интернете практически все ИПС представляют собой системы вербального типа, и аспекты запросов в поисковых предписаниях выражаются с помощью слов естественного языка, при этом таких, использование которых существенно для выражения основного содержания запросов и документов. Слова, несущественные с этой точки зрения, в запрос не включаются. Во многих системах эти «несущественные» слова игнорируются автоматически, даже если они присутствуют в запросе (с оповещением об этом пользователя или без оного). Общая методика составления поисковых предписаний описана в разд. 2.4.2.
3.6.2. Поисковые операторы
Основные булевы операторы, используемые в ИПС: AND, OR, NOT. На запрос с булевым выражением с оператором AND выдаются документы, содержащие оба (все) поисковые элементы, объединенные этим оператором. Оператором AND объединяются поисковые элементы, описывающие каждый аспект данного запроса. Оператор AND сужает множество результатов поиска и уменьшает число релевантных документов по сравнению с поиском по каждому отдельному поисковому элементу. В теории множеств этому оператору соответствует операция пересечения.
На запрос с булевым выражением с оператором OR выдаются документы, содержащие хотя бы один из поисковых элементов, объединенных этим оператором. Оператор OR расширяет результаты поиска и увеличивает число релевантных документов по сравнению с поиском по каждому отдельному поисковому элементу. Оператором OR, как правило, объединяются поисковые элементы, находящиеся в отношении поисковой синонимии (т. е. все лексические синонимы и/или условные синонимы, описывающие один и тот же аспект запроса). Таким образом для того чтобы признать какой-либо документ соответствующим данному аспекту запроса, достаточно обнаружить в нем хотя бы один из поисковых элементов, описывающих этот аспект. В теории множеств этому оператору соответствует операция объединения.
Оператор NOT - одноместный оператор, но часто понимается как AND NOT. Этот оператор удаляет из массива (как правило, это массив документов, релевантных левой части запроса) все документы, содержащие поисковый элемент, стоящий справа от оператора NOT. Как результат, выдаются все оставшиеся документы. В теории множеств этому оператору соответствует операция дополнения. Пользоваться оператором NOT следует только тогда, когда мы точно уверены, что любое употребление поискового элемента в документе свидетельствует о нерелевантности документа запросу.
Кроме того, используются специальные контекстные операторы, которые могут быть отнесены к грамматическим средствам ИПЯ. Фактически это оператор AND с контекстными ограничениями (условиями) на расстояние между терминами или на порядок их следования. Главный из них - phrase, оператор для устойчивых словосочетаний, требующий, чтобы слова ПП, объединенные этим оператором, в документе стояли рядом. Операторы словосочетаний должны использоваться обязательно, когда два или более слов образуют новое понятие (соответствующее отдельному денотату), например, «Красная книга», «желтая пресса», «железная дорога» и т. п. Для систем Интернета, обеспечивающих поиск по документам большого объема, использование контекстных операторов позволяет повысить точность поиска.
3.6.3. Дополнительные условия поиска
Ограничение по месту
Мы можем запросить (заказать) поиск только по тем документам, которые находятся на серверах, размещенных в определенных местах. К сожалению, возможности здесь не так велики, так как нет стандартной «адресной карты», приписанной каждому серверу. Наиболее общий способ — это ограничение области поиска «по месту» через задание ограничительного условия на URL. Напомним, что символический доменный адрес компьютера в сети в качестве домена верхнего уровня имеет 2-символьный код страны (другое название — географический домен), который кодируется в соответствии со стандартом ISO-3166. Всего имеется более 230 географических доменов, из которых 190 регулярно используются. Например: ru - Россия, fr - Франция, ua -Украина, cz - Чехия. В США домен верхнего уровня для этой страны -us - как правило, не используется. Вместо него употребляются коды типов организаций:
com - компании и другие коммерческие организации;
edu - наука и образование;
gov — правительственные учреждения;
mil - военные организации;
net - провайдеры сети Интернет;
org - бесприбыльные организации.
Планируется ввод дополнительных кодов (некоторые уже введены):
arts - организации культуры и сферы развлечений;
biz - бизнес;
firm - фирмы;
info - информационные службы;
пот - частные лица;
гее — отдых и развлечения;
store - торговля через Интернет;
web - организации, деятельность которых связана с WWW.
В последнее время коды типов организации начинают применяться и в других странах, вместо или наряду с кодами стран.
Например: www.spb.edu - сервер Санкт-Петербургского университета; www.sw.edu.au - сервер университета штата Южный Уэлс, Австралия.
Многие поисковые системы позволяют в запросах ввести специальное поле для проведения поиска по URL (url=).
Ограничение по дате
В запросе обычно задается поисковым элементом date= или выбором соответствующего элемента меню. Широко распространено. Иногда бывает очень полезно, когда требуется информация, произведенная в определенный период времени (чаще всего свежая). Ограничение поиска по дате позволяет также проводить повторные поиски по тому же запросу, начиная с даты последнего поиска. Недостатком поиска по дате в большинстве систем является то, что этот поиск производится по дате индексирования документа, т. е. включения его в базу данных поисковой службы. Дело в том, что не все веб-дизайнеры вводят дату создания документов в специальное поле в теге МЕТА и не все ИПС это поле индексируют.
Поиск по ссыпкам
Имеются два вида поиска по гиперссылкам: или искать по тексту (слову или словосочетанию), заключенному в элементе гиперссылки внутри контейнера А: <А>...А>, или по адресу ссылки (URL) в самом теге (параметр HREF). В первом случае в запросе обычно задается поисковый элемент anchor=, во втором — link=.
Поиск по заглавию
На запрос, содержащий поисковый элемент title=, где в качестве параметра задается слово или словосочетание, выдаются документы, где заданный поисковый параметр содержится в составе тега
Поиск по специальным объектам
Имеется возможность искать и выдавать документы, в тексте которых имеются объекты определенного типа, как-то: апплеты, графические файлы, другие типы файлов. Для каждого из таких объектов имеются специальные поисковые элементы (applet=, image=,file typis= и др.). Решение о выдаче документов принимается при совпадении поискового параметра с именем или расширением апплета или файла.
Поиск в глубину
Этот режим поиска задается поисковым элементом depth—. При этом обеспечивается возможность искать и выдавать дополнительные документы с определенного сайта. Параметр «depth» определяет глубину «гнездования» искомых документов (количество уровней перехода по ссылкам).
3.7. Обзор вербальных систем 3.7.1. Основные вербальные ИПС
Количество вербальных ИПС в сети составляет несколько сотен. В качестве иллюстрации приведем их классификатор и небольшой список из каталога Open Directory (Приложение 6).
История ИПС в сети Интернет, отсчет которой можно начать с 1994 г., несмотря на короткий срок, весьма богата. И, как и история информационно-поисковых систем вообще, развивается «по спирали». В первые годы наблюдалось постоянное наращивание набора и мощи поисковых средств, в первую очередь языков запросов и, соответственно, критериев смыслового соответствия. В последние годы многие «тонкие» средства показали свою неэффективность или невостребованность и ушли в прошлое (временно?). Часто вместе с системами33. Одни системы не выдерживают конкуренции и сходят со сцены (самая известная из них InfoSeek, которая по сей день упоминается во всех публикациях на тему ИПС сети), другие приходят им на смену. Самая успешная система на начало 2002 г., Google, вообще появилась всего лишь два года с небольшим тому назад.
Как уже говорилось, полнота и оперативность индексирования вебсайтов является главной проблемой ИПС в Интернете. Оба эти показателя неуклонно снижаются. Появилась услуга ускоренного индексирования за плату.
К числу главных поисковых систем вербального типа (в первую очередь, по объему базы данных) по состоянию на конец 2001 г. можно отнести: Fast Search (AHTheWeb&Lycos)34, AltaVista, Direct Hit, Excite, Google, HotBot, Inktomi35, iWon, Lycos, MSN, NBCi (раньше Snap), Northern Light, Teoma, WiseNut (табл. 3.4). Все они сильно отличаются объемом базы данных, языком запросов, алгоритмами ранжирования и другими особенностями.
Косвенным свидетельством верности данного распределения являются результаты 25 поисков по одним и тем же запросам в девяти системах, полученные компанией Searchengineshowdown.Com (табл. 3.5).
Как видим, системы с большим объемом базы дают в результате поиска и большее количество документов.
Среди российских систем главные — Яндекс (Яп<1ех), Рамблер (Rambler), Апорт (Aport). Других, хоть как-то приближающихся к ним, по существу, нет. Для полноты информации можно упомянуть еще
Таблицу 3.4
Объем баз данных поисковых систем
Ранг | ИПС | Объем БД (млн док-тов) |
1 | | 730 |
2 | Fast | 552 |
3 | WISEnut | 510 |
4 | Northern Light | 369 |
5 | Hotbot | 364 |
6 | AltaVista | 346 |
7 | MSN Search | 334 |
Таблица 3.5
Сравнительные результаты поиска
Ранг | ИПС | Суммарное кол-во найденных док-тов |
1 | | 6.567 |
2 | Fast (AllTheWeb) | 4.969 |
3 | WISEnut | 4.587 |
4 | Northern Light | 3.321 |
5 | HotBot | 3.277 |
6 | AltaVista | 3.112 |
7 | MSN Search | 3.005 |
8 | Teoma | 2.219 |
9 | Direct Hit | 381 |
системы TELA-ПОИСК (ru/) и «Русская машина поиска» (terrussia.com/). Заслуживает упоминания за свое лингвистическое обеспечение ИПС «Следопыт», но она давно уже недоступна в сети.
Яндекс. Самая крупная информационно-поисковая система российского Интернета (Рунет). Яндекс является оригинальной разработкой фирмы CompTek. Количество уникальных проиндексированных серверов около 500 тысяч. Количество документов: более 68 млн веб-страниц (по состоянию на июль 2002 г.). Объем проиндексированной информации: более 1160 Гб. Выполняет поиск с учетом русской морфологии. Имеет очень мощный язык запросов.
Апорт. Поисковая система «Апорт» разработана компанией «Агама». Объем базы данных — более 14 млн веб-страниц (по состоянию на начало 2001 г.). Понимает все кириллические кодировки и выполняет поиск с учетом морфологического анализа. Гибкий язык запросов, имеется возможность перевода запроса с русского на английский язык и наоборот.
Рамблер. Принадлежит компании Stack Ltd. Объем базы данных -более 12 млн веб-страниц (по состоянию на начало 2001 г.). Поддерживает рейтинг русских страниц Тор 100. Списки веб-страниц в рейтинге разбиты на тематические группы, и многие пользователи используют данный рейтинг как каталог. Зарегистрировано 40 853 серверов (май 2000).
Основные отличительные особенности главных зарубежных поисковых систем.
Google. Одна из самых больших поисковых баз данных. Высокая оперативность ее пополнения. Удачные методы ранжирования. Чрезвычайно быстрый поиск. Умеет индексировать документы в форматах DOC и PDF. Хранит в базе данных образы веб-страниц на момент их индексации.