А. В. Репин Уфимский государственный авиационный технический университет, Уфа e-mail: lex@rb ru Доклад

Вид материалаДоклад
Подобный материал:

ИНФОРМАЦИОННО-ПОИСКОВАЯ СИСТЕМА СЕРВЕРОВ РЕСПУБЛИКИ БАШКОРТОСТАН

А.В.Репин

Уфимский государственный авиационный технический университет, Уфа

E-mail: lex@rb.ru


Доклад посвящен созданию информационно-поисковой системы серверов республики Башкортостан. При росте числа серверов и объеме хранящейся на них информации, рано или поздно возникает необходимость в систематизации и индексировании имеющихся ресурсов, для осуществления быстрого поиска по запросу. Web-пространство республики содержит информацию о банках, государственных и коммерческих организациях, научных и образовательных учреждениях. Представлены также страницы коммерческих фирм и частных лиц. Уфимский государственный авиационный технический университет в лице информационно-технического центра "Компьютеры и телекоммуникации" первым в регионе подошел к тому, чтобы решить проблему поиска информации на уровне передовых технологий с привлечением имеющегося у нас научного потенциала.

Так как главную роль играет необходимость автоматизации процесса поиска, то предполагается построить систему Web-поиска, основываясь на следующих компонентах:

Client (клиент) – программа просмотра конкретного информационного ресурса (Netscape Navigator, Mosaic, Internet Explorer).

User interface (пользовательский интерфейс) – способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска.

Search engine (поисковая машина) – служит для трансляции запроса на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.

Index database (база данных индекса) – индекс, является основным массивом данных ИПС и служит для поиска адреса информационного ресурса.

Queries (запросы пользователя) – сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.

Index robot (робот-индексировщик) – служит для сканирования Интернет и поддержания базы данных индекса в актуальном состоянии.

WWW sites – информационные ресурсы, просмотр которых обеспечивается программами просмотра.

Документальным массивом, по которому будет вестись поиск, является множество документов следующих типов: WWW-страницы, Gopher-файлы, документы WAIS, записи архивов FTP. Для просмотра и индексирования меняющегося содержимого Web-серверов необходимо использовать робота-индексировщика. Робот просматривает сеть, находит новые ресурсы, приписывает им термины и помещает в базу данных индекса. Роботу для индексирования необходимо использовать следующие источники для пополнения своих виртуальных словарей: гипертекстовые ссылки, заголовки, заглавия, аннотации, списки ключевых слов, полные тексты документов, а также сообщения администраторов о своих Web-страницах. Для индексирования telnet, gopher, ftp, нетекстовой информации используются главным образом URL. В процессе индексирования строится поисковый образ документа.

Для ускорения поиска, после построения поискового образа документа, строится индекс, представляющий собой набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. Индекс состоит из таблицы идентификаторов страниц (page-ID), таблицы ключевых слов (Keyword-ID), таблицы модификации страниц, таблицы заголовков, таблицы гипертекстовых связей, инвертированного (IL) и прямого списка (FL). Результат поиска – это объединение и/или пересечение списков идентификаторов страниц. Результирующий список, который преобразовывается в список заголовков, снабженных гипертекстовыми ссылками, возвращается пользователю в его программу просмотра Web. Важным фактором является вид представления информации в программе-интерфейсе. Различают два типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

Альтернативой систем Web-поиска являются поисковые системы каталогового типа (директории). Директории представляют собой списки URL-адресов с короткими описаниями. Для облегчения поиска внутри списков производится их многоуровневая рубрикация. Рубрикация ресурсов производится на основе их описаний, которые обычно делаются вручную специально собранной командой. Таким образом, если создание систем Web-поиска – это работа программистов (дальше они нуждаются в присмотре, но способны работать самостоятельно), то директории – результат постоянной ручной работы специалистов по обработке информации.

В докладе были рассмотрены два основных типа информационно-поисковых систем и принципы их построения. Сегодня ИПС являются наиболее мощным механизмом поиска сетевых информационных ресурсов Интернет. Мы надеемся, что проект по созданию ИПС серверов республики Башкортостан осуществится успешно, и следующий доклад будет посвящен уже особенностям его работы.