Сборник научных трудов

Вид материалаДокументы

Содержание


Типовые программные средства
Программный комплекс доступа
Библиотека Конгресса США.
Bibliotheks-Verbund Bayern (BVB) – Subito.
ГПНТБ России.
Библиотека Агропрома. Д
Простой, стандарт
Подобный материал:
1   2   3   4   5   6   7   8   9   ...   14
Н.Е. Каленов, С.А. Власова, А.В. Глушановский

ТИПОВЫЕ ПРОГРАММНЫЕ СРЕДСТВА
ДЛЯ ПРЕДОСТАВЛЕНИЯ БИБЛИОГРАФИЧЕСКИХ РЕСУРСОВ БИБЛИОТЕК В ЭЛЕКТРОННОМ ВИДЕ


Библиографические ресурсы, накопленные в российских библиотеках, составляют значительную часть информационных ресурсов страны. Достаточно важной частью этих ресурсов являются картотеки трудов сотрудников, которые в течение десятилетий ведутся в библиотеках институтов РАН. В них содержится библиография, отражающая практически всю историю развития отечественной науки. Это — миллионы библиографических описаний, перевод которых в электронную форму позволил бы создать не только мощную информационную систему, но и основу для проведения серьезных исследований, связанных с историей науки, тенденциями ее развития, различными наукометрическими аспектами.

Идея создания такой системы, названной "Наука России", возникла в БЕН РАН и была поддержана Российским фондом фундаментальных исследований (РФФИ), который предоставил грант для разработки типовых программных средств, на основе которых можно было бы обеспечить децентрализованную подготовку библиографических баз данных в библиотеках и возможность их последующего слияния. Именно такой подход (создание двухуровневой системы, предусматривающей распределенную подготовку данных) представляется единственным практически реализуемым, поскольку централизованный ввод данных потребовал бы непомерно больших ресурсов.

В процессе выполнения работ по гранту в 1996 г. специалистами БЕН РАН был разработан комплекс программ ("РОНА-Л"), представляющий, с точки зрения пользователя, достаточно простую систему, ориентированную на библиотечного работника, имеющего минимальные навыки работы с компьютером. Комплекс не требует значительных вычислительных ресурсов (поскольку библиотеки научных учреждений, как правило, не имеют мощных компьютеров), может работать на ПК, начиная с IBM AT/286, поддерживается оригинальным программным обеспечением, написанным на языке "СИ" в среде MS-DOS.

При разработке комплекса значительное внимание уделялось обеспечению простоты и прозрачности пользовательского интерфейса (экранным формам, с которыми работает пользователь), исключению возможности попадания в нештатные ситуации при случайном нажатии клавиш, минимизации объема ввода идентичной информации.

Комплекс обеспечивает поддержку четырех взаимосвязанных подбаз данных, содержащих сведения, соответственно, об организациях, персоналиях (в частности, авторах публикаций), публикациях на аналитическом и монографическом уровнях, источниках на свод­ном уровне (журналах, сборниках и т.п.). Каждая из подбаз в процес­се инсталляции может быть легко настроена на требуемое количество и вид полей данных. При этом поля могут иметь фиксированную (до 100б) или переменную (до 10 000б) длину; любые поля могут быть объявлены обязательными для ввода, значения полей при вводе данных могут выбираться из списков (например, виды издания, научная степень автора), иерархических файлов (например, рубрикатор ВАК или рубрикатор ГРНТИ), копироваться из уже введенных полей других записей.

Первоначально основные функции комплекса "РОНА-Л" ограничивались настройкой, контролируемым вводом данных и минимальными поисковыми возможностями. Слияние баз данных, развитые возможности поиска и вывода информации планировалось реализовать в рамках центрального комплекса системы "Наука России", который должен был поддерживаться одной из стандартных СУБД на мощном компьютере.

Однако в процессе эксплуатации комплекса "РОНА-Л" в библиотеках РАН у пользователей возникли потребности в расширении его возможностей за счет включения функций, первоначально планировавшихся только для центрального комплекса.

В настоящее время программное обеспечение комплекса "РОНА-Л" обеспечивает:

— ввод информации в интегрированную БД в диалоговом режиме; данные могут вводиться автономно в подбазы персоналий, источников и организаций или комплексно во все подбазы с автоматическим переходом из одной в другую и формированием внутренних перекрестных ссылок. При этом ранее введенные записи используются для создания необходимых ссылок без повторного их ввода. Это позволяет, с одной стороны, использовать централизованно подготовлен­ные "authority files", в первую очередь, организаций и источников, с другой — различать при вводе и поиске публикации различных авторов, имеющих одинаковые фамилии и инициалы;

— коррекцию (доввод) ранее введенной в любую подбазу информации. Возможно не только корректировать информацию в существующих полях данных, но и довводить новые поля выборочно или подряд во все записи базы;

— пакетный ввод данных, полученных в результате поиска по базе данных Science Citation Index на CD-ROM;

— создание системы индексных файлов по любому полю любой подбазы;

— традиционный для всех ИПС поиск записей в отдельных подбазах по всем полям, их фрагментам и сочетаниям, связанным логическими условиями ("и", "или", "равно", "не равно", "больше", "меньше"); поиск с "маскированием" ключевых элементов. Кроме того, за счет обработки перекрестных ссылок система предоставляет возможность автоматического получения информации из различных подбаз на основе обработки запроса к одной из них;

— краткий и полный просмотр найденных записей, отбор записей из найденных и вывод в файл в различных форматах. При этом имеется возможность вывода информации в формате исходной БД, что позволяет формировать ее фрагменты для последующей работы с ними. Имеется также генератор отчета, позволяющий формировать текстовые файлы различного вида, в частности, в виде последовательности библиографических описаний в структуре ГОСТ 7.1-84;

— слияние баз данных, сформированных на различных рабочих местах, но имеющих одинаковые поля фиксированной длины и "непротиворечащие" друг другу поля переменной длины (одина­ковые по смыслу данные должны иметь одинаковые метки при инсталляции).

Одной из серьезных проблем, возникающих при децентрализованной подготовке библиографической информации, является появление логически дублированных записей (библиографических описаний, относящихся к одним публикациям), выявление которых стандартными средствами СУБД во многих случаях невозможно из-за различий в описаниях документов. В связи с этим возникает задача разработки специальных методов, алгоритмов и програм­много обеспечения для выявления и исключения подобных записей. В процессе создания комплекса "РОНА-Л" эта задача была решена. Специальный программный модуль анализирует записи базы данных, выявляет среди них пары "подозрительных" на дублирование и предлагает администратору решить, какую запись удалить или оставить обе.

Комплекс "РОНА-Л" включает также набор сервисных программ, позволяющий производить все необходимые операции по обслуживанию системы.

Эксплуатация комплекса ведется с 1996 г. Он установлен и работает в ряде библиотек НИИ РАН и других ведомств. На его основе силами библиотек нескольких организаций создана и поддерживается в Институте физики Земли РАН библиографическая БД по отечественным публикациям в области геофизических методов разведки полезных ископаемых. В настоящее время эта БД включает более 50 тыс. документов. В процессе ее формирования путем "слияния" БД, сформированных в различных организациях на основе имеющихся там картотек, программным образом было выявлено и исключено значительное число дублированных записей, которые возникли из-за того, что в картотеках различных организаций имелись описания одних и тех же работ.

Разработка комплекса "РОНА-Л" велась в тесном контакте с библиотечными специалистами, по их замечаниям и пожеланиям, высказываемым в процессе эксплуатации, было проведено много доработок его программного обеспечения в части пользовательского интерфейса, добавления новых поисковых возможностей, разнообразия форм выдачи информации. В результате, как показала практика, комплекс удовлетворяет требованиям пользователей, он достаточно удобен для формирования библиографических баз данных в библиотеках. Любой неподготовленный пользователь, знакомый лишь с клавиатурой компьютера, осваивает работу по вводу и поиску данных в течение одного дня. На основе комплекса в ряде библиотек построены системы ИРИ, подготавливаются различные библиографические списки.

БЕН РАН готова передать на договорной основе программное обеспечение и инструктивную документацию комплекса "РОНА-Л" любой организации, готовой к формированию библиографических баз данных 1—2.

ЛИТЕРАТУРА

1 Глушановский А.В., Каленов Н.Е., Лексикова Е.Е. База данных "Science Citation Index" на CD-ROM / Государственная научно-техническая программа России "Средства обеспечения исследований по физико-химической биологии и биотехнологии": Информ. бюл. 1993. Вып. 6.

Настраиваемая система для создания и поддержки библиографических баз данных / Васильев А.В., Власова С.А., Глушановский А.В., Кале­нов Н.Е. // Автоматизированные библиотечно-информационные систе­мы: Материалы 6-го Сиб. семинара с междунар. участием. Новосибирск, 1996. С. 74—75.

С.Р. Баженов, Н.А. Мазов, Н.А. Малицкий, И.С. Баженов

ПРОГРАММНЫЙ КОМПЛЕКС ДОСТУПА
К БАЗАМ ДАННЫХ ГПНТБ СО РАН ИЗ ИНТЕРНЕТ


Система поиска в базах данных ГПНТБ СО РАН представляет собой программно-информационный комплекс, основным назначением которого является предоставление возможности работы конечного пользователя сети Интернет с информационными ресурсами ГПНТБ СО РАН.

Характерными чертами данной системы являются:

— простота в использовании;

— дружественный интерфейс;

— возможность регистрации пользователя с дальнейшей установкой индивидуальных прав работы в системе;

— возможность выбора режима поиска в зависимости от уровня подготовки и потребностей пользователя;

— функциональная полнота с возможностью дальнейшего развития.

Описываемая система расположена на Web-сервере ГПНТБ СО РАН по адресу Интернет: .nsc.ru, ссылка "Электронный каталог и базы данных".

При проектировании настоящей системы поиска в библиографических базах данных был проведен анализ аналогичных систем, используемых в иностранных и отечественных библиотеках. При этом преследовались следующие цели:

— выявить характерные черты интерфейсов, используемых в этих системах;

— оценить функциональные возможности этих систем;

— используя данные анализа, определить требования к разрабатываемой системе.

В ходе анализа были рассмотрены, как наиболее типовые, системы поиска в библиографических базах данных: 3 зарубежных организации — OPAC-97, библиотеки Конгресса США, Bibliotheks-Verbund Bayern (BVB) — и 3 отечественных — ГПНТБ России, Библиотеки по естественным наукам (БЕН), библиотеки Агропрома.

Отметим, что о достоинствах и недостатках рассмотренных систем можно говорить, исходя из трех точек зрения:

— удобство работы с системой для пользователя;

— поддержка системных возможностей пользователя;

— принципы построения и функционирования системы, возможности ее дальнейшего развития как программного продукта.

OPAC-97. Экранная форма поискового запроса содержит набор жестко определенных поисковых полей, таких как: Автор, Слова из заглавия, Ключевые слова, Издательство, Год издания и т.д.

Достоинства: интерфейс прост для понимания пользователем.

Недостатки: отсутствует словарь поисковых терминов, набор поисковых полей жестко зафиксирован, логика построения запроса (основанная на связи И между терминами поиска) позволяет проводить в основном предметный поиск.

Библиотека Конгресса США. Форма поискового запроса имеет три строки, каждая из которых содержит следующие поля: вид поискового поля, его значение и тип логической связи между его частями. В сравнении с OPAC-97, здесь пользователь может гибко строить запрос, выбирая нужные ему термины поиска. Однако здесь возможно выбрать всего три вида поисковых полей для формирования запроса, логические связи между которыми выбираются пользователем из существующего набора. Словарь терминов поиска также отсутствует.

Bibliotheks-Verbund Bayern (BVB) – Subito. Система поиска Subito, эксплуатируемая в BVB, обладает более богатыми возможностями по сравнению с рассмотренными ранее. В ней предусмотрено два режима поиска: используемый по умолчанию (стандарт) и расширенный режим (эксперт). Рассмотрим первый режим. Каждая строка формы поискового запроса состоит из следующих полей: тип поискового термина, его значение, его связка с остальным запросом. Также в каждой строке имеется кнопка, при нажатии которой вызывается словарь поисковых терминов текущей базы данных. Словарь открывается для соответствующего термина поиска, начиная с позиции, которая определяется введенным значением данного термина. Однако выбор значения из словаря сразу приводит к активации поиска с потерей информации, ранее введенной в форме поискового запроса. Режим эксперта не позволяет использовать словарь поисковых терминов.

ГПНТБ России. Представлен один режим поиска с фиксированным набором полей поиска, что ограничивает пользователя в воз­можности создания поискового запроса. Существует возможность смены формата вывода (полное или краткое описание) и связка И и ИЛИ, одна для всех полей. Нет словаря терминов и не учтены кодировки, что очень важно для пользователей систем доступа к Интернет, для операционных систем, отличных от Windows.

БЕН. Данная система позволяет провести поиск в базах данных БЕН по фиксированному количеству терминов, фиксированному набору поисковых выражений и используя связки равно и содержится, имеются словари авторов и терминов, из которых пользователь может выбрать значение. Есть возможность сразу перейти к определенному блоку найденных документов. Основной недостаток данной системы – отсутствие помощи для введения верного запроса и нестандартное формирование поисковых выражений. Система работает в фиксированной символьной кодировке, что создает трудности для пользователей.

Библиотека Агропрома. Данная система обладает некоторыми полезными возможностями, отсутствующими в описанных выше системах. К ним можно отнести: возможность поиска во всех базах данных одновременно, во всех БД одной тематики, в отдельно выбранных БД; гибкость задания поискового выражения (поиск с опечатками, поиск однокоренных слов), а также довольно понятный поисковый язык; выдача найденных документов с выделением цветом или шрифтом терминов запроса; также система учитывает широко используемые кодировки символов. К недостаткам данной системы можно отнести один режим поиска (эксперт), неудобство выбора баз данных для поиска, отсутствие показа единого массива найденных документов.

На основе анализа рассмотренных систем можно определить требования, которым должна соответствовать разрабатываемая система поиска в библиографических базах данных:

— интерфейс системы должен быть максимально понятен пользователю. Это достигается за счет правильного построения экранной формы поискового запроса, а также наличия краткого, но при этом информационно емкого описания работы с системой;

— система должна учитывать различные символьные кодировки, применяемые в различных операционных системах;

— система должна предлагать различные варианты работы с ней в соответствии с подготовкой пользователя;

— будучи простой в использовании, данная система поиска должна обладать максимальным числом поисковых инструментов, одним из которых является словарь поисковых терминов;

— как программный продукт данная система должна обладать должной гибкостью, которая позволяет легко ее модифицировать в соответствии с текущими требованиями к ней.

Все эти замечания были должным образом учтены при проектировании и разработке настоящей системы поиска в библиографических базах данных ГПНТБ СО РАН. Также были использованы некоторые идеи проанализированных систем.

В качестве общесистемного программного обеспечения использовались WWW-ISIS версии 3.0 (WWW-сервер для баз данных, разработанных под управлением ИПС CDS/ISIS), а также языки WWW: HTML и " onclick="return false">
В клиентской части необходима поддержка языка JavаScript, поэтому конечные пользователи данной системы должны использовать Web-броузеры (Web-browsers), которые поддерживали бы данный язык. Тестирование и отладка системы проводилась для двух броузеров: Internet Explorer 3.0+ и Netscape Navigator 3.0+. Поэтому рекомендуется использовать данные броузеры версий не ниже указанных (однако совершенного результата можно достичь, используя Internet Explorer 4.0+ и Netscape Navigator 4.05+).

В качестве базового средства доступа к базам данных ГПНТБ СО РАН используется WWW-ISIS версии 3.0: WWW-сервер для баз данных ISIS фирмы BIREME. Вместе с сервером WWW-ISIS производитель предлагает документацию, содержащую подробное описание всех функциональных возможностей сервера, спектр которых очень широк и включает функции взаимодействия с Web-сервером, выполнения поискового запроса к БД, работы со словарем поисковых терминов, ввод, редактирование, удаление, вывод, сортировка, блокирование данных, а также набор функций для диагностики работы сервера в процессе обработки запросов. Немаловажным фактором является возможность бесплатного использования данного программного продукта.

Клиентская часть системы реализована стандартными средст­вами WWW, а именно языками HTML и " onclick="return false">
Данная система позволяет пользователю в ходе интерактивного диалога провести информационный поиск в выбранной им базе данных. В системе четыре режима формирования поискового запроса: ПРОСТОЙ, СТАНДАРТ, ЭКСПЕРТ и МУЛЬТИ. В режимах ПРОСТОЙ, СТАНДАРТ и ЭКСПЕРТ поиск проводится только в одной выбранной базе данных, в режиме МУЛЬТИ реализована возможность поиска в нескольких базах данных одновременно. При использовании режима ПРОСТОЙ используется простейшая формулировка запросов; в режиме СТАНДАРТ пользователь более гибко может задавать поисковый запрос, а также может пользоваться словарем поисковых терминов для выбора значения поискового поля при формировании запроса к текущей базе данных; в режиме ЭКСПЕРТ пользователь должен хорошо знать поисковый язык, используемый в СУБД CDS/ISIS/М. Режим МУЛЬТИ является аналогом режима ЭКСПЕРТ, но позволяет проводить поиск по нескольким базам данных.

Пользователь может управлять видом выдаваемой ему информации через задание таких параметров выдачи, как форма и порция выдачи. Он также может свободно перемещаться в диапазоне найденной информации. При возникновении вопросов по использованию данной системы пользователь всегда может воспользоваться справочной информацией.

Сеанс работы пользователя с системой начинается с выбора способа входа в систему. Он может войти как анонимный пользователь или, если он ранее прошел регистрацию и получил идентификационный код, как регистрированный пользователь. Для получения идентификационного кода он может пройти регистрацию, чтобы в дальнейшем работать с системой как регистрированный пользователь. Регистрация дает пользователю возможность работать с бoльшим перечнем баз данных и решать определенные задачи (в частности, работать с заказом по МБА). Одновременно пользователь может выбрать правильную символьную кодировку (которую корректно поддерживает Internet Browser). В настоящий момент система поддерживает 5 кодовых таблиц (Win-1251, KOI8-R, ISO-8859-5, ALT-866, Mac) и два языка (русский и английский).

В процессе обращения к базам данных необходимо учитывать то, что пользователи должны иметь разные права доступа, а именно, видеть определенное количество БД, проводить поиск в определенных БД, получать доступ к определенным задачам и т.д. Также регистрация необходима для сбора различной статистической информации.

В связи с вышесказанным была разработана система регистрации, являющаяся первым блоком системы поиска в БД, учитывающая личные требования и приоритеты для каждого зарегистрированного пользователя.

Выставленные в Интернет-доступ БД ГПНТБ СО РАН включены в группы для структуризации информации. Пользователь может выбрать для работы одну или несколько групп БД.

Разработка и внедрение описанной системы позволяет решать комплекс крупных библиотечно-информационных задач.

1. Получение статистики работы пользователей с БД.

Для расчета различных статистических данных, как то – количество обращений к БД (рейтинг БД); количество считанной в результате поиска информации (трафик); количество обращений к БД распределенное по регионам России, по странам мира, по количеству частных и юридических лиц и т.д.

2. Доставка копий документов, имеющихся в фондах библиотеки через Интернет.

Доставка через Интернет заказанных копий документов, преобразованных с помощью сканера в графический формат.

3. Формирование через Интернет сводного каталога журналов и книг, получаемых библиотеками Сибирского региона.

В ГПНТБ СО РАН ведется учет экземпляров журналов и книг, имеющихся в библиотеках Сибирского региона. В базе данных регистрируются сиглы библиотек, имеющих экземпляры изданий, на основании информации, поступающей в ГПНТБ СО РАН только раз в год, поэтому необходимо ускорить поступление информации используя Интернет. Это позволит оперативно обновлять информацию и даст возможность предоставлять читателям свежую информацию об изданиях.

4. Корпоративная каталогизация в регионе на основе ГПНТБ СО РАН.

ГПНТБ СО РАН получает обязательный экземпляр издаваемой литературы и ведет электронный каталог всех поступлений в библиотеку. Библиотеки институтов Сибирского отделения также вводят свои поступления в электронные каталоги. Получается боль­шое дублирование работы, и страдает качество создаваемых каталогов, в частности, из-за разного индексирования. В связи с этим актуальной задачей является получение электронного описания издания другой библиотекой региона через Интернет сразу же после ввода его в каталог ГПНТБ СО РАН. Необходимо решение и обратной задачи: ввод описания издания, полученного библиотекой и не имеющегося в ГПНТБ СО РАН, в общий электронный каталог. При решении задачи корпоративной каталогизации попутно можно решить проблему оперативного формирования сводного каталога изданий, имеющихся в библиотеках региона.

5. Создание электронной библиотеки для обеспечения пользователей текстами документов из полнотекстовых баз данных.

Описанная выше система эксплуатируется в ГПНТБ СО РАН в течение года. В настоящий момент через эту систему обеспечивается доступ к более чем 80 БД общим объемом около 20 Гб, из них четыре — полнотекстовые, для которых возможен просмотр полных текстов с использованием Web-броузеров, а также получение текста в формате pdf.

В промышленной эксплуатации находится и задача заказа по МБА через Интернет, позволяющая пользователю либо заказывать источник, найденный в электронном каталоге, либо ввести информацию о нем и осуществить заказ.

Данная система может гибко модифицироваться и неограниченно дополняться, что важно при мощном развитии Интернет и возложении на нее все большего числа функций обычных средств связи.